“密度法则”比Scaling Law更有效?清华刘知远团队
2024-12-18 22:07
起源:DeepTech深科技近期,对于 Scaling Law 是否连续的争辩一直,有人以为 Scaling Law 可能将会“撞墙”;也有观念以为,Scaling Law 的潜力远未被充足发掘,OpenAI CEO Sam Altman 更是以一句直白的“There is no wall”回应质疑,夸大扩大模子范围仍然是晋升机能的无效门路。这场争辩激发了人们对 AI 将来开展门路的深刻思考。但除了纯真寻求模子范围,AI 的开展或者另有其余器量与优化的空间。近期,来自清华年夜学与面壁智能刘知远教学地点团队的研讨职员提出了一个全新的视角——“才能密度”(Capacity Density),为评价差别范围 LLM 的练习品质供给了新的同一器量框架,为处理以后窘境供给了新的思绪。日前,这项研讨结果宣布在预印本平台 arXiv 上 [1]。图丨相干论文(起源:arXiv)什么是才能密度?研讨团队将其界说为模子的“无效参数目”与现实参数目的比值,是一种权衡 LLM(Large Language Model)练习品质的新指标。团队起首引入了参考模子的观点,经由过程拟合参考模子在差别参数范围下的机能表示,树立起参数目与机能之间的映射关联。详细来说,对一个参数目为 NM 的模子 M,假如其鄙人游义务上的机能分数为 SM,研讨职员管帐算出参考模子要到达雷同机能所需的参数目 N(SM)。模子 M 的密度就界说为这个“无效参数目”与实在际参数目的比值:ρ(M) = N(SM)/NM。举个例子,假如一个 4B 参数的模子能到达 8B 参数参考模子的机能,那么这个 4B 模子的密度就是 2(8B/4B)。这个指标同时反应了模子的后果跟效力。为了正确估量模子机能,研讨团队采取了两步估量法。第一步是丧失估量,经由过程一系列差别范围的参考模子来拟合参数目与言语建模丧失之间的关联;第二步是机能估量,斟酌到出现才能的存在,研讨职员联合开源模子来盘算它们的丧失跟机能,终极树立起完全的映射关联。研讨职员剖析了从 2023 年 Llama-1 宣布以来的 29 个主流开源基座模子,发明了一个主要法则: LLM 的最年夜密度随时光呈指数增加,能够用以下公式表现:ln(ρmax) = At + B此中 ρmax 是 LLM 在时光 t 时的最年夜密度。基于 5 个普遍应用的基准测试 (MMLU、BBH、MATH、HumanEval 跟 MBPP),研讨发明 A≈0.007,这象征着,LLM 的最年夜密度大概每 3.3 个月翻一番。(起源:课题组)换句话说,大概每过 3 个月,咱们就能用参数目减半的模子到达以后开始进模子的机能程度。比方,2024 年 2 月 1 日宣布的 MiniCPM-1-2.4B,其机能能够与 2023 年 9 月 27 日宣布的 Mistral-7B 相媲美。基于密度法令,研讨团队提出了多个主要推论。起首,密度法令标明,跟着密度的指数增加,等同机能的推理本钱将明显降落。比方,2022 年 12 月的 GPT-3.5 模子每百万词的推理本钱为 20 美元,而 2024 年 8 月的 Gemini-1.5-Flash 模子仅为 0.075 美元,本钱下降了 266 倍。(起源:课题组)其次,研讨还发明,自 ChatGPT 宣布以来,模子密度的增加速度明显放慢。详细而言,ChatGPT 宣布后,密度增加速度增添了 50%。这一景象阐明,产业界跟学术界对高效模子的存眷明显晋升,并催生了更多高品质的开源模子,为研讨者下降了技巧门槛。(起源:课题组)再次,密度法令与摩尔定律的联合提醒了模子算法效力与硬件机能独特驱动下的技巧提高。研讨表现,在摩尔定律的感化下,雷同价钱芯片的盘算才能每 2.1 年翻倍,而密度法令标明模子的无效参数范围每 3.3 个月翻倍。在这双重增加的感化下,将来高密度模子或者能在一般装备(如手机、PC)上实现高效运转,推进 AI 技巧的遍及化。(起源:课题组)别的,团队指出,现有的模子紧缩技巧(如剪枝跟蒸馏)未必能进步模子密度。试验标明,年夜少数紧缩模子的密度低于原始模子,起因可能在于紧缩进程中练习缺乏,招致模子未能到达密度最优。(起源:课题组)最后,研讨团队指出,密度倍增周期决议了模子存在高性价比无效应用期。比方,2024 年 6 月宣布的 Google Gemma-2-9B 模子,其练习本钱约 185 万国民币,但仅两个月后,它的机能就被参数目减半的 MiniCPM-3-4B 超出。为了在这短短两个月内接纳本钱,Gemma-2-9B 须要实现 17 亿次用户拜访。企业在开辟跟安排 LLM 时,须要疾速均衡练习本钱与收益,在无限时光内充足应用模子代价。因而,比起自觉寻求更年夜的参数范围,更应当存眷模子的密度优化,寻求以最小的盘算开支实现最佳后果。(起源:课题组)将来,密度研讨还面对着多个主要偏向。起首是评价基准的完美。跟着 LLM 才能的一直扩大,现有的评价数据集可能无奈片面反应模子的实在才能。其次是多模态模子密度的器量成绩,这须要斟酌差别模态之间的交互特征。别的,推理密度定律的研讨也很主要,这波及到怎样在差别推理盘算量下优化模子表示。或者,LLM 开展将会阅历一场由“范围至上”到“密度至上”的范式改变。在对于这项研讨的讲演中,团队提到,AI 时期的三年夜中心引擎——电力、算力与智力,其密度都在疾速增加:电池能量密度在从前 20 年中增加了 4 倍,其倍增周期约为 10 年;摩尔定律则提醒,芯片的晶体管密度每 18 个月翻倍;而 AI 模子才能密度每 100 天翻倍的速率更是惊人。在这一趋向下,盘算基本设备的散布式特征将进一步催生有数年夜模子的出现。跟着寰球数据核心、边沿盘算节点的扩大,加上密度增加带来的效力晋升,咱们将看到更多专门化、当地化的 AI 模子出现,实现“AI 无处不在”的愿景。与此同时,密度的晋升也象征着用更少的资本实现更强的才能,这不只下降了 AI 开展对动力跟算力的需要,也为 AI 技巧的可连续开展供给了可能。参考材料:1.https://arxiv.org/pdf/2412.04315v12.https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows排版:刘雅坤]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->
相关推荐