开云「中国」kaiyun网页版登录入口

欧洲杯体育即模子跟着大小加多而赢得新身手的趋势-开云「中国」kaiyun网页版登录入口
栏目分类
热点资讯

欧洲杯体育即模子跟着大小加多而赢得新身手的趋势-开云「中国」kaiyun网页版登录入口

发布日期:2024-11-29 02:05    点击次数:204

欧洲杯体育即模子跟着大小加多而赢得新身手的趋势-开云「中国」kaiyun网页版登录入口

文 | 适说念

近期,围绕 Scaling Law 的究诘不绝于耳。

缘由是,The information 在一篇著作指出,OpenAI 下一代旗舰模子 Orion(或称 GPT-5)相较于现存模子,身手提高"有限"(代码身手致使不如现存模子),远不如 GPT-3 到 GPT-4 的跃升,而且 Orion 在数据中心的运行成本更高。为此,OpenAI 不得不连夜升沉计策。

淌若其所言非虚,就不会唯一 OpenAI 一家被困扰。

不出所料,Google 也"出事"了。其下一代 Gemini 模子正本应该是一次紧要升级,但有职工自满:近期在大幅加多资源进入后,模子性能未达到指令层预期,团队连夜相易计策。

与此同期,Anthropic 被曝已暂停鼓吹 Opus 3.5 的责任,官网还撤下了"行将推出"字样。

"三巨头"接连碰壁,让东说念主梦猜测:Scaling Law 可能失效了?

Scaling Law,即轨范定律,称得上 AI 行业的大模子第一性旨趣。

2020 年,OpenAI 在论文 Scaling Laws for Neural Language Models 冷落该定律。其中枢的不雅点是,影响大模子性能的三毛糙素:计较量、数据集大小、模子参数目。当不受其他两个身分制约时,模子性能与每个单独的身分都存在幂律筹议。

只消 Scaling Law 建树,意味着"更大更好""鼎力出遗迹的暴力好意思学"——大模子的身手可以通过堆更多的算力、搞更多的参数,喂更多的数据得到大幅提高。

如今,当模子边界和成本大幅加多,但实质性能却提高"有限"时,Scaling Law 别传是否会被终结?

正方:Scaling Law 别传终结

当作 Scaling Law 的早期倡导者之一,前 OpenAI 首席科学家 Ilya Sutskever 示意,扩展考验的驱逐,依然趋于安祥。即,传统的无监督 Pre-training 已达极限。他说,2010 年代是 Scaling 的时期,现在咱们再次回到发现遗迹的时期。每个东说念主都在寻找下一个遗迹。现在紧迫的是扩大"正确"的边界。

何谓"正确"?Ilya 示意,SSI 正在筹议一种全新的替代法子,来扩展预考验。

天然他莫得自满新法子是什么,但根据 OpenAI 和 Google 的尝试,约略可以视察一二。

OpenAI 的筹议东说念主员征战推理模子(reasoning models)等新技能,用于弥补传统考验法子的局限性。

Google 也效仿这一念念路。近几周,DeepMind 在 Gemini 团队内组建了一个由首席筹议科学家 Jack Rae 和前 Character.AI 联创 Noam Shazeer 指令的小组,专注于征战访佛身手。

此外,DeepMind 团队还在手动优化模子性能,包括相易超参数(hyperparameters)等变量。这些超参数决定了模子处理信息的方法,举例,飞速在考验数据中建筑宗旨或模式之间的关联。筹议东说念主员通过"模子调优"测试不同的超参数,以细目哪些变量将带来最好成果。

本年 6 月,普林斯顿大学计较机科学熟谙 Arvind Narayanan 与其博士生 Sayash Kapoor 发表了一篇著作 AI scaling myths。著作指出,Scaling "重视论"是建筑在一系列曲解之上。

第一,什么是"更好的"模子?具有"浮现身手"的模子。

Scaling 只是将困惑度(perplexity)下落进行了量化,即模子能够预测下一个单词。关联词,对最终的用户而言,困惑度险些绝不测念念——着实紧迫的是模子边界增万古,模子呈现出的"浮现身手",即模子跟着大小加多而赢得新身手的趋势。

问题在于,"浮现身手"不受任何访佛定律的独揽。

为什么"浮现身手"不行无穷握续?这一问题直指对于 LLM 身手的中枢争议:LLM 究竟能否进行外推,照旧只会学习考验数据中已有的任务?现存凭据尚不齐备,不同筹议者各执一词。但 Arvind Narayanan 团队倾向于怀疑格调。在一些专诚测试 LLM 处分新任务身手的基准测试中,其说明时时较差。

淌若 LLM 无法越过考验数据中的内容,就会进入每一个传统的机器学习模子最终都会进入的平台期。

第二,更多的数据从何处来?

有东说念主觉得,新的数据源(举例将 YouTube 转录为文本)可以加多一两个数目级的可用数据量。如实,YouTube 包含约 1500 亿分钟的视频内容。关联词,琢磨到其中大部分视频缺少可用的音频(举例音乐、静止图像或游戏画面),过程去重、质地过滤后,实质可用的考验数据远少于 Llama 3 所使用的 15 万亿 tokens。

退一步说,对于"数据破钞"的究诘并分离理。考验数据长期有,只是成本越来越高,比如版权、监管等等。

对于 LLM 而言,咱们可能还有几个数目级的扩展空间,也可能扩展依然收尾了。如今,筹议的要点已从构建更大数据集,转向提高考验数据的质地。通过尽心的数据计帐和过滤,可以用更小的数据集构建出雷同强盛的模子。

第三,合成数据不是全能魔药。

还有一个不雅点,哄骗现存模子生成考验数据。

这个不雅点雷同存在误区——征战者并未(也无法)哄骗合成数据权臣加多考验数据的总量。

一篇论文注目列出了合成数据在考验中的用途——主要聚拢在弥补特定边界的不及,举例数学、编程、低资源话语的优化。雷同,英伟达最近推出的 Nemotron 340B 模子,专注于生成合成数据,是将对都当作其主要用途。天然它也有一些其他用途,但取代现存预考验数据源并不在其中。

换句话说,盲目靠生成普遍合成数据,无法达到高质地东说念主类数据所具备的成果。

尽管如斯,合成考验数据在某些场景中取得了遍及获胜,举例 2016 年 AlphaGo 打败围棋宇宙冠军,以过甚后续版块 AlphaGo Zero 和 AlphaZero 的说明。这些系统通过自我对弈学习,后两者致使能我方生成高质地棋局。

自我对弈是"系统 2-->系统 1 蒸馏"的经典案例,即通过一个渐渐且不菲的"系统 2 "生成考验数据,用于考验快速且低价的"系统 1 "模子。

这种法子在围棋这么完全紧闭的环境中说明出色,将其执行到游戏除外的边界仍然是一个有价值的筹议地方。在某些紧迫边界(如代码生成)中,这一计策约略可以说明作用。关联词,咱们不行指望在更绽开的任务(如话语翻译)上收尾访佛的无穷自我校正。可以预想,通过自我对弈收尾大幅提高的边界将是特例,而非普遍功令。

反方:Scaling Law 莫得墙

前列 The information 滋扰军心,后方 Sam Altman 在 X 平台上发言—— there is no wall。

近期,他在 Reddit 的 Ask Me Anything 上也示意,OpenAI 将在本年晚些时刻发布"相称好的版块"。

只不外,鉴于"草莓"炒作的影响、Ilya Sutskever 的威信,以及 OpenAI 确现时说明,Altman 的话不免有"挽尊"之嫌。

Suleyman 在近期采访中示意:模子的边界既在变大,也在变小,这种趋势会握续下去。旧年运行流行一种新法子,称为蒸馏。这类法子哄骗大型、高成本模子来考验微型模子。这种监督成果荒谬可以,面前已有充分的凭据撑握这极少。因此,边界仍然是这场竞争中的要道身分,夙昔还有很大的发展空间,数据量也将握续增长。至少在接下来的两三年内,Scaling Law 在提供超预期说明方面的程度不会有任何放缓。

本年 10 月 21 日,在微软 AI 之旅伦敦站行为上,Satya Nadella 在演讲中示意:Scaling Law 是陶冶不雅察所得,但它被咱们称作定律,而且一直灵验。

本年 7 月,微软首席技能官 Kevin Scott 在剿袭红杉老本搭伙东说念主采访时示意:尽管其他东说念主可能这么想,然则咱们在边界化上并莫得际遇边缘收益递减的情况。

11 月 14 日,前谷歌 CEO Eric Schmidt 在播客中示意:莫得凭据标明 Scaling Law 依然运行罢手。他预测在夙昔五年,东说念主工智能系统的身手将是现在的 100 倍,能够在物理和数学边界进行推理。

Bindu Reddy 示意,所谓的 AI 延缓实质上不足轻重。主要原因在于 AI 技能发展的后劲依然险些在各样基准测试中得以体现。当达到 100/100 的高分时,就很难再找到新的冲破地方。因此,AI 市集的"放缓"更多地反应了技能庄重度,而非立异身手的不及。(你信吗?)

Scaling Law 2.0:token 越多,精度也要越高

不管诸君若何"挽尊",都秘籍不了大模子"延缓"的事实——感受不到当初的惊艳。

约略,还有其他目的。

近期,来自哈佛大学、斯坦福大学、麻省理工等机构的互助团队发表了一篇题为 Scaling Laws of Precision 的论文,激励任性究诘。

筹议冷落:精度在模子扩展功令中比之前觉得的愈加紧迫,可以权臣影响话语模子的性能。在以往形色模子性能随参数目和考验数据量变化的扩展功令,基本忽略了精度这并立分。跟着模子边界的不休扩大,低精度的量化或将不再灵验。

当先,通过实验,筹议东说念主员制订了新的精度缩放定律。另一项紧迫发现则冷落了预考验期间计较的最优精度。根据该筹议,当同期优化参数数目、数据和精度时,这一精度频频与计较预算无关。

其次,普遍取舍的 16 位模子考验法并非最优,因为好多位是豪阔的。关联词,使用 4 位进行考验则需要不成比例地加多模子大小,以守护赔本缩放。筹议东说念主员的计较标明,对于较大的模子而言,7-8 位是计较最优的。

当模子大小从一运行就固定时,情况就会发生变化:更大且更好的模子应以更高的精度进行考验——举例,使用 16 位的 Llama 3.1 8B 模子。实质的计较省俭还取决于硬件对更低精度的撑握。此外,这里筹议的模子(参数最多达 17 亿个)尚未在最大的实质边界上进行测试。不外,这些一般趋势仍然适用于更大的模子。

CMU 熟谙 Tim Dettmers 示意,这是长期以来最紧迫的一篇论文。他觉得,东说念主工智能的大部分跨越都来自计较身手的提高,而(最近)这主要依赖于低精度路子的加快(32- > 16 - > 8 位)。现在看来,这一趋势行将收尾。再加上摩尔定律的物理驱逐,大模子的大边界扩展可以说要到头了。他展望,跟着低精度带来的效用提高达到极限,将出现从纯边界彭胀向专用模子和东说念主本应用的升沉。

AGI 路漫漫。不外,寰球无需萎靡。

退一万步,正如 OpenAI 筹议东说念主员 Steven Heidel 所言,就算现在 LLM 停滞了,在现在模子的基础上,还有至少十年的家具等着你去征战。

是不是又劲头全都了。

参考:

1、Scaling Laws 终结,量化不消,AI 大佬都在凝视这篇论文,机器之心

2、新 Scaling Law 浮出水面!OpenAI 里面职工爆料下一代模子 Orion 性能堪忧;量化 Llama3 贫寒,这些都有了新解,51CTO 技能栈  



首页 | 关于我们 | 智慧教育 | 服务支持 | 解决方案 | 新闻动态 | 投资者关系 |

Powered by 开云「中国」kaiyun网页版登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024