Skip to content
团子云技术 Lite 1.048596
Go back

大模型的物理定律:Scaling Laws 从何而来,又往哪去

大学时候看过一点 CV 的皮毛。在 CV 世界里,性能提升是有迹可循的——把 ResNet 换成 Swin Transformer,改一下感受野设计,调一调数据增强策略,每个改进都是一个精巧的模块,你能清晰地指出”就是这个地方让 mAP 涨了两个点”。

然后开始关注 LLM。刚转过来的时候冲击最大的不是 Transformer 本身(毕竟 ViT 也用 Transformer),而是这帮人根本不怎么改结构。堆卡,堆数据,等着看 Loss 曲线往下掉。这就是 Scaling Laws 统治的世界。


什么是 Scaling Laws

Scaling Laws 是一条被反复验证的经验规律:模型的性能,与三个变量之间存在极其稳定的幂律关系。

变量符号含义
计算量CC训练用了多少 GPU 算力(FLOPs)
参数量NN网络有多大(参数个数)
数据量DD喂了多少 Token

你把这三个东西按比例放大,Loss 就按幂律往下掉——在对数坐标上是一条近乎完美的直线,目前还没看到尽头。

2020 年 OpenAI 的论文给出了公式(简化版):

L(N,D)(1N)α+(1D)βL(N, D) \propto \left( \frac{1}{N} \right)^\alpha + \left( \frac{1}{D} \right)^\beta

公式不复杂,含义却很暴力:只要 NNDD 够大,Loss 就一定会降。跟你怎么设计 Attention 头、用什么激活函数、加不加 Layer Norm 的位置,关系不大。


可预测性:资本最喜欢的部分

Scaling Laws 最让资本兴奋的地方,是能提前算账。

拿极小的算力训练几个小模型(10M、100M、1B 参数),画出 Loss 随 NNDD 变化的曲线,然后外推——你就能提前知道砸 1 亿美元训一个 100B 模型,Loss 大概是多少。不需要真的训。

大模型训练因此变成了可以提前算 ROI 的事。投资人不需要”相信大力出奇迹”,他们可以算出大力出多少奇迹。过去几年巨头敢在模型训练上砸这么多钱,是因为算过账,不是赌博。


两条路线之争

关于怎么科学地”缩放”,业界有过一次著名的分歧。

Kaplan 流派(OpenAI,2020):优先堆参数量 NN。他们认为模型大小的收益比数据量的收益更陡峭,所以你看到了 GPT-3——175B 参数,只读了约 300B Token。当时的逻辑是,脑子够大就行,书读得少一点没关系。

Chinchilla 流派(DeepMind,2022):数据才是王。他们发现大多数大模型都”脑大无神”——参数给得太多,数据喂得太少。Chinchilla 的核心结论是:每增加 1 倍参数量,就应该对应增加 1 倍数据量。参数和数据应该等比增长

这个结论直接影响了后来的模型设计。Qwen、Llama 系列都遵循了这个原则。现在的 Qwen3-8B 之所以比 GPT-3(175B)强得多,原因不在结构——8B 的模型读了超过 10T Token 的数据。这就是”过度训练”(Overtraining):把小模型塞进海量数据,硬生生练成神童。

Kaplan (OpenAI 2020)Chinchilla (DeepMind 2022)
优先增长什么参数量 NN参数和数据等比增长
代表模型GPT-3 (175B, ~300B tokens)Chinchilla (70B, ~1.4T tokens)
核心观点模型越大越好给定固定算力预算,应同时扩大模型和数据
对后世的影响开启了千亿参数时代Qwen、Llama 的过度训练路线

MoE:在缩放定律图表上开作弊点

MoE(Mixture of Experts,混合专家)的出现,是人类试图绕开 Scaling Laws 约束的产物。

传统 Dense 模型有一个硬伤:参数量 NN 越大,每一步推理的计算开销就越大。175B 参数推理时要全部激活一遍,训练成本高,推理延迟高,显存占用大。

MoE 换了个思路:把模型拆成多个”专家”(Expert),每个专家是一个独立的小网络;总参数量 NN 堆到极大(比如 1T),但每次推理只激活一小部分(比如 8 个)。于是你在 Scaling Law 图表上开了一个作弊点——享受大参数模型带来的低 Loss,只付出小计算量的代价。从 Scaling Laws 的视角看,MoE 有效提升了 NN,但没有等比增加推理计算量 CC,在 NN-CC 坐标轴上跳出了 Dense 模型的约束曲线。

这也是为什么 DeepSeek-V2/V3、Mixtral、Qwen-MoE 都在往这个方向走。Scaling Laws 是物理定律,MoE 找到的是工程上的”作弊码”。


数据的尽头

暴力美学成就了这几年的 AI 盛世,但有一个绕不开的问题:数据快用光了。

互联网上的高质量文字数据是有限的。已有研究估算,目前可用的公开文本数据总量大约在 10T-100T Token 量级,按现在的训练规模,天花板已经不远了。当 DD 无法再增加时,Scaling Laws 可能遭遇真正的撞墙。

所以现在大家都在搞两件事:合成数据(用强模型生成训练数据喂弱模型)和多模态(把视频、图像、音频拉进训练,扩大”有效 DD”)。Scaling Laws 还没死,但它正在进入一个更复杂的阶段——从”多拿数据”到”创造数据”。


Scaling Laws 的本质:在绝对的力量面前,技巧显得微不足道。

它是资本和算力的指南针,告诉 OpenAI、DeepMind、阿里巴巴(Qwen 的开发者)、Meta(Llama 的开发者)这样的玩家——不要纠结算法优化,先去买卡,先去清洗数据。只要满足了缩放定律,智能就会从海量参数中涌现。

但指南针只管方向,不管终点。数据枯竭的那一天,Scaling Laws 会带我们走到哪里,笔者也不知道。


参考资料


Share this post on:

Previous Post
Qwen3.5 推理全流程解析:基于 vLLM 源码的混合架构逐层拆解
Next Post
Qwen3 推理全流程解析:基于 vLLM 源码的逐层拆解