大模型的物理定律：Scaling Laws 从何而来，又往哪去

大学时候看过一点 CV 的皮毛。在 CV 世界里，性能提升是有迹可循的——把 ResNet 换成 Swin Transformer，改一下感受野设计，调一调数据增强策略，每个改进都是一个精巧的模块，你能清晰地指出”就是这个地方让 mAP 涨了两个点”。

然后开始关注 LLM。刚转过来的时候冲击最大的不是 Transformer 本身（毕竟 ViT 也用 Transformer），而是这帮人根本不怎么改结构。堆卡，堆数据，等着看 Loss 曲线往下掉。这就是 Scaling Laws 统治的世界。

什么是 Scaling Laws

Scaling Laws 是一条被反复验证的经验规律：模型的性能，与三个变量之间存在极其稳定的幂律关系。

变量	符号	含义
计算量	$C$	训练用了多少 GPU 算力（FLOPs）
参数量	$N$	网络有多大（参数个数）
数据量	$D$	喂了多少 Token

你把这三个东西按比例放大，Loss 就按幂律往下掉——在对数坐标上是一条近乎完美的直线，目前还没看到尽头。

2020 年 OpenAI 的论文给出了公式（简化版）：

$L(N, D) \propto \left( \frac{1}{N} \right)^\alpha + \left( \frac{1}{D} \right)^\beta$

公式不复杂，含义却很暴力：只要 $N$ 和 $D$ 够大，Loss 就一定会降。跟你怎么设计 Attention 头、用什么激活函数、加不加 Layer Norm 的位置，关系不大。

可预测性：资本最喜欢的部分

Scaling Laws 最让资本兴奋的地方，是能提前算账。

拿极小的算力训练几个小模型（10M、100M、1B 参数），画出 Loss 随 $N$ 和 $D$ 变化的曲线，然后外推——你就能提前知道砸 1 亿美元训一个 100B 模型，Loss 大概是多少。不需要真的训。

大模型训练因此变成了可以提前算 ROI 的事。投资人不需要”相信大力出奇迹”，他们可以算出大力出多少奇迹。过去几年巨头敢在模型训练上砸这么多钱，是因为算过账，不是赌博。

两条路线之争

关于怎么科学地”缩放”，业界有过一次著名的分歧。

Kaplan 流派（OpenAI，2020）：优先堆参数量 $N$ 。他们认为模型大小的收益比数据量的收益更陡峭，所以你看到了 GPT-3——175B 参数，只读了约 300B Token。当时的逻辑是，脑子够大就行，书读得少一点没关系。

Chinchilla 流派（DeepMind，2022）：数据才是王。他们发现大多数大模型都”脑大无神”——参数给得太多，数据喂得太少。Chinchilla 的核心结论是：每增加 1 倍参数量，就应该对应增加 1 倍数据量。参数和数据应该等比增长。

这个结论直接影响了后来的模型设计。Qwen、Llama 系列都遵循了这个原则。现在的 Qwen3-8B 之所以比 GPT-3（175B）强得多，原因不在结构——8B 的模型读了超过 10T Token 的数据。这就是”过度训练”（Overtraining）：把小模型塞进海量数据，硬生生练成神童。

	Kaplan (OpenAI 2020)	Chinchilla (DeepMind 2022)
优先增长什么	参数量 $N$	参数和数据等比增长
代表模型	GPT-3 (175B, ~300B tokens)	Chinchilla (70B, ~1.4T tokens)
核心观点	模型越大越好	给定固定算力预算，应同时扩大模型和数据
对后世的影响	开启了千亿参数时代	Qwen、Llama 的过度训练路线

MoE：在缩放定律图表上开作弊点

MoE（Mixture of Experts，混合专家）的出现，是人类试图绕开 Scaling Laws 约束的产物。

传统 Dense 模型有一个硬伤：参数量 $N$ 越大，每一步推理的计算开销就越大。175B 参数推理时要全部激活一遍，训练成本高，推理延迟高，显存占用大。

MoE 换了个思路：把模型拆成多个”专家”（Expert），每个专家是一个独立的小网络；总参数量 $N$ 堆到极大（比如 1T），但每次推理只激活一小部分（比如 8 个）。于是你在 Scaling Law 图表上开了一个作弊点——享受大参数模型带来的低 Loss，只付出小计算量的代价。从 Scaling Laws 的视角看，MoE 有效提升了 $N$ ，但没有等比增加推理计算量 $C$ ，在 $N$ - $C$ 坐标轴上跳出了 Dense 模型的约束曲线。

这也是为什么 DeepSeek-V2/V3、Mixtral、Qwen-MoE 都在往这个方向走。Scaling Laws 是物理定律，MoE 找到的是工程上的”作弊码”。

数据的尽头

暴力美学成就了这几年的 AI 盛世，但有一个绕不开的问题：数据快用光了。

互联网上的高质量文字数据是有限的。已有研究估算，目前可用的公开文本数据总量大约在 10T-100T Token 量级，按现在的训练规模，天花板已经不远了。当 $D$ 无法再增加时，Scaling Laws 可能遭遇真正的撞墙。

所以现在大家都在搞两件事：合成数据（用强模型生成训练数据喂弱模型）和多模态（把视频、图像、音频拉进训练，扩大”有效 $D$ ”）。Scaling Laws 还没死，但它正在进入一个更复杂的阶段——从”多拿数据”到”创造数据”。

Scaling Laws 的本质：在绝对的力量面前，技巧显得微不足道。

它是资本和算力的指南针，告诉 OpenAI、DeepMind、阿里巴巴（Qwen 的开发者）、Meta（Llama 的开发者）这样的玩家——不要纠结算法优化，先去买卡，先去清洗数据。只要满足了缩放定律，智能就会从海量参数中涌现。

但指南针只管方向，不管终点。数据枯竭的那一天，Scaling Laws 会带我们走到哪里，笔者也不知道。

参考资料

Kaplan et al., “Scaling Laws for Neural Language Models”, OpenAI, 2020. arXiv:2001.08361
Hoffmann et al., “Training Compute-Optimal Large Language Models” (Chinchilla), DeepMind, 2022. arXiv:2203.15556
Fedus et al., “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”, Google, 2021. arXiv:2101.03961