大模型 Scaling 路线的四重边界：能力、能源、供应链与教育应对

AGI（通用人工智能，Artificial General Intelligence）的争议，表面上是技术路线之争，深层其实是资源分配、产业锁定和社会承受能力之争。

过去几年，主流 AI 产业形成了一个强叙事：只要持续扩大模型参数、训练数据和算力规模，大模型就会沿着 scaling law（规模化规律）一路逼近 AGI。这个叙事非常有吸引力，因为它给出了一个简单公式：

更大模型 + 更多数据 + 更多算力 = 更强智能

问题在于，智能不一定只是一条规模曲线。长期规划、持续学习、稳定推理、真正的创造性、对现实世界的可靠理解，都不一定能靠堆参数自然长出来。更麻烦的是，即使这条路线短期继续有效，它也会撞上能源、电网、水资源、数据劳动和社会分配机制的边界。

大模型当然有价值。它已经改变了编程、写作、搜索、客服、教育内容生产和企业知识管理。真正需要警惕的是另一件事：把“大模型 scaling”包装成通往 AGI 的唯一道路，并让全社会为这条单一路线持续加码。

两条 AI 路线：专用智能与通用大模型

AI 发展并不天然只有“大语言模型越做越大”这一种路径。过去十多年，至少存在两种很不一样的路线。

路线	代表系统	核心做法	优点	边界
专用智能路线	AlphaGo、AlphaFold、AlphaGeometry	针对明确问题设计模型、搜索、模拟和验证机制	目标清楚，结果可验证，能耗和规模相对可控	泛化范围有限，需要为不同问题设计不同系统
大模型 scaling 路线	GPT、Gemini、Claude、Grok	用海量数据和算力训练通用模型，再通过指令、工具和 Agent 扩展能力	交互自然，迁移能力强，产品化速度快	成本巨大，错误不可预测，长期规划和持续学习仍不稳定

专用智能路线更像工程和科学问题：定义目标、构造环境、训练模型、验证结果。AlphaFold 能预测蛋白质结构，关键不是它“什么都懂”，而是它在一个极复杂但边界明确的科学问题上建立了强大的建模能力。

大模型路线则更像平台问题：先训练一个覆盖大量语言和知识模式的基础模型，再用提示词、工具调用、插件、Agent 工作流把它接入各种任务。这种路线非常适合产品化，因为它能快速覆盖大量场景，但它的能力边界也更难判断。

scaling 为什么会变成默认路线

大模型路线能够成为产业默认选项，不只是因为技术效果好，还因为它形成了强烈的博弈压力。

只要有一家公司证明“更大模型能带来更强能力”，其他公司就很难停下来。因为模型能力不只影响产品体验，还直接影响融资、估值、人才流向、云资源采购和政府战略判断。任何一家大公司如果不跟进，都可能被认为落后于下一代平台。

这个过程可以用一个简单的产业锁定图表示：

flowchart TD
    A[某家公司训练更大模型] --> B[能力展示引发关注]
    B --> C[融资、估值和人才集中]
    C --> D[竞争对手感到压力]
    D --> E[更多公司加码算力和数据]
    E --> F[行业形成规模竞赛]
    F --> A

    G[AGI 与安全叙事] --> B
    H[政府与资本的战略焦虑] --> E

这里的关键不是“谁最懂智能”，而是谁能把方向讲成一个不能拒绝的战略命题：

不做，就可能被竞争对手超越；
不做，就可能错过下一代计算平台；
不做，就可能让“不安全的一方”先做出来；
只要别人做，自己就必须跟。

这是一种典型的纳什均衡：每个参与者单独看，继续扩大模型都是理性选择；但所有人一起加速，整个行业就会被推向资源消耗越来越高的方向。

大模型能力的结构性短板

大语言模型（LLM，Large Language Model）在许多任务上表现惊人，但它的能力分布并不均匀。它可以在高难度数学、代码生成、论文摘要和复杂问答中给出非常像样的结果，也可能在简单算术、常识约束、事实一致性和多步规划中突然出错。

这种现象常被称为 jagged intelligence，即“锯齿状智能”：能力曲线不是平滑上升，而是高低起伏，很难从一个任务表现推断另一个任务表现。

能力维度	当前大模型的表现	为什么 scaling 未必能彻底解决
长期规划	可以生成计划，但执行多步任务时容易偏移目标	训练目标主要是预测下一个 token，不等同于稳定维护长期目标
持续学习	部署后通常不会自然吸收新经验	模型权重训练完成后基本冻结，在线学习涉及安全、灾难性遗忘和数据污染
稳定推理	能解很多复杂题，也会在简单问题上犯错	语言模式匹配和形式化推理不是同一件事
真正创造性	能组合已有知识，提出方案草图	提出新问题、验证新假设、建立新范式仍高度依赖人类
可解释性	可以解释自己的输出，但解释不一定等于真实推理过程	模型内部表征复杂，输出解释可能只是事后生成的合理化文本

这并不是说大模型没用，而是说“能力强”和“通用智能”之间还有距离。一个能回答大量问题的系统，不一定具备自主设定目标、持续积累经验、稳定理解世界和长期改造环境的能力。

如果 AGI 的定义只是“在很多认知任务上超过普通人”，大模型可能越来越接近；如果 AGI 的定义包含长期自主性、持续学习、因果理解、目标管理和可靠行动，那么 scaling 路线还缺几块核心拼图。

物理边界：算力指数增长，能源线性增长

大模型路线最硬的边界不是哲学，而是物理。

训练侧需要更大规模的 GPU 集群，推理侧也在迅速膨胀。早期聊天机器人一次回答可能消耗几百到几千 token；到了 Agent 工作流，一个任务可能拆成规划、检索、工具调用、代码执行、反思、重试等多个环节，单次任务消耗上万甚至更多 token。

算力需求和能源供给的增长方式并不匹配：

算力需求：C(t) = C0 * 2^(t / T)
能源供给：E(t) = E0 + k * t

前者近似指数增长，后者更多是线性增长。电厂、输电线路、变电站、数据中心园区、冷却系统都需要建设周期，不可能像软件调用量那样几个月翻倍。

flowchart LR
    A[模型参数扩大] --> B[训练算力增加]
    A --> C[推理成本增加]
    D[Agent 普及] --> C
    C --> E[数据中心用电上升]
    B --> E
    E --> F[电网容量压力]
    E --> G[冷却用水压力]
    F --> H[电价和接入周期上升]
    G --> I[地区资源冲突]

国际能源署（IEA，International Energy Agency）曾预测，数据中心用电会在本十年内大幅上升，规模可能接近一个大型工业国家的年用电量。美国北弗吉尼亚等数据中心密集区域已经出现接入电网排队周期拉长的问题。PJM 电网覆盖美国东部多个州，面对数据中心和工业负载增长，也需要寻找新的电力容量。

中国在风电、光伏、水电、核电和特高压建设方面有明显优势，这能缓解一部分算力基础设施压力。但“能源更充裕”不等于“指数级算力需求可以无限满足”。如果每个城市、每个行业、每个岗位都部署大量 Agent，推理侧需求可能迅速吞掉新增电力。

还有一个经常被低估的机制：杰文斯悖论。

单位成本下降，不一定带来总消耗下降；当使用成本降低，需求可能以更快速度增长，导致总消耗上升。

大模型 token 价格下降后，企业会把更多流程交给 AI；推理更便宜后，产品会默认调用更多模型；Agent 更成熟后，后台自动任务会成倍增加。结果是单次调用更便宜，总账单却更大。

隐形供应链：模型不是只靠 GPU 训练出来的

AI 系统看起来像由数据、算法和芯片构成，但真实供应链里还有大量被遮蔽的人力和自然资源。

模型要变得“安全、礼貌、少输出有害内容”，通常需要大量人工标注、内容审核和偏好排序。强化学习、RLHF（基于人类反馈的强化学习，Reinforcement Learning from Human Feedback）、安全过滤器、红队测试，都离不开人工判断。

这些工作往往被外包到劳动力成本较低的地区。标注人员需要长期处理暴力、仇恨、自残、色情、极端主义等内容，心理负担很重，但收入与模型公司获得的资本回报严重不匹配。

数据中心的资源消耗也类似。大型 AI 数据中心不仅用电，还需要冷却。某些地区使用蒸发冷却，会消耗大量淡水。若数据中心建在干旱地区，居民用水、农业用水和算力冷却用水之间就会产生冲突。

成本类型	在 AI 系统中的作用	常见转嫁方式	风险
数据标注劳动	训练安全边界、偏好排序、内容理解	外包到低工资地区	低薪、心理创伤、劳动保护不足
内容审核劳动	清理有害数据和模型输出	平台化、合同化	工作不可见，职业发展路径弱
电力	训练和推理运行	数据中心集中建设	电网拥堵、电价上涨、容量竞争
水资源	冷却 GPU 集群	使用地方市政或地下水资源	干旱地区居民与企业争水
土地与税收优惠	建设机房和能源配套	地方政府招商让利	本地就业有限，长期收益不确定

AI 的“云端化”容易制造一种错觉：只要调用 API，成本就消失了。实际上，API 只是把成本移到了别处。模型越大、调用越频繁，隐藏在系统背后的劳动、能源、水和土地就越重要。

技术评估不能只看 benchmark，也要看完整成本链条。一个模型如果在指标上领先 5%，却需要多消耗几倍能源和大量低保护劳动，工程上就不能只用“更强”来评价它。

UBI 和 AGI 税为什么难以兜底

UBI（全民基本收入，Universal Basic Income）经常被当作 AGI 时代的社会缓冲方案：AI 创造巨大财富，政府或机构通过税收重新分配，让每个人即使不工作也能维持基本生活。

这个方案有吸引力，但至少有三层难题。

问题	关键矛盾	现实难点
钱从哪里来	AI 利润高度集中在少数公司	跨境避税、税基迁移、国家竞争会削弱征税能力
实验能否外推	小规模现金补贴不等于 AGI 造成的大规模岗位替代	现有 UBI 实验很难模拟中产认知岗位被系统性覆盖的场景
钱能否替代工作意义	人不只需要收入，也需要身份、节奏、社交和成就感	失去职业位置后，心理和社会结构问题不能靠现金完全解决

所谓“AGI 税”也面临类似问题。如果模型公司、芯片公司和云厂成为国家战略资产，政府对它们征收重税会遇到产业竞争压力；如果征税过重，公司又可能通过知识产权、利润转移和全球注册结构规避。

更核心的是，UBI 解决的是“最低现金流”，不是“能力迁移”。一个客服、翻译、金融分析师、初级程序员或内容审核员，如果多年积累的技能被模型迅速覆盖，每月补贴只能缓解生存压力，不能自动创造新的社会角色。

所以，UBI 可以是社会安全网的一部分，但不能被当成 AGI 冲击的总解法。

更合理的 AI 技术策略：不要把所有问题都塞进一个超大模型

大模型仍然会继续发展，也会成为未来软件系统的重要基础设施。但从工程角度看，更稳妥的策略不是“所有任务都交给最大模型”，而是按问题类型选择不同系统。

场景	更合适的做法	原因
高风险医疗、金融、法律判断	专用模型 + 规则系统 + 人工复核	可追责、可验证，不能只依赖生成式输出
科学计算与药物发现	领域模型 + 仿真 + 实验验证	结果必须进入现实验证闭环
企业内部知识问答	RAG（检索增强生成）+ 权限控制 + 日志审计	减少幻觉，保护数据边界
日常办公自动化	中小模型 + 工作流编排 + 工具调用	成本更低，延迟更可控
个性化教育	学习路径模型 + 互动课件 + 诊断反馈	重点不是替学生答题，而是帮助学生形成理解

RAG（检索增强生成，Retrieval-Augmented Generation）就是一个典型例子。它不要求模型记住所有企业知识，而是先从可信知识库检索资料，再让模型基于检索结果生成回答。这样能减少幻觉，也能控制权限和来源。

flowchart LR
    A[用户问题] --> B[权限校验]
    B --> C[知识库检索]
    C --> D[相关资料片段]
    D --> E[大模型生成回答]
    E --> F[引用来源与审计日志]
    F --> G[用户]

这类组合式系统比“一个模型包打一切”更接近真实工程实践：能用小模型解决的，不强行调用大模型；能用检索解决的，不要求模型背下来；能用规则约束的，不只靠提示词祈祷。

教育可能是普通人最重要的变量

如果大模型 scaling 路线继续推进，普通人很难直接改变全球算力竞赛、能源规划或税收制度。但有一个变量仍然可以主动调整：教育。

AI 对教育的意义，不应该只是“帮孩子写作业”或“让学生更快得到答案”。更有价值的方向是把优质教学方法变成可复用的工作流，让不同孩子获得不同坡度、不同节奏、不同反馈方式的学习路径。

一个理想的 AI 教育系统，至少应该包含这些模块：

flowchart LR
    A[孩子的兴趣或卡点] --> B[知识点拆解]
    B --> C[学习路径生成]
    C --> D[互动课件]
    D --> E[练习与操作]
    E --> F[错因诊断]
    F --> C

    G[认知负荷控制] --> C
    H[脚手架教学] --> D
    I[多媒体学习原则] --> D
    J[Bloom 目标分类] --> E

这里的关键不是让 AI 直接输出一堆知识点，而是把学习科学嵌入生成流程：

用认知负荷理论控制一次呈现的信息量；
用脚手架教学把难题拆成可跨越的小台阶；
用 ConcepTest 识别概念误解；
用 Bloom 分类区分记忆、理解、应用、分析和创造；
用多媒体学习原则设计图像、动画、语音和互动；
用错因诊断把“答错了”变成“为什么错”。

类似 TeachAny 这类开源课件生成工作流，展示了一种可行方向：输入一个主题、学习者背景和教学目标，让 AI 生成一节可交互、可修改、可本地部署的课件。它不需要把孩子的数据交给商业平台，也不必把教学完全封装进黑盒应用。

一个简化的课件生成输入可以长这样：

主题：配方法为什么能得到二次函数的顶点式
学习者：初二学生，已经学过平方差公式和完全平方公式
目标：
1. 用几何面积理解“补成完全平方”
2. 从代数推导得到 y = a(x-h)^2 + k
3. 能解释顶点坐标为什么是 (h, k)

课件要求：
- 分成 4 个互动步骤
- 每一步给一个小问题
- 每个选项都要提供错因诊断
- 用一个可拖拽的面积图辅助理解
- 最后给 3 道迁移练习

这样的系统并不适合每个孩子。有些孩子需要同伴环境、教师监督和稳定外部节奏，完全依靠自驱学习会很吃力。更现实的模式是学校提供基础教育和社会化环境，家庭、老师和开源工具补充个性化学习路径。

AI 教育工具真正重要的地方，不是替代学校，而是把“因材施教”的成本降下来。过去只有资源充足的家庭才能获得一对一辅导、个性化课表和高质量互动材料；现在，开源工具和普通模型也能让更多家庭、老师做出接近这种体验的学习资源。

结论：大模型是工具，不应成为唯一道路

大模型 scaling 路线已经证明了自己的价值，但它也暴露出四重边界：

能力边界：长期规划、持续学习、稳定推理和真正创造性还没有被彻底解决。
物理边界：算力需求接近指数增长，能源、电网和水资源建设无法同速扩张。
供应链边界：低薪标注劳动、内容审核压力、数据中心资源消耗被长期隐藏。
分配边界：UBI 和 AGI 税可以缓冲一部分冲击，但难以解决技能迁移和社会意义问题。

AGI 不能只被理解成模型参数竞赛。更健康的 AI 发展方式，应该把通用模型、专用模型、检索系统、规则约束、人工复核、能源约束和社会成本一起放进技术决策里。

对普通人来说，最实际的应对不是押注某家公司一定成功，也不是等待某个宏大制度兜底，而是尽早掌握 AI 工具，把它用在学习、创造和能力迁移上。尤其在教育上，AI 既可能扩大差距，也可能降低个性化学习的门槛。

大模型带来的问题很重，但它也提供了新的工具。关键在于，不要只做被动使用者，而要把 AI 变成可理解、可修改、可约束的学习和工作系统。

菜单