生成式 AI 如何影响创造力：效率提升、同质化与认知债

生成式 AI（人工智能）刚进入大众工作流时，一个很有吸引力的判断迅速流行起来：它会降低知识工作的门槛，让经验少、技能弱的人也能完成过去只有熟练员工才能完成的任务。

这个判断并非凭空出现。2023 年，麻省理工学院两位经济学研究者在《Science》发表实证研究，发现 ChatGPT 能显著提升低绩效员工在写作类任务中的表现，而且提升幅度大于高绩效员工。换句话说，AI 看起来像一种“能力补齐器”：它让弱者进步更多，从而缩小人与人之间的生产率差距。

但后续数据给出了更复杂的答案。AI 确实能提高短期产出，却未必会自动带来平权。它可能同时产生三类影响：

影响层面	正向效果	潜在代价
劳动力市场	高技能员工能把 AI 融入工作流，扩大产出	初级岗位的训练价值和招聘需求下降
知识生产	论文、报告、方案等产出速度提高	主题、语言风格和论证结构趋同
个体认知	使用 AI 时创意数量和完成质量上升	AI 离场后，能力提升不一定保留，思考习惯可能被锚定

真正需要理解的不是“AI 好不好”，而是：AI 提供的能力到底是被人内化了，还是只是临时外挂？如果大量个体都从类似模型那里获得类似答案，群体层面的思想多样性会发生什么变化？

从“工作平权”到“资历偏向”：AI 没有均匀改变劳动力市场

2025 年，两位哈佛大学经济学博士分析了 2015 到 2025 年间覆盖 6200 多万员工、1.5 亿多次招聘就业记录的数据，发现生成式 AI 对岗位结构的影响并不均匀。

在 2015 到 2022 年之间，初级岗位和高级岗位的就业增长趋势大体同步。2023 年之后，两条曲线开始分叉：高级岗位继续增长，初级岗位转向下行。对深度使用 AI 的企业来说，六个季度内初级岗位数量相对下降 7.7%，高级岗位则基本没有受到负面影响，甚至略有增长。

关键点在于，这种变化主要来自招聘减少，而不是大规模裁员。也就是说，AI 更可能影响“新人的入口”，而不是直接替换已经在岗的资深员工。

可以把这个机制简化成一条链路：

flowchart LR
    A[生成式 AI 进入企业工作流] --> B[常规写作、检索、整理、初稿生成自动化]
    B --> C[初级岗位承担的基础任务减少]
    C --> D[企业降低初级岗位招聘需求]
    A --> E[资深员工用 AI 放大经验和判断]
    E --> F[高级岗位产出提升或保持稳定]

为什么会出现这种“资历偏向”？

因为很多初级知识岗位的价值，来自可拆分、可模板化、可校对的任务，例如整理资料、写初稿、改格式、生成备选方案。AI 很擅长这些工作。高级岗位的价值则更多来自问题定义、任务拆解、质量判断、跨领域取舍和责任承担。这些能力不容易被一次生成替代，反而会因为 AI 的辅助而放大。

所以，AI 不只是“让所有人更快”。它会重新分配不同能力的价值：会提问、会判断、会整合的人获得更大杠杆；只依赖模板执行的人更容易被压缩空间。

研究一：41 万篇论文中的效率提升与表达趋同

北京大学李圭泉课题组在 Technology in Society 发表的研究，把问题推进到知识生产本身：当 ChatGPT 进入学术工作流后，全球学术论文是否变得更高产？如果更高产，内容是否也变得更相似？

研究团队从 Web of Science 核心数据库抽取了 17000 多名学者，覆盖物理科学、生命科学与生物医药、应用科学、社会科学、艺术与人文等 21 个学科门类，汇总这些学者在 ChatGPT-3.5 发布前后的 419344 篇论文。

研究关心两个指标：

指标	具体测量方式	含义
创造力	论文发表数量、期刊 JCR 分区	学术产出的规模与发表质量
同质性	摘要语义相似度、语言风格相似度	不同论文在主题内容和表达方式上的相似程度

其中，JCR（Journal Citation Reports，期刊引证报告）分区是一种期刊影响力评级体系。Q1 代表该领域排名前 25% 的期刊，Q4 代表排名后 25% 的期刊。

同质性的测量更偏技术化：

内容相似度：使用 SBERT（Sentence-BERT，句向量语义模型）把论文摘要转成向量，再计算向量之间的余弦相似度。
语言风格相似度：使用字符级匹配算法，统计摘要之间重复短语、句式和表达结构的相似程度。

余弦相似度的直觉很简单：两个向量方向越接近，说明它们表达的语义越接近。

cosine_similarity(A, B) = (A · B) / (||A|| × ||B||)

趋势图展示了 ChatGPT-3.5 发布前后，学术产出创造力与同质性的变化。它的重点不是某一个点的波动，而是断点之后斜率的变化。

图中可以看到，2022 年之前，创造力指标和同质性指标都在相对平稳地增长；ChatGPT-3.5 发布之后，两类指标的增长速度同时抬升。这说明 AI 像一个加速器，一方面提高产出，另一方面也让表达和主题更快地靠拢。

断点回归：如何把“巧合”与“因果”分开

仅仅看到 2023 年之后趋势变化，还不能直接说这是 AI 导致的。学术界本来就可能受到其他因素影响，例如研究经费、出版政策、疫情后的科研恢复、不同学科周期变化等。

为了解决这个问题，研究使用了 RDD（Regression Discontinuity Design，断点回归设计）。这个方法适合处理一种特殊场景：某个时间点或规则阈值把样本分成两侧，而阈值附近的个体差异很小，近似可以看成随机分配。

在这个研究中，ChatGPT-3.5 于 2022 年 12 月发布，可以被视为一个时间断点：

flowchart LR
    A[ChatGPT-3.5 发布前] --> B[无法使用 ChatGPT-3.5 辅助论文生产]
    C[ChatGPT-3.5 发布时间点] --> D[时间断点]
    D --> E[ChatGPT-3.5 发布后]
    E --> F[有机会使用 ChatGPT-3.5 辅助论文生产]

论文发表在断点前还是断点后，受到审稿周期、编辑流程、期刊排期等因素影响。对单个学者来说，这些因素并不完全可控。尤其在断点附近，断点前后的论文可以近似看作两组可比样本。

断点回归关心的是：如果没有 ChatGPT，趋势应该沿着原来的路径继续；如果断点后结果突然偏离原趋势，就可以把这部分变化估计为 AI 的影响。

一个简化模型可以写成：

Y = α + τ × AfterChatGPT + f(TimeDistance) + ε

含义如下：

符号	含义
Y	被解释变量，例如发表数量、期刊质量、内容相似度
AfterChatGPT	是否处于 ChatGPT-3.5 发布之后
τ	断点后的跃迁效应，也就是研究最关心的 AI 影响
f(TimeDistance)	距离发布时间点的时间趋势
ε	无法解释的随机扰动

断点回归成立有一个重要前提：样本不能在断点附近被人为操纵。比如，如果大量学者故意把论文压到 ChatGPT 发布后再投稿，或者抢在发布前集中发表，断点附近就不再近似随机。研究团队对这种“堆积”或“抢发”行为做了统计检验，以降低这类偏差。

断点回归结果图展示了 AI 发布后各项指标的变化方向和显著性。

结果显示，ChatGPT-3.5 发布后，学者人均年发表量增加约 0.9 篇，发表期刊质量平均提升约 6%，技术和物理科学领域的提升更明显。但同质性也同步上升：语言风格相似度平均每年增加约 79%，内容主题也显著趋同，物理科学、艺术与人文学科中的趋同现象更突出。

这个结果很关键：AI 带来的不是单纯的生产率提升，而是一种“高产出 + 高相似”的组合。

为什么 AI 会让内容趋同：锚定效应与默认答案

生成式 AI 的输出通常具有三个特征：

速度快，能在几秒内给出完整结构。
形式稳定，经常使用清晰、顺滑、可接受的表达。
风险较低，倾向于给出多数场景下不会太错的答案。

这些特征非常适合提高效率，却也容易制造锚定效应。锚定效应指的是：人一旦看到一个初始答案，后续判断会被这个答案牵引，很难完全跳出去重新思考。

在 AI 工作流里，锚定效应通常是这样发生的：

flowchart TD
    A[人提出问题] --> B[AI 快速生成一个完整框架]
    B --> C[人觉得框架基本可用]
    C --> D[后续修改围绕 AI 框架展开]
    D --> E[最终作品保留 AI 的主题、结构和措辞倾向]
    E --> F[大量用户得到相似输出]
    F --> G[群体层面的内容同质化]

个体层面看，这是一种省力机制：不必从空白页开始，可以直接修改现成答案。群体层面看，许多人都从类似模型、类似提示词、类似训练语料中获得初稿，最后就会产生相似的主题选择、段落结构、语气风格和论证套路。

同质化不等于所有内容完全一样，而是差异变小。它可能表现为：

层面	趋同表现
主题	反复选择相似角度，绕开少见问题
结构	总是“背景—问题—方案—展望”的模板
语言	高频使用类似转折、总结和评价词
判断	倾向于安全、中庸、低争议的结论
方案	更容易给出行业通用做法，少有非典型路径

这就是 AI 的双刃剑：它降低了表达难度，也降低了偏离默认答案的概率。

研究二：AI 离场后，创造力提升还能留下吗

宏观数据能说明知识生产整体出现变化，但还不能回答一个更细的问题：个体使用 AI 后，创造力是真的提高了，还是只是在 AI 陪伴时看起来提高？

为此，北大研究团队设计了一项纵向行为实验。参与者是 61 名大学生，被随机分成两组：

分组	实验条件
AI 实验组	第 2 到第 6 天可使用 ChatGPT-4
纯脑力对照组	全程不使用 AI 辅助

实验分为多个阶段：

第 1 天：所有参与者都不使用 AI，完成创造力基线测试。
第 2 到第 6 天：AI 实验组使用 ChatGPT-4 完成每日创造力任务，对照组不使用 AI。
第 7 天、第 30 天、第 60 天：所有参与者都不能使用 AI，完成追踪测试。

实验流程图展示了这种“先辅助、再撤离、再追踪”的设计。

这个设计的好处在于，它不仅能观察 AI 使用期间的即时效果，还能观察 AI 被撤走后效果是否持续。如果 AI 真正提升了人的能力，那么在无 AI 测试中，实验组仍应保持优势；如果 AI 只是提供了外部脚手架，那么一旦脚手架撤走，优势就会消失。

创造力评估采用多种任务组合：

任务	英文缩写	测量能力
替代用途任务	AUT（Alternative Uses Task）	发散思维，例如为一支钢笔想出尽可能多的新用途
创意问题解决	无固定缩写	面向真实场景生成创新方案，例如为智能单车设计新功能
远距联想测验	RAT（Remote Associates Test）	聚合思维，从三个不相关词中找共同关联词
蜡烛问题	Candle Problem	洞察力和问题重构能力

评分使用 CAT（Consensual Assessment Technique，共识评估法）。多位专家在不知道参与者分组和实验目的的双盲条件下，对创意产出的新颖性、实用性、灵活性等维度打分。评分者信度 ICCs 高于 0.90

菜单