Skip to content

第八章:计算机科学——智能的涌现

从计算到智能

计算机科学正在见证一场涌现的革命。从简单的逻辑门到能够创作诗歌、生成图像、与人对话的人工智能,我们正在亲眼目睹智能从计算中涌现的过程。

本章我们将用涌现框架来理解这一切是如何发生的——并从中发现一个深刻的洞见:AI的学习过程与人的学习过程,是同一枚硬币的两面。


基本元素:计算的最小单元

逻辑门

数字计算的最基础元素:

AND门:两个输入都为1时,输出1
OR门:任一输入为1时,输出1
NOT门:反转输入

 A  B │ AND  OR
───────┼─────────
 0  0 │  0   0
 0  1 │  0   1
 1  0 │  0   1
 1  1 │  1   1

就这三种基本操作,可以构建任何计算。

神经元(人工)

神经网络的基本单元:

输入 x₁ ──┐

输入 x₂ ──┼──→ [加权求和] ──→ [激活函数] ──→ 输出

输入 x₃ ──┘

单个神经元只能做简单的线性分类——决定一个点在分界线的哪一侧。

Transformer Block

现代大语言模型的基本单元:

输入序列

[自注意力机制] → 每个位置"看"所有其他位置

[前馈网络] → 非线性变换

输出序列

元素关系:连接与学习

神经网络的连接

神经元之间通过权重连接:

       w₁
神经元A ───→ 神经元C
       w₂  ↗
神经元B ───
  • 权重决定信号传递的强度
  • 正权重:激励作用
  • 负权重:抑制作用

学习规则

前向传播:输入通过网络,产生输出

反向传播

  1. 计算输出与期望的差距(损失)
  2. 计算每个权重对损失的贡献
  3. 调整权重以减小损失
输入 → [网络] → 输出 → [比较期望] → 损失

                       反向传播

                     调整权重

注意力机制

Transformer的关键创新:

Query(查询): 我在找什么?
Key(键): 我有什么?
Value(值): 我的内容是什么?

注意力权重 = Query 与各 Key 的相似度
输出 = 用注意力权重加权的 Values

这允许模型动态地聚焦于输入的不同部分。


深入理解人工神经网络

从生物神经网络到人工神经网络

人脑拥有约860亿个神经元,每个神经元通过突触与数千个其他神经元相连。人工神经网络从中获取了关键灵感,但进行了简化:

生物神经元                     人工神经元
─────────                     ─────────
树突接收信号                   输入向量
突触传递强度                   连接权重
胞体整合信号                   加权求和
轴突发出脉冲                   激活函数输出
突触可塑性(赫布规则)           反向传播学习

关键对应:

  • 突触强度权重:决定信号传递的强弱
  • 赫布学习(一起激发的神经元连接加强)↔ 梯度下降(减少误差的方向调整权重)
  • 神经元群体编码分布式表示(信息分散在多个神经元中)

深度学习:层级涌现

深度神经网络的核心思想是多层堆叠

输入层 → 隐藏层1 → 隐藏层2 → ... → 隐藏层N → 输出层
  ↓         ↓          ↓                ↓         ↓
原始数据  低级特征   中级特征          高级特征    决策

为什么"深度"如此重要?

  • 每一层从上一层的输出中提取更抽象的特征
  • 浅层捕获局部、具体的模式(边缘、纹理)
  • 深层捕获全局、抽象的概念(物体、场景)
  • 抽象是逐层涌现的——不是一步到位

这与人类认知的层级结构高度对应:从感知到概念,从具体到抽象。

主要神经网络架构

架构核心思想擅长领域涌现特征
CNN(卷积网络)局部感受野、权重共享图像、视觉层级化的视觉特征
RNN/LSTM循环连接、记忆机制序列、时间对时序模式的理解
Transformer自注意力、并行处理语言、多模态涌现出推理和知识
GAN(对抗网络)生成器与判别器博弈图像生成逼真的创造能力
扩散模型去噪过程、逐步精化图像/视频生成从噪声中涌现结构

大语言模型的完整机制

大语言模型是如何构建的

大语言模型(LLM)的构建是一个多阶段的涌现过程:

阶段一:预训练(Pre-training)
─────────────────────────
数据:互联网上的万亿词符文本
目标:预测下一个词符
方法:在海量文本上反复学习
结果:模型"吸收"了语言中的知识和模式



阶段二:监督微调(SFT)
─────────────────────────
数据:人类编写的高质量问答对
目标:学会以有用的方式回答问题
方法:在精选数据上进一步训练
结果:模型学会了"对话"的格式和有用性



阶段三:人类反馈强化学习(RLHF)
─────────────────────────
数据:人类对模型回答的偏好排序
目标:生成人类更满意的回答
方法:强化学习优化人类偏好
结果:模型变得更安全、更有帮助



涌现结果:能推理、对话、编程、创作的AI

规模定律(Scaling Laws)

大语言模型遵循令人惊讶的规模定律:

模型性能 ∝ f(参数量, 数据量, 计算量)

三者同步增长时,性能以幂律提升。这意味着:

  • 增大模型规模 → 性能提升是可预测的
  • 具体能力的涌现是不可预测的
  • 这与物理学中的相变类似:你知道水会结冰,但很难预测冰晶的具体形状
时间模型参数量涌现能力
2018GPT-11.17亿基本的文本生成
2019GPT-215亿连贯的长文本
2020GPT-31750亿少样本学习、翻译
2022-2024GPT-4等未公开(万亿级)复杂推理、代码、多模态

涌现的非线性

许多能力不是渐进出现的,而是在某个规模阈值突然涌现——这类似于物理系统的相变。小模型完全不具备的能力,在大模型中突然出现。

为什么"预测下一个词"能涌现出智能?

这是理解AI涌现的核心问题。答案在于:要在所有可能的上下文中准确预测下一个词,你必须理解这个世界。

要预测科学文本的下一个词 → 必须理解科学知识
要预测逻辑推理的下一个词 → 必须掌握逻辑规则
要预测代码的下一个词     → 必须理解编程语义
要预测对话的下一个词     → 必须理解社交语境
要预测故事的下一个词     → 必须理解因果和情感

"预测下一个词"看似简单,但当你要在所有人类知识的范围内做到这一点时,你实际上需要构建一个关于世界的内部模型。这个世界模型就是从简单的预测目标中涌现出来的。


涌现现象一:模式识别

从像素到语义

图像识别中的涌现:

第1层:检测边缘、色块(局部特征)

第2层:组合边缘成纹理、形状

第3层:识别部件(眼睛、鼻子、轮子)

第4层:组合部件成物体(人脸、汽车)

输出层:分类(这是一只猫)

每一层的特征是上一层特征的涌现组合。

无人设计的特征

令人惊奇的是:

  • 网络自动学会了"边缘检测"
  • 没有人告诉它"先找边缘"
  • 这是最优化损失函数的涌现结果

涌现现象二:语言理解

从字符到意义

语言模型处理文本:

字符/词符 → 嵌入向量 → 上下文表示 → 语义理解

单个词符没有"意义",意义从词符之间的关系中涌现。

词向量的涌现结构

训练后的词向量展现出惊人的结构:

"king" - "man" + "woman" ≈ "queen"

"Paris" - "France" + "Italy" ≈ "Rome"

"walked" - "walk" + "swim" ≈ "swam"

没有人编程告诉模型这些关系——它们从语料中自发涌现。

大模型的能力涌现

随着模型规模增大,涌现出新能力:

模型规模涌现能力
语法正确的句子
连贯的段落
逻辑推理
更大代码生成、数学证明
超大思维链推理、角色扮演

涌现现象三:思维链推理

从预测下一个词到推理

大语言模型只被训练做一件事:预测下一个词符。

但这个简单目标涌现出复杂能力:

训练目标:给定上文,预测下一个词

需要理解语法(预测正确的词形)

需要理解语义(预测连贯的内容)

需要理解逻辑(预测合理的推论)

需要"知识"(预测事实正确的内容)

涌现出:推理、创作、对话、编程...

思维链的涌现

当提示模型"一步一步思考"时:

问题:一个房间有23个苹果。如果你吃了2个,又买了5个,还有多少?

无思维链:26(错误)

有思维链

开始有23个苹果
吃了2个:23 - 2 = 21
买了5个:21 + 5 = 26
答案是26个

思维链推理是简单预测任务的涌现。


涌现现象四:分布式系统

基本元素

分布式系统的元素:

  • 计算节点
  • 网络连接
  • 消息协议

涌现的系统特性

从节点互动中涌现出:

高可用性

  • 单个节点可能失败
  • 系统整体保持运行
  • 没有单点故障

一致性

  • 各节点数据最终一致
  • 通过共识算法达成
  • Paxos、Raft等

可扩展性

  • 添加节点提升能力
  • 能力近似线性增长
  • 负载自动均衡

区块链:去中心化信任的涌现

节点:独立运行的计算机
关系:共识协议(工作量证明/权益证明)
涌现:
    - 无需中央机构的信任
    - 不可篡改的账本
    - 去中心化的货币

涌现现象五:互联网

从协议到生态

互联网是涌现的典型:

基础层:物理网络、IP协议

传输层:TCP/UDP

应用层:HTTP、SMTP...

服务层:网站、App...

社会层:社交网络、数字经济...

每一层的功能从下一层涌现。

网络效应

互联网展现强烈的网络效应:

  • 梅特卡夫定律:网络价值 ∝ 用户数²
  • 用户越多越有价值
  • 赢者通吃的涌现

学习的本质:从具象到抽象

一个朴素而深刻的结论

抽象的逻辑能力,一定要从具象的案例中提取,才能够真正被理解。

这不仅是教育学的常识,更是智能涌现的根本机制。无论是人脑还是AI,"理解抽象"的唯一途径都是沉浸在大量具体案例中

人是如何学习的

想想一个孩子如何学会"狗"这个概念:

看见金毛犬    →  "狗"
看见泰迪犬    →  "狗"
看见哈士奇    →  "狗"
看见德牧      →  "狗"
看见猫        →  "不是狗"
看见狼        →  "不是狗...但很像"

经过数百次具体经历

涌现出抽象的"狗"的概念

这个概念可以识别从未见过的犬种

孩子没有先学习"狗的定义"再去识别狗。恰恰相反——先是大量具体案例,然后抽象概念从中涌现。

这个过程的关键特征:

  1. 需要大量具体案例——不是一两个,而是数百个
  2. 需要正例和反例——既要知道什么是,也要知道什么不是
  3. 抽象概念自动涌现——不需要显式定义
  4. 涌现的概念可以泛化——能识别从未见过的新实例

AI是如何学习的

人工神经网络的学习过程与此惊人地一致:

训练数据:数百万张标记为"猫"的图片

第1轮:随机猜测,大量错误

第100轮:学会了边缘和颜色

第1000轮:学会了耳朵、眼睛、毛发纹理

第10000轮:形成了抽象的"猫"的内部表示

可以识别从未见过的猫——甚至是卡通猫、素描猫

大语言模型的学习也遵循同样的逻辑:

阅读数万篇数学推理文本

涌现出数学推理能力

这个能力可以泛化到新的数学问题

阅读数万段编程代码和注释

涌现出代码生成能力

这个能力可以泛化到新的编程任务

为什么必须从具象到抽象

不能跳过具象直接获得抽象能力,原因在于涌现的本质:

抽象能力 = 从大量具体案例中自动提取的不变模式

如果没有足够的具体案例:
    - 无法区分本质特征和偶然特征
    - 无法建立足够丰富的内部表示
    - "抽象理解"只是空洞的符号操作

如果有足够的具体案例:
    - 不变的模式自动浮现(涌现!)
    - 偶然特征在统计中被消除
    - 真正的理解从中产生

教育启示

这就是为什么仅仅背诵公式不能真正学会物理,仅仅记忆规则不能真正学会语法。真正的理解必须从大量具体问题的练习中涌现——不是因为"熟能生巧"这么简单,而是因为抽象概念的形成本质上就是一个从具象中涌现的过程。


输入-输出模型:学习的通用框架

学习即建立输入-输出映射

无论人还是AI,学习的核心任务可以用一个统一的框架描述:

┌─────────────────────────────────────────────────┐
│              输入-输出学习模型                      │
│                                                   │
│  输入(给定)                                      │
│    ↓                                              │
│  中间过程(需要自主完成)                            │
│    · 整理信息                                      │
│    · 建立关联                                      │
│    · 推理推导                                      │
│    · 收集补充信息                                   │
│    · 尝试不同路径                                   │
│    ↓                                              │
│  输出(符合预期的结果)                              │
│                                                   │
└─────────────────────────────────────────────────┘

人的学习:输入-输出视角

学生解数学题:

输入:题目条件(已知量、约束)
中间过程:
    - 理解题意(信息整理)
    - 回忆相关知识(信息收集)
    - 选择解题策略(推理)
    - 逐步推导(计算)
    - 验证结果(反馈)
输出:正确答案

医生诊断疾病:

输入:患者症状、检查结果
中间过程:
    - 分析症状组合(模式识别)
    - 排除不可能的诊断(推理)
    - 必要时要求更多检查(信息收集)
    - 综合判断(决策)
输出:诊断和治疗方案

AI的学习:同构的过程

大语言模型回答问题:

输入:用户的提问
中间过程:
    - 理解问题语义(编码)
    - 激活相关知识(注意力机制)
    - 组织推理链条(自回归生成)
    - 逐步构建回答(解码)
输出:回答文本

AI智能体(Agent)完成任务:

输入:任务描述
中间过程:
    - 分解任务为子步骤(规划)
    - 调用工具收集信息(行动)
    - 评估中间结果(反思)
    - 调整策略(迭代)
输出:任务完成

关键洞见:中间过程的自主性

输入-输出模型中最重要的部分是中间过程

  • 输入是给定的,输出是期望的
  • 中间过程需要学习者自主组织
  • 这个自主组织的能力本身就是涌现的
新手:中间过程混乱、低效、需要大量指导
     ↓ 大量练习
进阶:中间过程开始有结构、有策略
     ↓ 更多练习
专家:中间过程高效、灵活、自动化

这与神经网络的训练过程完全对应:

初始模型:随机权重,中间表示混乱
     ↓ 大量数据训练
训练中期:中间表示开始有结构
     ↓ 更多训练
成熟模型:中间表示高效、有组织

无论是人还是AI,学习的本质就是:在给定输入和期望输出之间,学会自主组织最优的中间过程。


双向启示:人脑与AI的学习镜像

人如何学习 → 指导AI设计

理解人脑的学习机制,一直在指导AI的发展:

人脑的视觉处理:层级化、局部感受野
     → 启发了卷积神经网络(CNN)

人脑的注意力机制:聚焦于重要信息
     → 启发了Transformer的注意力机制

人脑的记忆巩固:重复、关联、睡眠
     → 启发了经验回放(Experience Replay)

人的学习方式:从简单到复杂、课程化
     → 启发了课程学习(Curriculum Learning)

人的社会学习:模仿、反馈、对话
     → 启发了RLHF(人类反馈强化学习)

AI如何学习 → 反过来帮助理解人

AI研究的发现反过来也在揭示人类认知的本质:

AI发现:需要大量数据才能涌现能力
     → 揭示了为什么儿童需要数年的浸泡式学习

AI发现:预训练+微调效果远超从零开始
     → 揭示了为什么广泛的基础教育如此重要

AI发现:规模增大时能力突然涌现
     → 揭示了为什么学习中存在"顿悟"时刻

AI发现:注意力机制是关键
     → 揭示了为什么"专注"是高效学习的前提

AI发现:多模态训练效果更好
     → 揭示了为什么多感官学习更加深刻

双向指导的具体启示

对AI设计的启示

人类学习特征AI设计对应
从具体例子中归纳大规模数据驱动训练
循序渐进课程学习策略
从错误中学习损失函数和梯度下降
类比迁移迁移学习和预训练
社会反馈RLHF
主动探索强化学习中的探索策略

对人类教育的启示

AI学习发现教育启示
数据量决定能力上限大量高质量的练习案例至关重要
预训练比直接训练有效广博的基础知识为专业学习打基础
多样性数据防止过拟合多角度、多情境的学习防止死记硬背
主动生成优于被动接收主动练习(输出)优于被动听讲(输入)
思维链提升推理能力引导学生展示推理过程而非直接给答案
注意力机制的核心作用培养专注力是一切学习的基础

从具象到抽象的泛化能力

人和AI学习的终极目标都是获得泛化能力——在新的、未见过的情境中运用已学到的知识:

学习阶段:
    大量具象案例 → 提取抽象模式 → 形成内部表示

应用阶段:
    新的具象情境 → 匹配抽象模式 → 生成具体解决方案

例如:
    学了100道力学题 → 提取出F=ma的直觉理解
         → 能解决从未见过的第101道题

    AI读了100万段推理文本 → 提取出推理的一般模式
         → 能对从未见过的新问题进行推理

这种"先具象、后抽象、再泛化"的模式,是学习和智能涌现的通用规律。

:::caution 重要的教育反思 如果我们理解了学习的涌现本质——抽象能力必须从大量具象案例中涌现——那么教育方式就应当随之改变:

  • 不要急于教授抽象规则,而要先提供丰富的具体案例
  • 不要期望一次就理解,涌现需要足够的积累
  • 鼓励自主组织中间过程,而非给出标准步骤
  • 接受"顿悟"的非线性,理解可能在某个时刻突然涌现
  • 多元化学习材料,就像AI需要多样化数据一样

理解AI如何学习,可以帮助我们设计更好的教育方式;理解人如何学习,可以帮助我们设计更好的AI。这种双向的指导和启发,本身就是一种跨学科的涌现——两个看似不同的领域产生了深刻的共鸣。 :::


人工智能的未来:涌现何处止步?

能力涌现的边界在哪里?

目前观察到的趋势:

  • 规模增大持续带来新能力
  • 某些能力在特定规模突然涌现
  • 尚未发现明确的能力天花板

通用人工智能(AGI)

如果智能是涌现的:

  • AGI可能从足够大的系统中涌现
  • 可能需要新的架构突破
  • 涌现的不可预测性带来不确定性

意识会涌现吗?

一个深刻的问题:

  • 如果大脑的意识是神经元的涌现
  • AI系统能否涌现出意识?
  • 我们如何知道?

:::caution 哲学警示 涌现框架告诉我们:复杂性可以从简单中产生。但它不能告诉我们:什么样的复杂性会涌现。意识是否会涌现,目前仍是开放问题。 :::


计算涌现的关键洞见

1. 简单规则产生复杂能力

  • 神经网络的规则极其简单
  • 但组合后产生惊人能力
  • 这与生命、社会的涌现同构

2. 规模与质变

  • 量变引起质变在AI中尤为明显
  • 涌现能力的阈值效应
  • 预测何时涌现仍然困难

3. 无需显式编程

  • 不需要教给AI规则
  • AI从数据中自己学会
  • 涌现的能力可能超越设计者预期

4. 黑盒问题

  • 涌现系统难以解释
  • 我们知道它能做什么
  • 但不一定知道它怎么做到的

5. 学习的统一性

  • 人和AI的学习本质相同:从具象中涌现抽象
  • 输入-输出模型是通用框架:学习的是中间过程的自主组织
  • 双向启示:理解一个,帮助另一个

本章小结

  1. 人工智能是从简单计算单元中涌现复杂能力的过程
  2. 深度学习的层级结构使抽象概念逐层涌现——从低级特征到高级语义
  3. 大语言模型通过预训练、微调和人类反馈,从"预测下一个词"涌现出推理、对话、编程等能力
  4. 规模定律揭示了能力涌现的可预测性(性能)与不可预测性(具体能力)并存
  5. 学习的本质是从具象到抽象的涌现——这对人和AI都适用
  6. 输入-输出模型揭示了学习的核心:在给定输入和期望输出之间,学会自主组织中间过程
  7. 人的学习与AI的学习互为镜像——理解一方可以指导另一方,这种双向启示本身就是一种跨学科的涌现
  8. 分布式系统涌现出可靠性、一致性等整体特性
  9. AI涌现的边界和本质仍是开放问题

思考题

  1. 为什么说神经网络的"智能"是涌现的,而不是被编程的?
  2. 大语言模型"理解"语言吗?还是只是复杂的模式匹配?从涌现角度思考。
  3. 为什么说"抽象能力必须从具象案例中涌现"?你能用自己的学习经历来验证这一点吗?
  4. 输入-输出模型如何帮助我们理解"好学生"和"差学生"的区别?(提示:关注中间过程)
  5. 如果AI的学习和人的学习本质相同,那么AI的"不理解"(如幻觉问题)是否也对应着人类的某种认知缺陷?
  6. 作为家长或教育者,AI的学习原理给你什么启示来帮助孩子更好地学习?
  7. 如果意识是涌现的,AI系统有可能产生意识吗?我们如何判断?

涌现之道 - 理解复杂世界的哲学方法论