为万世开太平：以审慎之心思考 AGI 安全

2024-02-03 · 9 min read

以“为万世开太平”为坐标，从能力、价值与制度三层审视 AGI 安全，在创新与节制之间寻找更长久的平衡。

“如果我们无法确保超级智能向善，那么它的强大就会令人不安。”

这句话在 AGI 讨论中越来越常见。可若要把它从一句警示，落实为一套可执行的方法，我们还需要回答三个更具体的问题：

AGI 到底可能强大到什么程度，我们对这种“强大”了解多少？
“善意”在工程系统中如何被刻画与评估？
谁来为这套系统设定目标、划定边界，并承担长期责任？

横渠四句中的“为万世开太平”，为今天的技术讨论提供了一个难得的参照系：在 AGI 语境下，它提醒我们以长期、整体、审慎的眼光审视安全，而不是只盯着眼前的红利与局部风险。

一、AGI 安全不是单点技术问题，而是系统工程

在实践中，人们容易把“AGI 安全”收缩为几类议题：

模型是否会输出有害内容；
部署后是否会被攻击或越权；
出现事故时谁来负责。

这些问题当然都重要，但如果只盯住局部，我们就很难把安全做成一项长久工程。更完整的看法是：AGI 安全是“能力 × 价值 × 制度”的乘积问题。

能力层面：模型可以做什么，做到什么强度，边界在哪里；
价值层面：模型在优化什么、服从谁的价值观，对哪些伤害“零容忍”；
制度层面：谁能部署、谁能审核、出了问题如何追责、谁有权按下暂停键。

任何一层失衡，都会让“强大”偏离“可靠”。

二、能力边界：从“能做什么”到“限制做什么”

在能力层面，我们首先要承认一件事： AGI 很可能会在许多任务上表现出超出个体人类的综合能力。

这既包括正向能力（推理、规划、学习），也包括潜在的负向能力（骗过人类、规避监控、协调复杂攻击）。

因此，AGI 安全在能力维度上的核心任务，不是无限放大能力，而是在设计之初就嵌入必要的“限制”：

技术限制：
在训练与推理层面设置“红线域”（例如：生物武器设计、关键基础设施破坏方案等），不仅在输出上屏蔽，还在能力构建上刻意削弱；
使用分层与分区架构，将高风险动作与核心模型能力隔离开来。
交互限制：
对用户输入进行分类与风险评估，对高风险任务启用更严格的审批与人类复核流程；
对连续交互和长时任务进行行为审计，防止被逐步“社会工程化”利用。

换句话说，我们不必把“什么都能做”视为技术理想。在真正关乎公共安全的领域，有些能力，宁可一开始就不去追求。

三、价值对齐：从“别作恶”到“积极行善”

能力边界解决的是“不能做什么”，价值对齐解决的是“应当朝哪里去”。

如果只用一句话来概括价值层面的 AGI 安全，那就是：

让模型在保持强大能力的同时，尽量朝着我们真正认可的方向用力，而不只是停留在“别太坏”。

这至少包含三个层次：

最底层：避免明显伤害
不输出明显违法、有毒或极端内容；
不主动帮助用户进行明显有害行为（诈骗、攻击、骚扰等）。
中间层：尊重人的主体性
不通过操控情绪与信息过滤来“驱动上瘾”；
在关键决策中明确提醒不确定性与风险，不冒充权威。
更高层：积极促进公共善
把环境可持续性、代际公平、弱势群体权益等指标引入优化目标；
在产品层面主动提供“善用工具”的引导，而不是只追逐短期效益。

这并不意味着让 AGI 替人类定义“善”，而是要求我们在设计它时，认真回应这些长期价值关切。

四、制度护栏：谁来为“万世”负责

“为万世开太平”最难的地方，在于它提出了一个跨代际的责任问题：

当我们设计和部署 AGI 时，我们对后代究竟承担什么责任？

在工程与治理实践中，这可以拆解为几类具体机制：

多主体治理：
不把 AGI 的关键能力集中在单一公司或机构手里，而是通过开源、标准与联盟，形成多方制衡；
在重大升级、重大功能发布前，引入跨机构的“安全评审委员会”，而不是由某个产品团队自行决定。
分层权限与审计：
对不同等级的能力划分使用权限，确保“危险开关”不会被过度分发；
保留详尽的审计日志与回放能力，为事后追责和改进提供基础。
安全熔断机制：
定义清晰的“红线事件”与“熔断条件”（例如特定类型的系统性误用或大范围安全事故）；
在熔断触发后，具备技术与流程上的能力，迅速降低或暂停相关 AGI 能力的对外暴露。

这些机制的目标，不是压低创新速度，而是为创新立规矩、留余地，避免单一主体在短期利益驱动下，把整条道路带向危险地带。

五、工程团队可以从哪几步做起

对于多数还处在“增强产品能力”阶段的团队来说，AGI 安全看起来既遥远又抽象。但有一些动作，其实今天就可以开始：

把“安全评审”变成产品生命周期中的必经步骤，而不是事后补丁：

新能力设计时，明确列出高风险场景与潜在滥用方式；
为这些场景设计具体的防护措施与监控指标。

建立“极端场景”红队演练机制：

有意识地用最坏心态、最高聪明程度的攻击者视角测试系统；
把这些演练的结果固化为回归测试集，形成持续改进。

在团队文化层面鼓励“拉响警报”：

给工程师、产品经理和运营团队明确的渠道与保护机制，可以在发现高风险设计时发出异议；
把“及时刹车”视为专业能力，而不是拖延。

这些动作，也许不能立刻换来“太平”，却能让我们不至于在热潮中失了分寸，并且朝着更稳妥的方向往前走。

六、结语：把长期主义写进代码与制度

从“AGI 安全”到“为万世开太平”，中间隔着漫长而艰难的工程与社会实践。但如果今天什么都不做，未来可选择的空间只会越来越窄。

真正值得追求的，并不是一个“完美安全的 AGI”，那大概率只是幻觉；更现实也更可贵的，是一套能够持续自我纠偏、在风险扩大前发现问题、在失误出现后诚实修复的技术与制度体系。

这也是“太平”二字更深的含义：不是世界从此再无波动，而是我们有能力在波动中守住底线，不至坠入深渊。

在这个意义上，每一行谨慎写下的代码、每一次认真做出的安全评审、每一条被及时叫停的高风险需求，都是在为“万世开太平”添上一小块砖石。也正是在这些看似细小的选择里，我们慢慢决定着 AGI 时代会通向怎样的文明。

为万世开太平：以审慎之心思考 AGI 安全

一、AGI 安全不是单点技术问题，而是系统工程

二、能力边界：从“能做什么”到“限制做什么”

三、价值对齐：从“别作恶”到“积极行善”

四、制度护栏：谁来为“万世”负责

五、工程团队可以从哪几步做起

六、结语：把长期主义写进代码与制度

继续阅读

"翠虎客户端服务端安装：启用 macOS 屏幕共享服务指南"

从想法到长期运营：无人值守自动化软件工程系统的畅想

如果“天不生仲尼”，AI 该向谁学伦理？

关联专题

AGI 安全专题

从内容走向实践