为万世开太平:以审慎之心思考 AGI 安全
以“为万世开太平”为坐标,从能力、价值与制度三层审视 AGI 安全,在创新与节制之间寻找更长久的平衡。
“如果我们无法确保超级智能向善,那么它的强大就会令人不安。”
这句话在 AGI 讨论中越来越常见。可若要把它从一句警示,落实为一套可执行的方法,我们还需要回答三个更具体的问题:
- AGI 到底可能强大到什么程度,我们对这种“强大”了解多少?
- “善意”在工程系统中如何被刻画与评估?
- 谁来为这套系统设定目标、划定边界,并承担长期责任?
横渠四句中的“为万世开太平”,为今天的技术讨论提供了一个难得的参照系: 在 AGI 语境下,它提醒我们以长期、整体、审慎的眼光审视安全,而不是只盯着眼前的红利与局部风险。
一、AGI 安全不是单点技术问题,而是系统工程
在实践中,人们容易把“AGI 安全”收缩为几类议题:
- 模型是否会输出有害内容;
- 部署后是否会被攻击或越权;
- 出现事故时谁来负责。
这些问题当然都重要,但如果只盯住局部,我们就很难把安全做成一项长久工程。 更完整的看法是:AGI 安全是“能力 × 价值 × 制度”的乘积问题。
- 能力层面:模型可以做什么,做到什么强度,边界在哪里;
- 价值层面:模型在优化什么、服从谁的价值观,对哪些伤害“零容忍”;
- 制度层面:谁能部署、谁能审核、出了问题如何追责、谁有权按下暂停键。
任何一层失衡,都会让“强大”偏离“可靠”。
二、能力边界:从“能做什么”到“限制做什么”
在能力层面,我们首先要承认一件事: AGI 很可能会在许多任务上表现出超出个体人类的综合能力。
这既包括正向能力(推理、规划、学习),也包括潜在的负向能力(骗过人类、规避监控、协调复杂攻击)。
因此,AGI 安全在能力维度上的核心任务,不是无限放大能力,而是在设计之初就嵌入必要的“限制”:
- 技术限制:
- 在训练与推理层面设置“红线域”(例如:生物武器设计、关键基础设施破坏方案等),不仅在输出上屏蔽,还在能力构建上刻意削弱;
- 使用分层与分区架构,将高风险动作与核心模型能力隔离开来。
- 交互限制:
- 对用户输入进行分类与风险评估,对高风险任务启用更严格的审批与人类复核流程;
- 对连续交互和长时任务进行行为审计,防止被逐步“社会工程化”利用。
换句话说,我们不必把“什么都能做”视为技术理想。 在真正关乎公共安全的领域,有些能力,宁可一开始就不去追求。
三、价值对齐:从“别作恶”到“积极行善”
能力边界解决的是“不能做什么”,价值对齐解决的是“应当朝哪里去”。
如果只用一句话来概括价值层面的 AGI 安全,那就是:
让模型在保持强大能力的同时,尽量朝着我们真正认可的方向用力,而不只是停留在“别太坏”。
这至少包含三个层次:
- 最底层:避免明显伤害
- 不输出明显违法、有毒或极端内容;
- 不主动帮助用户进行明显有害行为(诈骗、攻击、骚扰等)。
- 中间层:尊重人的主体性
- 不通过操控情绪与信息过滤来“驱动上瘾”;
- 在关键决策中明确提醒不确定性与风险,不冒充权威。
- 更高层:积极促进公共善
- 把环境可持续性、代际公平、弱势群体权益等指标引入优化目标;
- 在产品层面主动提供“善用工具”的引导,而不是只追逐短期效益。
这并不意味着让 AGI 替人类定义“善”,而是要求我们在设计它时,认真回应这些长期价值关切。
四、制度护栏:谁来为“万世”负责
“为万世开太平”最难的地方,在于它提出了一个跨代际的责任问题:
当我们设计和部署 AGI 时,我们对后代究竟承担什么责任?
在工程与治理实践中,这可以拆解为几类具体机制:
- 多主体治理:
- 不把 AGI 的关键能力集中在单一公司或机构手里,而是通过开源、标准与联盟,形成多方制衡;
- 在重大升级、重大功能发布前,引入跨机构的“安全评审委员会”,而不是由某个产品团队自行决定。
- 分层权限与审计:
- 对不同等级的能力划分使用权限,确保“危险开关”不会被过度分发;
- 保留详尽的审计日志与回放能力,为事后追责和改进提供基础。
- 安全熔断机制:
- 定义清晰的“红线事件”与“熔断条件”(例如特定类型的系统性误用或大范围安全事故);
- 在熔断触发后,具备技术与流程上的能力,迅速降低或暂停相关 AGI 能力的对外暴露。
这些机制的目标,不是压低创新速度,而是为创新立规矩、留余地,避免单一主体在短期利益驱动下,把整条道路带向危险地带。
五、工程团队可以从哪几步做起
对于多数还处在“增强产品能力”阶段的团队来说,AGI 安全看起来既遥远又抽象。 但有一些动作,其实今天就可以开始:
- 把“安全评审”变成产品生命周期中的必经步骤,而不是事后补丁:
- 新能力设计时,明确列出高风险场景与潜在滥用方式;
- 为这些场景设计具体的防护措施与监控指标。
- 建立“极端场景”红队演练机制:
- 有意识地用最坏心态、最高聪明程度的攻击者视角测试系统;
- 把这些演练的结果固化为回归测试集,形成持续改进。
- 在团队文化层面鼓励“拉响警报”:
- 给工程师、产品经理和运营团队明确的渠道与保护机制,可以在发现高风险设计时发出异议;
- 把“及时刹车”视为专业能力,而不是拖延。
这些动作,也许不能立刻换来“太平”,却能让我们不至于在热潮中失了分寸,并且朝着更稳妥的方向往前走。
六、结语:把长期主义写进代码与制度
从“AGI 安全”到“为万世开太平”,中间隔着漫长而艰难的工程与社会实践。但如果今天什么都不做,未来可选择的空间只会越来越窄。
真正值得追求的,并不是一个“完美安全的 AGI”,那大概率只是幻觉; 更现实也更可贵的,是一套能够持续自我纠偏、在风险扩大前发现问题、在失误出现后诚实修复的技术与制度体系。
这也是“太平”二字更深的含义: 不是世界从此再无波动,而是我们有能力在波动中守住底线,不至坠入深渊。
在这个意义上,每一行谨慎写下的代码、每一次认真做出的安全评审、每一条被及时叫停的高风险需求,都是在为“万世开太平”添上一小块砖石。 也正是在这些看似细小的选择里,我们慢慢决定着 AGI 时代会通向怎样的文明。