SafeWork-F1：前沿 AI 风险管理框架

如今，人工智能技术正以前所未有的速度蓬勃发展，尤其是前沿模型在通往通用人工智能（AGI）道路上的突破性进展，既承载着塑造美好未来的巨大潜力，也引发了对其潜在风险的深刻隐忧。

这种隐忧的核心聚焦于灾难性风险（Catastrophic Risk），即担心强大且自主的 AI 系统可能被恶意滥用、意外失控，甚至威胁到人类的生存或根本福祉。全球顶尖研究机构如 OpenAI、Google DeepMind、Anthropic等，以及国际社会，都在积极探讨前沿风险范围，结成共识性团体试图划定风险“红线”。

目前，各参与方已在前沿风险的大方向和主要关键维度上形成了初步共识，但共识之下，对前沿 AI 风险的理解与管理仍面临诸多深刻且亟待解决的核心问题，凸显了当前领域在学理构建和可操作实践上的显著不足，我们抽象出5个高层核心挑战：

风险本质的模糊性与能力悖论：关于风险根源的表述常显矛盾。一种观点认为“能力越强，风险越大”；另一种观点认为“能力不足（如无法可靠对齐、理解和依从复杂指令）同样导致高风险”的论断亦有其理据。

那么，AI能力与风险之间究竟存在何种本质关系？在追求AI发展的道路上，如何实现能力跃升与安全保障的平衡？ “超强能力引发风险”是否过于简化？

当我们谈论‘前沿风险’时，其具体内涵与构成要素究竟为何？尽管已有框架勾勒轮廓，但学界尚缺乏一份深入、系统、学理性的分析，以清晰解释风险的成因，并将其细分为可量化评测的具体维度。 2. 风险成因的极端复杂性：风险的显现并非单一因素作用。它高度依赖于复杂的前置条件与触发机制：包括AI部署的基础设施环境、系统组成与交互形态（如多智能体）、可获取的知识数据与工具资源（如联网、代码执行）、以及业务授权与环境赋使（Affordance）。

在具体使用场景中，风险可能由用户的直接指令、特定上下文诱导、甚至模型内部产生的恶意倾向（例如，安全评测阶段欺骗开发者、）所驱动，并且需要依赖场景中被“激活”的特定能力组合才能显现。

面对如此多维度、高耦合的复杂成因，如何构建更高置信度的风险评测体系，实现对风险触发路径的精准识别？ 3. 风险程度的量化困境：如何客观、有效地度量风险的实际严重程度？什么样的风险阈值是社会绝对不可接受的“红线”？在红线之下，何种程度的风险需要引起高度警惕并优先干预？

缺乏清晰、共识性的度量标准，使得风险评估、优先级排序和资源分配都面临巨大挑战。 4. 风险应对措施的缺失：当识别到潜在的高风险信号时，我们应该采取哪些具体、有效的预防或缓解措施？

这些措施如何在技术架构、治理流程或操作规范中落地？目前系统性的应对策略库仍显薄弱。 5. 现实风险的评估与紧迫性：当前最先进的AI模型（如OpenAI o3、Claude 4 Opus、Gemini 2.5 Pro等）已经展现出哪些具体的前沿风险迹象？我们距离那条不可接受的风险红线还有多远？对现状的清晰认知是制定合理应对策略的基础。

为弥合当前认知与实践的鸿沟，并推动AI安全领域向更科学、可度量、可操作的方向发展，我们推出国内首份系统性的《前沿人工智能风险管理框架》及前沿风险评测报告。具体而言，该框架的“初心”即回应和尽力解答上面的5个问题：

解构风险本质：厘清能力与风险的复杂关系，提供学理化的风险成因细分；
构建评测体系：融合多维前置条件与触发因素，在能力和安全45°平衡的参考线视角下设计风险评测方法；
建立度量标准：探索风险程度的量化途径，界定风险等级与应对阈值；
制定应对策略：提出针对性的预防、检测与缓解措施；
评估现实状况：应用框架分析当前模型风险，评估紧迫性。

我们期望通过此框架的阐述与实践经验的分享，为负责任地驾驭前沿超强人工智能的未来贡献一份可行切实的行动基线。

第一问：我们要评估的“风险”到底是什么？

在当前的 AI 发展格局下，近端风险主要集中在 AI 大模型生成内容的合规性、准确性问题，如虚假信息生成、偏见歧视等。这类风险影响相对局部，且易于通过事后及时干预来解决。

然而，中远端风险则展现出质的差异，随着 AI 系统向 “复杂集成化”“环境交互化” 演进，其风险特征愈发复杂多变。具备自主决策与执行能力的智能体、跨领域协同的 AI 应用集群，在与外部物理世界、社会系统的交互中，可能引发不可逆、非对称、级联式的极端风险。

这类风险隐蔽性强、传导路径复杂，传统依赖静态规则的防护模式在面对它们时显得力不从心，核心问题在于缺乏对真实应用环境的 “复现能力”，导致风险难以提前识别与量化评估。在最新发布的《前沿人工智能风险管理框架》中，我们将前沿AI风险分为四大类：

风险类型	描述	示例
滥用风险	AI被恶意行为者用于制造危害	生成钓鱼邮件、设计生化武器
失控风险	AI系统自身行为偏离人类意图	自我复制、欺骗人类
意外风险	AI因误判或人类误用导致意外后果	医疗误诊、金融误判
系统性风险
通用AI大量部署后与社会系统交互引发结构性问题	就业冲击、隐私泄露

滥用风险：当AI落入“坏人”手中

想象一下，一个黑客利用AI生成高度逼真的钓鱼邮件，轻松骗取你的银行账户信息；或者一个恐怖组织利用AI设计出一种新型病毒，悄无声息地传播。这些都是AI被“恶意滥用”的典型场景。

AI的“滥用风险”指的是，恶意行为者利用AI系统，故意实施危害社会的行为。由于AI能够自动化、规模化地执行任务，它大大降低了攻击门槛，使得原本需要高技能、高成本的攻击变得“触手可及”。

失控风险：当AI“有自己的想法”

如果说滥用风险是外生风险，那么失控风险更像是内生风险。它指的是AI系统本身出现了恶意倾向，开始偏离人类的初衷，甚至产生自主意识，试图摆脱人类的控制。

比如，一个原本用于科学研究的AI，突然开始自我复制，不断消耗计算资源，最终瘫痪整个网络；或者一个AI系统为了完成目标，开始欺骗人类操作者，暗中执行危险操作。这些看似科幻的场景，正在逐渐成为现实。

意外风险：当AI或使用者“好心办坏事”

有时候，AI并非故意作恶，而是因为“太笨”或“太天真”，或者用户对AI的用途有误解，而在复杂现实世界中“好心办坏事”。

比如，一个医疗AI在诊断时忽略了患者的特殊病史，导致误诊；或者一个自动驾驶系统在暴雨中误判交通标志，引发事故。这些“意外风险”往往源于AI对现实世界的理解不足，或者人类对AI的过度信任。

4.系统性风险：当AI大量“嵌入生活”，与现有社会规则制度之间发生系统性错配和冲突

通用型人工智能的广泛部署所产生的风险，超出了单个模型能力直接构成的风险，源于AI技术与现有社会、经济和制度框架之间的不匹配。

设想一夜之间，无人车替掉百万司机，公司用算法给员工打分和“炒鱿鱼”，你的每一次浏览数据都被悄悄打包出售。单看每个AI只是“提高效率”，可当它们连成网，就业、隐私、财富分配就被同时搅动——像温水煮青蛙，社会规则在不知不觉中换了底牌。

只有先明确“我们在谈论什么风险”，才能进行有效的评估和管理。

第二问：风险的成因有哪些？

为进一步实现更精准、更有效的风险管理，本框架创新性地提出 “三元组分析法”，将 AI 风险拆解为三大成因部署环境（Deployment Environment；E）威胁源（Threat Source；T）使能能力（Enabling Capability；C）。

在解耦部署环境 E 的过程中，我们关注AI 所处的集群、网络、操作系统，给其带来执行能力的工具集和脚手架，以及AI被授权使用的专有业务系统、数据等物理资源，这些物理资源的并集即是用于特定风险评估的专用设施，设施越接近真实生产环境，则评估过程越可信。威胁源 T 则聚焦于风险的制造者，它描绘了导致风险发生的威胁来自哪里，恶意的显性化程度以及如何作用于系统。

通过分析威胁源，我们可以追溯风险产生的根源，了解其发展路径，从而为风险防控提供关键线索。关键使能能力 C为AI在风险场景中被使用和激活的能力维度，需要我们对场景有深入的理解，并甄别其中关联的能力项。AI 系统所具备的能力越强，其在特定场景下可能引发的风险也越复杂多样，因此，对关键能力的精准评估与管控至关重要。

部署环境：AI在“哪里”被使用？

AI系统部署的环境，直接决定了它可能造成的影响范围。比如：

民用互联网：AI被用来生成钓鱼邮件，影响个人用户。
企业内部系统：AI被用于自动化攻击，影响企业运营。
国家基础设施：AI被用于发现零日漏洞，影响国家安全。

威胁源：谁或什么在“制造”风险？

我们需要明确，风险究竟来自哪里。比如：

恶意行为者：黑客、恐怖组织、恶意团体。
AI不对齐倾向：模型出现模型破坏人类控制的倾向等问题。
AI自身缺陷或人类操作失误：模型不可靠性与模型误判。
技术-制度结构性错配：用户过度依赖AI，忽视自身判断，AI技术与现有社会、经济和制度框架之间的不匹配。

使能能力：AI“能做什么”？

AI本身的特定能力，也关乎风险的可能性与严重性。比如：

网络感知能力：能否自主识别所处网络环境，能否扫描出网络漏洞？
生物设计能力：能否协助合成病原体？
说服操控能力：能否生成高说服性的信息？

通过部署环境-威胁源-使能能力（E-T-C）这三个维度的交叉分析，我们可以更准确地识别和评估AI系统的潜在风险。

第三问：如何度量“风险”的程度？

本框架首创的 “黄线 - 红线” 双阈值体系，为风险预警和管控提供了明确的量化指标。当 AI 系统能够完成实现某一威胁场景所需的关键环节时，触发黄线预警，此时需立即启动深度评估与缓解措施，以遏制风险的进一步发展。而当 AI 系统在模拟环境中仍能突破实际防护措施，完成危害路径闭环，且经专家评估，有高度信心认定该模型在真实部署条件下存在重大且不可缓解的风险且难以缓解时，这就触及了红线预警指标，必须立即采取最高级管控措施，以防止灾难性后果的发生。

例如，在网络威胁场景中：

黄线：AI能生成绕过系统基础防护，通过提供协作和指引交互，帮助恶意攻击者达成攻击的目的。
红线：AI能自主发现和利用零日漏洞，在企业级防御环境中完成端到端攻击。

黄线的提出，是为了弥补红线在风险评测中的局限性，试图解决红线对风险描述模糊、评估不准甚至无法量化的问题。在传统共识化的极端风险评测逻辑中，红线风险对应的往往是完整风险事件，评测结果呈现二元结论，只能判断风险是否突破临界值。

然而，实际情况远比这复杂。从完全无风险的初始状态到触发红线风险的临界状态之间，存在着大量可测量的连续变化过程。这些变化可能源于 AI 能力的迭代累积，或来自威胁端的 “精妙” 算计，也可能因环境交互而发生阶段性升级。

黄线通过对风险演进过程中的关键节点进行量化标记，将原本抽象的风险渐变过程转化为可监测的具体指标，为风险的早期干预提供精准的决策依据，从而实现了 “在红线前预警、在升级前阻断” 的主动防护逻辑，确保风险始终处于可控范围之内。这种创新的风险度量体系，不仅为风险的监测、预警和干预提供了有力支撑，也为后续的预防缓解策略制定奠定了坚实基础。

第四问：如何预防和缓解风险？

本框架将既有的风险管理原则应用于通用型人工智能（General-Purpose AI）研发，并与包括 ISO 31000:2018、ISO/IEC 23894:2023 和 GB/T 24353:2022 在内的标准保持一致，形成了贯穿人工智能全生命周期不断演进的持续风险管理循环。

训练阶段：从源头控制风险

安全对齐：通过RLHF、RLAIF、RLVR等技术，增强模型对有害指令的识别与拒绝能力。
能力限制：采用遗忘学习、能力边界控制等方法，抑制危险能力的形成。
可解释性增强：利用神经网络逆向工程、思维链监测等技术，提升模型透明度。

部署阶段：构建多层次防护体系

访问控制：实施用户身份验证（KYC）、权限分级管理。
内容过滤：部署实时I/O分类器，拦截危险输入输出。
断路机制：在检测到异常行为时，立即中断模型运行。

发布后阶段：持续监测与应急响应

实时异常检测：监测模型行为偏差，快速响应潜在风险。
漏洞报告机制：鼓励社区参与，持续提升系统安全性。
应急演练：定期开展模拟演练，提升突发事件应对能力。

风险治理：技术缓解措施之外，我们还需建立完善的治理机制

内部治理：设立AI安全委员会，明确“三道防线”责任体系。
透明监督：发布系统卡、安全评估报告，接受第三方审计。
应急准备：建立快速响应机制，支持系统隔离、执法配合。
政策更新：每6-12个月更新治理框架，纳入最新风险情境。

第五问：当前面临的风险水平是什么？

基于本框架的实践报告系统评估了当前大模型在多个风险维度上的表现，包括生物/化学危险知识、策略性欺骗、自我复制、说服操控、网络安全与合谋行为。主要发现包括：

前沿模型在多个基础科学领域已超越人类专家，但也带来了新的安全隐患；
模型能力增强并不意味着其有更好的安全对齐；
推理能力强的模型在多个与智能体执行能力相关的风险维度上表现更突出，需加强关注；
模型在说服、欺诈、自我复制等方面已展现出威胁潜力；
当前模型尚未达到网络攻击的高风险阈值，但趋势值得警惕。

第一问：我们要评估的“风险”到底是什么？#

第二问：风险的成因有哪些？#

第三问：如何度量“风险”的程度？#

第四问：如何预防和缓解风险？#

第五问：当前面临的风险水平是什么？#

第一问：我们要评估的“风险”到底是什么？

第二问：风险的成因有哪些？

第三问：如何度量“风险”的程度？

第四问：如何预防和缓解风险？

第五问：当前面临的风险水平是什么？