失控风险 | AI45研究成果

框架实践报告如今，人工智能技术正以前所未有的速度蓬勃发展，尤其是前沿模型在通往通用人工智能（AGI）道路上的突破性进展，既承载着塑造美好未来的巨大潜力，也引发了对其潜在风险的深刻隐忧。这种隐忧的核心聚焦于灾难性风险（Catastrophic Risk），即担心强大且自主的 AI 系统可能被恶意滥用、意外失控，甚至威胁到人类的生存或根本福祉。全球顶尖研究机构如 OpenAI、Google DeepMind、Anthropic等，以及国际社会，都在积极探讨前沿风险范围，结成共识性团体试图划定风险“红线”。目前，各参与方已在前沿风险的大方向和主要关键维度上形成了初步共识，但共识之下，对前沿 AI 风险的理解与管理仍面临诸多深刻且亟待解决的核心问题，凸显了当前领域在学理构建和可操作实践上的显著不足，我们抽象出5个高层核心挑战：风险本质的模糊性与能力悖论：关于风险根源的表述常显矛盾。一种观点认为“能力越强，风险越大”；另一种观点认为“能力不足（如无法可靠对齐、理解和依从复杂指令）同样导致高风险”的论断亦有其理据。那么，AI能力与风险之间究竟存在何种本质关系？在追求AI发展的道路上，如何实现能力跃升与安全保障的平衡？ “超强能力引发风险”是否过于简化？ ...