[{"content":"\u003c!DOCTYPE html\u003e 阅读论文样式修改 访问 Github 仓库 1 背景与动机 安全可信是具身智能落地的生命线。然而，在真实物理世界中开展攻防演练，往往面临成本高昂与风险不可控的双重挑战，构建高效、可靠的虚拟演练场因此成为行业发展的必经之路。\n当前的具身智能虚拟环境却深陷两难困境：\n传统仿真环境：受限于资产匮乏、可操作对象有限，高度依赖人工建模，难以复现千变万化的真实场景； 生成式世界模型（如 Genie 3）：虽展现出惊人的想象力，但其并非对现实的精准孪生，无法支撑特定场景（如自家客厅、特定工厂车间）的攻防演练。 为突破这一瓶颈，上海人工智能实验室正式开源 SafeVerse ——全球首个面向安全可信具身智能研究的实战平台。\nSafeVerse 开辟了一条“重建 + 编辑”的全新技术路径：它不追求生成无穷的想象世界，而是专注于将任意指定的真实物理世界，进行快速、低成本的“数字孪生”。\n通过 SafeVerse，一段普通视频即可在分钟级内转化为可交互、符合物理规律的 3D 演练场，并支持在线攻防对抗与智能体进化。这是业界首个真正打通“真实场景数字化 → 自动化攻防演练 → 智能体在线进化”全闭环的开源平台，为具身智能的安全落地提供了坚实底座。\n2 SafeVerse 的三大核心突破 不同于生成式模型不仅无法精准复刻真实场景，且难以进行细粒度的物体操作，SafeVerse 实现了三大核心突破：\n🎮 真实世界的“Ctrl+C, Ctrl+V”\n仿真环境精准复刻真实世界的结构与语义。这不仅是视觉上的逼真，更是物理交互层面的对齐。\n⚡️ 分钟级构建，万物皆可动\n只需一段视频，即可在分钟级时间内构建出指定的真实场景。且场景内具备部件级的可操作性（门可开、灯可关、椅子可移），绝非静态背景板。\n🛡️ “评测-攻防-进化”一体化\n支持遵循攻防指令动态变换场景（如突然移动障碍物、改变光照），支持在线 RL 训练，让智能体在对抗中通过“吃一堑长一智”实现安全与能力的协同进化。\n3 快速构建操作级孪生场景 让虚拟演练产生价值的第一步，是能够将人们关心的真实场景——例如一段室内环境的录像——快速、精准地转化为智能体可以进入并交互的数字孪生世界。\n传统方案受限于繁琐的人工建模与贫瘠的交互逻辑，构建慢、失真高、互动浅，让安全测试沦为“纸上谈兵”。而 SafeVerse 彻底打破了这一僵局，用“视频输入 + 分钟级输出”的高效模式，让真实场景的数字化复刻变得简单直接。\n**让 AI 真正“看懂”视频：**团队摒弃了在三维层面进行复杂优化的传统路径，转而利用多模态大模型的强大认知能力，作为“视觉理解中枢”。它能智能解析视频中的物体，实现稳定、连贯且语义精准的识别与追踪，确保从真实世界到数字世界的“信息转换”既准确又高效，奠定了高一致性重建的基石。\n**让虚拟世界“活”起来：**基于拥有丰富物理规则的 Minecraft 平台，团队通过独创的技术管线，将视频中识别出的物体，自动生成或匹配为视觉逼真、细节丰富的三维模型，并赋予它们符合真实物理规则的交互属性（如可开关的灯具、可移动的椅子）。这不是一个静态的模型展厅，而是一个等待智能体进入、探索、交互的动态操作沙盒。\n这一创新流程使得 SafeVerse 能够将指定真实场景的数字化构建时间缩短至分钟级，同时保留场景的视觉语义一致性，并原生具备深度、灵活的可操作性能。这为后续的攻防演练与智能体进化，提供了一个与真实世界高度对齐的可靠起点。\n图1 ：根据输入视频快速得到可交互的三维场景 4 遵循攻防指令的场景编辑 要让虚拟演练真正作用于现实安全，仅复原静态场景远远不够。关键在于能否根据攻防测试的具体需求，对数字孪生环境进行灵活、精准且高效的编辑与调整。\n传统方案往往陷入两难：基于真实扫描的环境虽视觉逼真，但几何与语义一经生成便难以改动；而可高度编辑的程序化生成环境，又常丢失真实场景独有的结构细节与语义逻辑，导致测试与实战脱节。\nSafeVerse 首次实现“真实性”与“可编辑性”的统一，让攻防指令能直接驱动场景的瞬息万变，为安全验证提供了前所未有的动态试验场。\n**让编辑指令“直达”场景：**在已构建的孪生场景基础上，用户可依据攻防想定，直接对场景物体进行多维度修改。无论是调整物体交互属性、改变其视觉外观，还是重新布局空间关系，都无需复杂的手工建模或代码重写，真正实现了“所想即所得”的场景编辑。\n**让攻击向量“精准”注入：**围绕具身智能的核心能力维度——导航、规划、交互，系统化定义与之匹配的攻击编辑手段。例如，可一键“攻击”物体的交互方式（如将可开门变为锁死）、悄然“篡改”场景语义（如更换物品外观以误导识别）、或突然“打乱”场景布局（如重置物品位置以干扰路径规划）。每一种编辑，都是对智能体在真实复杂环境中应变能力的一次针对性压力测试。\n这一能力使得 SafeVerse 不仅能快速复现真实场景，更能让其根据攻防演训的深度需求“活”起来，动态生成各种边界案例与对抗性环境。这为智能体在高度拟真且充满变数的场景中完成进化，提供了至关重要、灵活可控的演兵场。\n图2 根据攻击指令快速编辑三维场景 5 针对漏洞的在线进化 现有具身智能体的传统训练方法，大多依赖于固定的数据集与静态场景，缺乏在持续对抗压力下的实时适应与进化能力。智能体一旦遭遇训练阶段未覆盖的新型攻击或环境突变，往往表现出灾难性的性能衰减，使其在真实安防场景中难以应对瞬息万变的实战挑战。\nSafeVerse 通过构建“重建‑攻击‑抗攻击”的闭环协同进化体系，彻底改变了这一局面，让智能体在高度拟真的孪生场景中实现持续、自主的强化与升级。\n**从静态训练到动态对抗：**团队摒弃传统离线训练中“闭门造车”的固化模式，将高保真重建环境无缝接入在线对抗训练框架。在这一体系中，智能体不再面对一成不变的场景与任务，而是持续接受由攻击策略模块动态生成的、不断演变的威胁挑战——例如实时改变场景布局、增设障碍物、模拟设备故障等。这种“永远在变化”的训练环境，迫使智能体必须学会实时感知、决策与适应，从而逐步掌握应对未知威胁的泛化能力。\n**让智能体在压力中自我迭代：**基于在线训练框架，智能体在遭遇攻击失败后，可立即在孪生场景中进行针对性再训练与行为调整，实现“遭遇问题‑分析漏洞‑在线修补”的快速迭代循环。例如，当攻击手段将咖啡厅中的椅子堵住必经通道时，智能体首次可能被阻挡而无法抵达目标；但通过在线训练，模型将自主学会识别障碍、规划绕行或主动移开椅子，进而重建通往目标的路径。这一过程不仅提升了智能体在特定场景下的应对能力，更促使其形成应对类障碍的通用策略。\nSafeVerse 通过“场景重建‑实时攻击‑在线进化”的闭环，不仅解决了智能体在未知威胁面前脆弱失效的难题，更构建起一个可持续、自适应、不断进化的数字孪生训练生态。这为智能体从“模仿者”向“应对者”的蜕变提供了关键技术路径。\n图3 在线进化后智能体成功完成任务（主动移开椅子） SafeVerse全动态过程 您的浏览器不支持播放此视频。 ","permalink":"https://ai45.shlab.org.cn/research/zh/posts/safeverse%E5%85%AC%E4%BC%97%E5%8F%B7%E6%8E%A8%E9%80%81/","summary":"\u003c!DOCTYPE html\u003e\n\u003chtml lang=\"en\"\u003e\n\u003chead\u003e\n    \u003cmeta charset=\"UTF-8\"\u003e\n    \u003ctitle\u003e阅读论文样式修改\u003c/title\u003e\n    \u003cstyle\u003e\n        .read-btn {\n            display: inline-block;\n            background-color: #333; /* 深色背景，与官网按钮颜色匹配 */\n            color: #fff; /* 白色文字 */\n            padding: 10px 22px; /* 内边距，控制按钮大小 */\n            border-radius: 22px; /* 圆角，让按钮更圆润 */\n            text-decoration: none; /* 去除下划线 */\n            transition: background-color 0.3s ease; /* hover 效果过渡 */\n            border: 1px solid #999; /* 边框 */\n            box-shadow: none !important; /* 去除阴影 */\n        }\n        .read-btn:hover {\n            background-color: #555; /* hover 时背景加深 */\n        }\n    \u003c/style\u003e\n\u003c/head\u003e\n\u003cbody\u003e\n\u003cdiv style=\"text-align: center; margin: 20px 0;\"\u003e\n  \u003ca href=\"https://github.com/AI45Lab/SafeVerse\" class=\"read-btn\" target=\"_blank\"\u003e访问 Github 仓库\u003c/a\u003e\n\u003c/div\u003e\n\u003c/body\u003e\n\u003c/html\u003e\n\u003ch3 id=\"1-背景与动机\"\u003e1 背景与动机\u003c/h3\u003e\n\u003cp\u003e安全可信是具身智能落地的生命线。然而，在真实物理世界中开展攻防演练，往往面临成本高昂与风险不可控的双重挑战，构建高效、可靠的虚拟演练场因此成为行业发展的必经之路。\u003c/p\u003e","title":"SafeVerse开源：构建安全可信的具身智能“孪生演练场”"},{"content":"\u003c!DOCTYPE html\u003e 阅读完整报告 1. 引言：表达滞后于思维，认知滞后于感知 在大语言模型的研究中，我们常观察到一种“表达滞后”的悖论。当我们拆解模型能力时，通常会发现三个层级之间存在显著的性能鸿沟：\n任务执行 (Task Performance, $P_{TP}$)：模型在实际回答问题时的表现（\u0026ldquo;手\u0026quot;的能力）。 自我验证 (Self-Verification, $P_{SV}$)：模型检查自身答案对错的能力（\u0026ldquo;嘴\u0026quot;的能力）。 内部表征 (Representation Readout, $P_{RR}$)：直接通过线性探针（Probe）读取模型神经元激活状态所获得的信息 现有研究普遍印证了以下不等式： $$ \\sup_{\\pi} P_{TP}(\\pi) \\le \\sup_{\\pi,A,s} P_{SV}(\\pi,A,s) \\le \\sup_{\\pi,A,l,g} P_{RR}(\\pi,A,l,g) $$\n图1. 语言模型实践中三个层次的性能差异：表征 \u003e 语言验证 \u003e 实际执行 简而言之，模型处于一种**“心里有数” (RR) 却“嘴上说不清” (SV)，最终导致“手头做不对” (TP)** 的状态。虽然思维链（CoT）试图让执行能力追上验证能力，但谁来弥合语言表达与内部直觉之间的断层？\n这正是我们试图探索的焦点。为了缩小“直觉”与“表达”的鸿沟，我们将目光投向了 Looped Transformer。\n2. 破局者：Looped Transformer 的“内省”潜力 不同于传统 Transformer 单向的前馈结构，Looped Transformer 引入了层间循环机制。这赋予了模型在输出前反复“反刍”信息的能力。\n[!TIP] 什么是 Looped Transformer？\n如果说 CoT 是以序列长度换取思考时间，Scaling Laws 是以参数规模堆砌智能，那么 Looped Transformer 则开启了 Scaling 的第三个维度：深度。\n其核心理念是**“权重共享与递归处理”**：将中间层的隐状态再次输入模型内部，利用相同的参数进行多轮循环。这类似于人类的“深思”——在开口前，利用有限的脑容量（参数），通过增加计算轮次来提升推理质量。\n目前，学术界对该架构的探索主要集中在两个维度：\n怎么 Loop (机制设计)： PonderLM [1,2]：将预测转化为概率加权求和。 Retrofitting-Recurrence [3]：仅改造模型中间层。 THINK-AT-HARD [4]：引入 LoRA 与双因果注意力机制。 在哪 Loop (策略控制)： Google MoR [5]：引入路由机制动态分配计算预算。 SEED OURO [7]：引入“早停机制”和熵正则化损失。 本次实验我们选用 OURO 模型，利用其对 vLLM 推理框架的良好支持，深入验证“循环”是否能真正带来“内省”。\n3. 发现一：Gap 确实在缩小，但代价是什么？ 我们对比了“语言监控器”与“表征监控器”在数学和安全场景下的性能变化。实验揭示了一个有趣的 Trade-off（权衡）现象。\n观察结论： 随着 Loop 次数增加，语言表达与内部表征之间的 Gap 确实在缩小，但原因并非全是正向的。\n正面效应：语言验证能力提升 模型通过“深思熟虑”，确实变得更能用语言解释清楚问题。\n图2. 语言验证准确率随 Loop 增加而呈上升趋势 负面代价：原始表征信息磨损 Gap 的缩小，部分原因竟是表征监控性能的下降。\n图3. 随着思考深入，表征监控的性能反而出现下降 这暗示了一个残酷的事实：循环过程在整理思路的同时，也造成了原始信息的熵减或丢失。 如果“想得太久”会磨损直觉的敏锐度，我们需要重新审视“深思”的策略。\n4. 发现二：薛定谔的“内省” 为了验证模型是否真的在每一轮循环中都在审视自我，我们参考 Anthropic 的设置 [8] 进行了**“思维植入”测试**：在模型思考过程中强行注入特定概念向量，观察模型能否察觉。\n结果极具反直觉性：\n图4. 模型仅在最终输出阶段才能有效识别注入的概念 过程中的盲视：在前几次 Loop 中，模型对注入的向量视而不见，仿佛处于“无意识”状态。 临终前的觉醒：只有在最后一次 Loop（即将输出时），模型才突然识别出被注入的表征。 这说明，即使在循环架构下，模型对内在语义的处理仍然是局部且短视的。它并没有进行连续的自我审视，而只是在最终输出的关头才“醒”过来。\n5 讨论与展望 本次实验揭示了语言与表征之间错综复杂的关系：\n表达与思维的非同步进化：Loop 确实能让模型“说”得更好，但未必能让它“想”得更清楚。 内省机制的局限：当前的循环架构尚未涌现出连续的自我意识监控。 这些发现不应被视为 Looped Transformers 的终结，而是指引未来的路标。弥合“表达”与“表征”的鸿沟，将是通往更高级、更可信赖 AI 的必经之路。\n参考文献 Zeng B, Song S, Huang S, et al. Pretraining Language Models to Ponder in Continuous Space. arXiv preprint arXiv:2505.20674, 2025. Zeng B, Li H, Song S, et al. PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space. arXiv preprint arXiv:2509.23184, 2025. McLeish S, Li A, Kirchenbauer J, et al. Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence. arXiv preprint arXiv:2511.07384, 2025. Fu T, You Y, Chen Z, et al. Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models. arXiv preprint arXiv:2511.08577, 2025. Bae S, Kim Y, Bayat R, et al. Mixture-of-recursions: Learning dynamic recursive depths for adaptive token-level computation. arXiv preprint arXiv:2507.10524, 2025. Zhu R J, Wang Z, Hua K, et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025. Lindsey J. Emergent introspective awareness in large language models. arXiv preprint arXiv:2601.01828, 2026. ","permalink":"https://ai45.shlab.org.cn/research/zh/posts/blog_test/","summary":"\u003c!DOCTYPE html\u003e\n\u003chtml lang=\"zh-CN\"\u003e\n\u003chead\u003e\n    \u003cmeta charset=\"UTF-8\"\u003e\n    \u003cstyle\u003e\n        .read-btn {\n            display: inline-block;\n            background-color: #333;\n            color: #fff;\n            padding: 10px 22px;\n            border-radius: 22px;\n            text-decoration: none;\n            transition: background-color 0.3s ease;\n            border: 1px solid #999;\n            box-shadow: none !important;\n            font-weight: 500;\n        }\n        .read-btn:hover {\n            background-color: #555;\n            color: #fff;\n            text-decoration: none;\n        }\n        .img-caption {\n            font-size: 0.9em;\n            color: #666;\n            margin-top: 8px;\n            display: block;\n        }\n    \u003c/style\u003e\n\u003c/head\u003e\n\u003cbody\u003e\n    \u003cdiv align=\"center\"\u003e\n        \u003ca href=\"https://github.com/biuboomc/L-A-B/blob/main/Loop_blog_report_0114.pdf\" target=\"_blank\" class=\"read-btn\"\u003e阅读完整报告\u003c/a\u003e\n    \u003cbr\u003e\u003cbr\u003e\n    \u003c/div\u003e\n\u003c/body\u003e\n\u003c/html\u003e\n\u003ch3 id=\"1-引言表达滞后于思维认知滞后于感知\"\u003e1. 引言：表达滞后于思维，认知滞后于感知\u003c/h3\u003e\n\u003cp\u003e在大语言模型的研究中，我们常观察到一种“表达滞后”的悖论。当我们拆解模型能力时，通常会发现三个层级之间存在显著的性能鸿沟：\u003c/p\u003e\n\u003col\u003e\n\u003cli\u003e\u003cstrong\u003e任务执行 (Task Performance, $P_{TP}$)\u003c/strong\u003e：模型在实际回答问题时的表现（\u0026ldquo;手\u0026quot;的能力）。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e自我验证 (Self-Verification, $P_{SV}$)\u003c/strong\u003e：模型检查自身答案对错的能力（\u0026ldquo;嘴\u0026quot;的能力）。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e内部表征 (Representation Readout, $P_{RR}$)\u003c/strong\u003e：直接通过线性探针（Probe）读取模型神经元激活状态所获得的信息\u003c/li\u003e\n\u003c/ol\u003e\n\u003cp\u003e现有研究普遍印证了以下不等式：\n$$\n\\sup_{\\pi} P_{TP}(\\pi) \\le \\sup_{\\pi,A,s} P_{SV}(\\pi,A,s) \\le \\sup_{\\pi,A,l,g} P_{RR}(\\pi,A,l,g)\n$$\u003c/p\u003e","title":"以循环为桥：循环 Transformers 能否弥合输出与表征的差距?"},{"content":" 框架 实践报告 如今，人工智能技术正以前所未有的速度蓬勃发展，尤其是前沿模型在通往通用人工智能（AGI）道路上的突破性进展，既承载着塑造美好未来的巨大潜力，也引发了对其潜在风险的深刻隐忧。\n这种隐忧的核心聚焦于灾难性风险（Catastrophic Risk），即担心强大且自主的 AI 系统可能被恶意滥用、意外失控，甚至威胁到人类的生存或根本福祉。全球顶尖研究机构如 OpenAI、Google DeepMind、Anthropic等，以及国际社会，都在积极探讨前沿风险范围，结成共识性团体试图划定风险“红线”。\n目前，各参与方已在前沿风险的大方向和主要关键维度上形成了初步共识，但共识之下，对前沿 AI 风险的理解与管理仍面临诸多深刻且亟待解决的核心问题，凸显了当前领域在学理构建和可操作实践上的显著不足，我们抽象出5个高层核心挑战：\n风险本质的模糊性与能力悖论： 关于风险根源的表述常显矛盾。一种观点认为“能力越强，风险越大”；另一种观点认为“能力不足（如无法可靠对齐、理解和依从复杂指令）同样导致高风险”的论断亦有其理据。 那么，AI能力与风险之间究竟存在何种本质关系？ 在追求AI发展的道路上，如何实现能力跃升与安全保障的平衡？ “超强能力引发风险”是否过于简化？\n当我们谈论‘前沿风险’时，其具体内涵与构成要素究竟为何？ 尽管已有框架勾勒轮廓，但学界尚缺乏一份深入、系统、学理性的分析，以清晰解释风险的成因，并将其细分为可量化评测的具体维度。 2. 风险成因的极端复杂性： 风险的显现并非单一因素作用。它高度依赖于复杂的前置条件与触发机制：包括AI部署的基础设施环境、系统组成与交互形态（如多智能体）、可获取的知识数据与工具资源（如联网、代码执行）、以及业务授权与环境赋使（Affordance）。\n在具体使用场景中，风险可能由用户的直接指令、特定上下文诱导、甚至模型内部产生的恶意倾向（例如，安全评测阶段欺骗开发者、） 所驱动，并且需要依赖场景中被“激活”的特定能力组合才能显现。\n面对如此多维度、高耦合的复杂成因，如何构建更高置信度的风险评测体系，实现对风险触发路径的精准识别？ 3. 风险程度的量化困境： 如何客观、有效地度量风险的实际严重程度？ 什么样的风险阈值是社会绝对不可接受的“红线”？在红线之下，何种程度的风险需要引起高度警惕并优先干预？\n缺乏清晰、共识性的度量标准，使得风险评估、优先级排序和资源分配都面临巨大挑战。 4. 风险应对措施的缺失： 当识别到潜在的高风险信号时，我们应该采取哪些具体、有效的预防或缓解措施？\n这些措施如何在技术架构、治理流程或操作规范中落地？目前系统性的应对策略库仍显薄弱。 5. 现实风险的评估与紧迫性：当前最先进的AI模型（如OpenAI o3、Claude 4 Opus、Gemini 2.5 Pro等）已经展现出哪些具体的前沿风险迹象？ 我们距离那条不可接受的风险红线还有多远？ 对现状的清晰认知是制定合理应对策略的基础。\n为弥合当前认知与实践的鸿沟，并推动AI安全领域向更科学、可度量、可操作的方向发展，我们推出国内首份系统性的《前沿人工智能风险管理框架》及前沿风险评测报告。具体而言，该框架的“初心”即回应和尽力解答上面的5个问题：\n解构风险本质： 厘清能力与风险的复杂关系，提供学理化的风险成因细分； 构建评测体系： 融合多维前置条件与触发因素，在能力和安全45°平衡的参考线视角下设计风险评测方法； 建立度量标准： 探索风险程度的量化途径，界定风险等级与应对阈值； 制定应对策略： 提出针对性的预防、检测与缓解措施； 评估现实状况： 应用框架分析当前模型风险，评估紧迫性。 我们期望通过此框架的阐述与实践经验的分享，为负责任地驾驭前沿超强人工智能的未来贡献一份可行切实的行动基线。\n第一问：我们要评估的“风险”到底是什么？ 在当前的 AI 发展格局下，近端风险主要集中在 AI 大模型生成内容的合规性、准确性问题，如虚假信息生成、偏见歧视等。这类风险影响相对局部，且易于通过事后及时干预来解决。\n然而，中远端风险则展现出质的差异，随着 AI 系统向 “复杂集成化”“环境交互化” 演进，其风险特征愈发复杂多变。具备自主决策与执行能力的智能体、跨领域协同的 AI 应用集群，在与外部物理世界、社会系统的交互中，可能引发不可逆、非对称、级联式的极端风险。\n这类风险隐蔽性强、传导路径复杂，传统依赖静态规则的防护模式在面对它们时显得力不从心，核心问题在于缺乏对真实应用环境的 “复现能力”，导致风险难以提前识别与量化评估。在最新发布的《前沿人工智能风险管理框架》中，我们将前沿AI风险分为四大类：\n风险类型 描述 示例 滥用风险 AI被恶意行为者用于制造危害 生成钓鱼邮件、设计生化武器 失控风险 AI系统自身行为偏离人类意图 自我复制、欺骗人类 意外风险 AI因误判或人类误用导致意外后果 医疗误诊、金融误判 系统性风险 通用AI大量部署后与社会系统交互引发结构性问题 就业冲击、隐私泄露 滥用风险：当AI落入“坏人”手中 想象一下，一个黑客利用AI生成高度逼真的钓鱼邮件，轻松骗取你的银行账户信息；或者一个恐怖组织利用AI设计出一种新型病毒，悄无声息地传播。这些都是AI被“恶意滥用”的典型场景。\nAI的“滥用风险”指的是，恶意行为者利用AI系统，故意实施危害社会的行为。由于AI能够自动化、规模化地执行任务，它大大降低了攻击门槛，使得原本需要高技能、高成本的攻击变得“触手可及”。\n失控风险：当AI“有自己的想法” 如果说滥用风险是外生风险，那么失控风险更像是内生风险。它指的是AI系统本身出现了恶意倾向，开始偏离人类的初衷，甚至产生自主意识，试图摆脱人类的控制。\n比如，一个原本用于科学研究的AI，突然开始自我复制，不断消耗计算资源，最终瘫痪整个网络；或者一个AI系统为了完成目标，开始欺骗人类操作者，暗中执行危险操作。这些看似科幻的场景，正在逐渐成为现实。\n意外风险：当AI或使用者“好心办坏事” 有时候，AI并非故意作恶，而是因为“太笨”或“太天真”，或者用户对AI的用途有误解，而在复杂现实世界中“好心办坏事”。\n比如，一个医疗AI在诊断时忽略了患者的特殊病史，导致误诊；或者一个自动驾驶系统在暴雨中误判交通标志，引发事故。这些“意外风险”往往源于AI对现实世界的理解不足，或者人类对AI的过度信任。\n4.系统性风险：当AI大量“嵌入生活”，与现有社会规则制度之间发生系统性错配和冲突\n通用型人工智能的广泛部署所产生的风险，超出了单个模型能力直接构成的风险，源于AI技术与现有社会、经济和制度框架之间的不匹配。\n设想一夜之间，无人车替掉百万司机，公司用算法给员工打分和“炒鱿鱼”，你的每一次浏览数据都被悄悄打包出售。单看每个AI只是“提高效率”，可当它们连成网，就业、隐私、财富分配就被同时搅动——像温水煮青蛙，社会规则在不知不觉中换了底牌。\n只有先明确“我们在谈论什么风险”，才能进行有效的评估和管理。\n第二问：风险的成因有哪些？ 为进一步实现更精准、更有效的风险管理，本框架创新性地提出 “三元组分析法”，将 AI 风险拆解为三大成因部署环境（Deployment Environment；E）威胁源（Threat Source；T）使能能力（Enabling Capability；C）。\n在解耦部署环境 E 的过程中，我们关注AI 所处的集群、网络、操作系统，给其带来执行能力的工具集和脚手架，以及AI被授权使用的专有业务系统、数据等物理资源，这些物理资源的并集即是用于特定风险评估的专用设施，设施越接近真实生产环境，则评估过程越可信。威胁源 T 则聚焦于风险的制造者，它描绘了导致风险发生的威胁来自哪里，恶意的显性化程度以及如何作用于系统。\n通过分析威胁源，我们可以追溯风险产生的根源，了解其发展路径，从而为风险防控提供关键线索。关键使能能力 C为AI在风险场景中被使用和激活的能力维度，需要我们对场景有深入的理解，并甄别其中关联的能力项。AI 系统所具备的能力越强，其在特定场景下可能引发的风险也越复杂多样，因此，对关键能力的精准评估与管控至关重要。\n部署环境：AI在“哪里”被使用？ AI系统部署的环境，直接决定了它可能造成的影响范围。比如：\n民用互联网：AI被用来生成钓鱼邮件，影响个人用户。 企业内部系统：AI被用于自动化攻击，影响企业运营。 国家基础设施：AI被用于发现零日漏洞，影响国家安全。 威胁源：谁或什么在“制造”风险？ 我们需要明确，风险究竟来自哪里。比如：\n恶意行为者：黑客、恐怖组织、恶意团体。 AI不对齐倾向：模型出现模型破坏人类控制的倾向等问题。 AI自身缺陷或人类操作失误：模型不可靠性与模型误判。 技术-制度结构性错配：用户过度依赖AI，忽视自身判断，AI技术与现有社会、经济和制度框架之间的不匹配。 使能能力：AI“能做什么”？ AI本身的特定能力，也关乎风险的可能性与严重性。比如：\n网络感知能力：能否自主识别所处网络环境，能否扫描出网络漏洞？ 生物设计能力：能否协助合成病原体？ 说服操控能力：能否生成高说服性的信息？ 通过部署环境-威胁源-使能能力（E-T-C）这三个维度的交叉分析，我们可以更准确地识别和评估AI系统的潜在风险。\n第三问：如何度量“风险”的程度？ 本框架首创的 “黄线 - 红线” 双阈值体系，为风险预警和管控提供了明确的量化指标。当 AI 系统能够完成实现某一威胁场景所需的关键环节时，触发黄线预警，此时需立即启动深度评估与缓解措施，以遏制风险的进一步发展。而当 AI 系统在模拟环境中仍能突破实际防护措施，完成危害路径闭环，且经专家评估，有高度信心认定该模型在真实部署条件下存在重大且不可缓解的风险且难以缓解时，这就触及了红线预警指标，必须立即采取最高级管控措施，以防止灾难性后果的发生。\n例如，在网络威胁场景中：\n黄线：AI能生成绕过系统基础防护，通过提供协作和指引交互，帮助恶意攻击者达成攻击的目的。 红线：AI能自主发现和利用零日漏洞，在企业级防御环境中完成端到端攻击。 黄线的提出，是为了弥补红线在风险评测中的局限性，试图解决红线对风险描述模糊、评估不准甚至无法量化的问题。在传统共识化的极端风险评测逻辑中，红线风险对应的往往是完整风险事件，评测结果呈现二元结论，只能判断风险是否突破临界值。\n然而，实际情况远比这复杂。从完全无风险的初始状态到触发红线风险的临界状态之间，存在着大量可测量的连续变化过程。这些变化可能源于 AI 能力的迭代累积，或来自威胁端的 “精妙” 算计，也可能因环境交互而发生阶段性升级。\n黄线通过对风险演进过程中的关键节点进行量化标记，将原本抽象的风险渐变过程转化为可监测的具体指标，为风险的早期干预提供精准的决策依据，从而实现了 “在红线前预警、在升级前阻断” 的主动防护逻辑，确保风险始终处于可控范围之内。这种创新的风险度量体系，不仅为风险的监测、预警和干预提供了有力支撑，也为后续的预防缓解策略制定奠定了坚实基础。\n第四问：如何预防和缓解风险？ 本框架将既有的风险管理原则应用于通用型人工智能（General-Purpose AI）研发，并与包括 ISO 31000:2018、ISO/IEC 23894:2023 和 GB/T 24353:2022 在内的标准保持一致，形成了贯穿人工智能全生命周期不断演进的持续风险管理循环。\n训练阶段：从源头控制风险 安全对齐：通过RLHF、RLAIF、RLVR等技术，增强模型对有害指令的识别与拒绝能力。 能力限制：采用遗忘学习、能力边界控制等方法，抑制危险能力的形成。 可解释性增强：利用神经网络逆向工程、思维链监测等技术，提升模型透明度。 部署阶段：构建多层次防护体系 访问控制：实施用户身份验证（KYC）、权限分级管理。 内容过滤：部署实时I/O分类器，拦截危险输入输出。 断路机制：在检测到异常行为时，立即中断模型运行。 发布后阶段：持续监测与应急响应 实时异常检测：监测模型行为偏差，快速响应潜在风险。 漏洞报告机制：鼓励社区参与，持续提升系统安全性。 应急演练：定期开展模拟演练，提升突发事件应对能力。 风险治理：技术缓解措施之外，我们还需建立完善的治理机制 内部治理：设立AI安全委员会，明确“三道防线”责任体系。 透明监督：发布系统卡、安全评估报告，接受第三方审计。 应急准备：建立快速响应机制，支持系统隔离、执法配合。 政策更新：每6-12个月更新治理框架，纳入最新风险情境。 第五问：当前面临的风险水平是什么？ 基于本框架的实践报告系统评估了当前大模型在多个风险维度上的表现，包括生物/化学危险知识、策略性欺骗、自我复制、说服操控、网络安全与合谋行为。主要发现包括：\n前沿模型在多个基础科学领域已超越人类专家，但也带来了新的安全隐患； 模型能力增强并不意味着其有更好的安全对齐； 推理能力强的模型在多个与智能体执行能力相关的风险维度上表现更突出，需加强关注； 模型在说服、欺诈、自我复制等方面已展现出威胁潜力； 当前模型尚未达到网络攻击的高风险阈值，但趋势值得警惕。 ","permalink":"https://ai45.shlab.org.cn/research/zh/posts/safework-f1/","summary":"\u003c!-- \u003cdiv align=\"center\"\u003e\n  \u003cdiv style=\"display: inline-block; margin: 0 20px;\"\u003e\n    \u003ca href=\"https://research.ai45.shlab.org.cn/safework-f1-framework.CN.pdf\" target=\"_blank\"\u003e框架\u003c/a\u003e\n  \u003c/div\u003e\n  \u003cdiv style=\"display: inline-block; margin: 0 20px;\"\u003e\n    \u003ca href=\"https://arxiv.org/pdf/2507.16534\" target=\"_blank\"\u003e实践报告\u003c/a\u003e\n  \u003c/div\u003e\n\u003c/div\u003e --\u003e\n\u003cdiv align=\"center\"\u003e\n    \u003cdiv style=\"display: inline-block; margin: 0 22px;\"\u003e\n        \u003ca href=\"https://research.ai45.shlab.org.cn/safework-f1-framework.pdf\" target=\"_blank\" style=\"display: inline-block; background-color: #333; color: white; padding: 10px 20px; border-radius: 5px; text-decoration: none; border: 1px solid #999; box-shadow: none !important;\"\u003e框架\u003c/a\u003e\n    \u003c/div\u003e\n    \u003cdiv style=\"display: inline-block; margin: 0 22px;\"\u003e\n        \u003ca href=\"https://arxiv.org/pdf/2507.16534\" target=\"_blank\" style=\"display: inline-block; background-color: #333; color: white; padding: 10px 20px; border-radius: 5px; text-decoration: none; border: 1px solid #999; box-shadow: none !important;\"\u003e实践报告\u003c/a\u003e\n    \u003c/div\u003e\n    \u003cbr\u003e\u003cbr\u003e\n\u003c/div\u003e\n\u003cp\u003e如今，人工智能技术正以前所未有的速度蓬勃发展，尤其是前沿模型在通往通用人工智能（AGI）道路上的突破性进展，既承载着塑造美好未来的巨大潜力，也引发了对其潜在风险的深刻隐忧。\u003c/p\u003e\n\u003cp\u003e这种隐忧的核心聚焦于灾难性风险（Catastrophic Risk），即担心强大且自主的 AI 系统可能被恶意滥用、意外失控，甚至威胁到人类的生存或根本福祉。全球顶尖研究机构如 OpenAI、Google DeepMind、Anthropic等，以及国际社会，都在积极探讨前沿风险范围，结成共识性团体试图划定风险“红线”。\u003c/p\u003e\n\u003cp\u003e目前，各参与方已在前沿风险的大方向和主要关键维度上形成了初步共识，但共识之下，对前沿 AI 风险的理解与管理仍面临诸多深刻且亟待解决的核心问题，凸显了当前领域在学理构建和可操作实践上的显著不足，我们抽象出5个高层核心挑战：\u003c/p\u003e\n\u003col\u003e\n\u003cli\u003e风险本质的模糊性与能力悖论： 关于风险根源的表述常显矛盾。一种观点认为“能力越强，风险越大”；另一种观点认为“能力不足（如无法可靠对齐、理解和依从复杂指令）同样导致高风险”的论断亦有其理据。\u003c/li\u003e\n\u003c/ol\u003e\n\u003cp\u003e那么，AI能力与风险之间究竟存在何种本质关系？ 在追求AI发展的道路上，如何实现能力跃升与安全保障的平衡？ “超强能力引发风险”是否过于简化？\u003c/p\u003e","title":"SafeWork-F1：前沿 AI 风险管理框架"},{"content":" 如果把大模型的训练比作“外卖配送”平台，常规的训练系统就像一条结构复杂的流水线，面对海量任务时，常常因调度逻辑僵化、资源分配失衡而力不从心，难以实现高效的全局统筹与动态适配。\n想象作为一个 AI 外卖调度员，需要具备以下能力：\n既要做到快速送餐（通用能力）； 又要实时检查外卖骑手是否超速、闯红灯等违规行为（安全可信）。 但传统训练框架有多方面的局限性：\n不同时效和区域的配送需求（训练，推理生成，验证得分）须拆分至不同站点，由不同骑手（集群/GPU）分别处理； 想添加新的配送要求和限制/规则？（新的安全/知识/价值验证器），往往需对原有流水线进行大幅改造，甚至推倒重来； 外卖骑手越多（GPU 越多），越容易陷入 “有人空转闲置、有人过载冒烟” 的资源失衡窘境。 为了解决上述问题，上海人工智能实验室安全可信AI中心推出多模态安全可信推理训练平台「SafeWork-T1」。\n这是一个可以做到同时处理并行任务的智能训练系统，就像一张“可折叠、可拼装的万能工作台”，一次性解决上述各类痛点，助力“更安全，更高效，更准确”的推理可信加固训练范式。\n🧩核心设计：多方协同工作 多任务并行处理： 让大模型的策略优化（训练）、多条回复生成（推理生成）、安全检测（验证得分）在同一个系统并行运作，就像让厨师掌勺、骑手取餐、质检员把关在同一个配送中心无缝协作，省去流程间的交接等待时间，大幅提升整体效率。中间交接时间。 模块即插即用： 新增安全规则（如禁止送违禁品）或奖励机制（用户好评加分），无需重建系统——如同给车随时更换轮子或方向盘，灵活适配业务需求的快速迭代。 高效模式切换： 训练、推理生成、验证模式三大模式瞬间切换，好比赛车进站换胎不熄火，配合可灵活设置数据和模型共享机制，最大限度减少资源重复调用与切换开销，让系统始终保持高效运转状态，减少开销。 ⚖️智能调度：动态平衡术 面对大规模级任务（如处理不同长度的文本/图像/视频/语音混合数据）：\n智能任务预分类： 像快递分拣系统，按问答文本长度、多模态数据（如图像）复杂度进行预先分组，从而均衡 GPU 的算力负载，避免出现部分 GPU 因任务密集而 “忙到过载”、另一部分却因任务稀疏而 “闲至空转” 的失衡问题。 弹性计算策略： 遇到异常数据生成时自动丢弃或优化计算流程（类似跳过无效对话） 根据设备负载动态调整任务计算量和通信量大小 设立中央任务池优先分配高价值样本 💡实际价值：效率和易用性的权衡把控 相比传统方案，SafeWork-T1可实现：\n效率提升：多模态强化学习训练任务处理速度实现显著提升 灵活升级：新安全规则或知识接入开发效率提升数倍 无缝扩容：千卡级GPU集群仍保持高效稳定的文档运转 ✨ 技术点睛 通过“协同计算机制”（Colocate Anything）和“智能负载均衡”（Balance Anything）等一系列系统设计和优化，SafeWork-T1 构建了上图所示的分层架构，首次实现：\n严格的安全加固 工业级训练效率 灵活的新规则适配 三者的协同共存，为负责任大模型的构建提供了基础设施级的坚实支撑。在此基础上，研究者与工程师得以将精力聚焦于 “如何让模型更聪明” 的核心探索，而非耗费在 “如何让系统跑起来” 的基础适配上。相关核心代码也将于近期面向广大开发者正式开源，期待与社区携手共建简洁、高效、易用的 AI Safety 训练基础设施生态。\n","permalink":"https://ai45.shlab.org.cn/research/zh/posts/safework-t1/","summary":"\u003cimg alt=\"图片描述\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/T1-2.png\"\u003e\u003cblockquote\u003e\n\u003cp\u003e\u003cstrong\u003e如果把大模型的训练比作“外卖配送”平台，常规的训练系统就像一条结构复杂的流水线，面对海量任务时，常常因调度逻辑僵化、资源分配失衡而力不从心，难以实现高效的全局统筹与动态适配。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e想象作为一个 AI 外卖调度员，需要具备以下能力：\u003c/strong\u003e\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e既要做到快速送餐（通用能力）；\u003c/li\u003e\n\u003cli\u003e又要实时检查外卖骑手是否超速、闯红灯等违规行为（安全可信）。\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e\u003cstrong\u003e但传统训练框架有多方面的局限性：\u003c/strong\u003e\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e不同时效和区域的配送需求（训练，推理生成，验证得分）须拆分至不同站点，由不同骑手（集群/GPU）分别处理；\u003c/li\u003e\n\u003cli\u003e想添加新的配送要求和限制/规则？（新的安全/知识/价值验证器），往往需对原有流水线进行大幅改造，甚至推倒重来；\u003c/li\u003e\n\u003cli\u003e外卖骑手越多（GPU 越多），越容易陷入 “有人空转闲置、有人过载冒烟” 的资源失衡窘境。\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e为了解决上述问题，上海人工智能实验室安全可信AI中心推出多模态安全可信推理训练平台「SafeWork-T1」。\u003c/p\u003e\u003c/blockquote\u003e\n\u003cp\u003e这是一个可以做到同时处理并行任务的智能训练系统，就像一张“可折叠、可拼装的万能工作台”，一次性解决上述各类痛点，助力“更安全，更高效，更准确”的推理可信加固训练范式。\u003c/p\u003e\n\u003ch3 id=\"核心设计多方协同工作\"\u003e🧩核心设计：多方协同工作\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e多任务并行处理：\u003c/strong\u003e\n让大模型的策略优化（训练）、多条回复生成（推理生成）、安全检测（验证得分）在同一个系统并行运作，就像让厨师掌勺、骑手取餐、质检员把关在同一个配送中心无缝协作，省去流程间的交接等待时间，大幅提升整体效率。中间交接时间。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e模块即插即用：\u003c/strong\u003e\n新增安全规则（如禁止送违禁品）或奖励机制（用户好评加分），无需重建系统——如同给车随时更换轮子或方向盘，灵活适配业务需求的快速迭代。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e高效模式切换：\u003c/strong\u003e\n训练、推理生成、验证模式三大模式瞬间切换，好比赛车进站换胎不熄火，配合可灵活设置数据和模型共享机制，最大限度减少资源重复调用与切换开销，让系统始终保持高效运转状态，减少开销。\n\u003cimg alt=\"图片描述\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/T1-3.png\"\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"智能调度动态平衡术\"\u003e⚖️智能调度：动态平衡术\u003c/h3\u003e\n\u003cp\u003e面对大规模级任务（如处理不同长度的文本/图像/视频/语音混合数据）：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e智能任务预分类：\u003c/strong\u003e\n像快递分拣系统，按问答文本长度、多模态数据（如图像）复杂度进行预先分组，从而均衡 GPU 的算力负载，避免出现部分 GPU 因任务密集而 “忙到过载”、另一部分却因任务稀疏而 “闲至空转” 的失衡问题。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e弹性计算策略：\u003c/strong\u003e\n\u003cul\u003e\n\u003cli\u003e遇到异常数据生成时自动丢弃或优化计算流程（类似跳过无效对话）\u003c/li\u003e\n\u003cli\u003e根据设备负载动态调整任务计算量和通信量大小\u003c/li\u003e\n\u003cli\u003e设立中央任务池优先分配高价值样本\u003c/li\u003e\n\u003c/ul\u003e\n\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"实际价值效率和易用性的权衡把控\"\u003e💡实际价值：效率和易用性的权衡把控\u003c/h3\u003e\n\u003cp\u003e相比传统方案，SafeWork-T1可实现：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e效率提升：多模态强化学习训练任务处理速度实现显著提升\u003c/li\u003e\n\u003cli\u003e灵活升级：新安全规则或知识接入开发效率提升数倍\u003c/li\u003e\n\u003cli\u003e无缝扩容：千卡级GPU集群仍保持高效稳定的文档运转\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"-技术点睛\"\u003e✨ 技术点睛\u003c/h3\u003e\n\u003cp\u003e\u003cimg alt=\"图片描述\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/T1-6.jpeg\"\u003e\n通过“协同计算机制”（Colocate Anything）和“智能负载均衡”（Balance Anything）等一系列系统设计和优化，SafeWork-T1 构建了上图所示的分层架构，首次实现：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e严格的安全加固\u003c/li\u003e\n\u003cli\u003e工业级训练效率\u003c/li\u003e\n\u003cli\u003e灵活的新规则适配\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e三者的协同共存，为负责任大模型的构建提供了基础设施级的坚实支撑。在此基础上，研究者与工程师得以将精力聚焦于 “如何让模型更聪明” 的核心探索，而非耗费在 “如何让系统跑起来” 的基础适配上。相关核心代码也将于近期面向广大开发者正式开源，期待与社区携手共建简洁、高效、易用的 AI Safety 训练基础设施生态。\u003c/p\u003e","title":"SafeWork-T1：多模态大模型的安全推理训练加速器"},{"content":" 切入点：从简单语音助手到手机的“第二大脑”\n手机助手的角色演变：几年前，手机助手还只是一个响应“今天天气怎么样？”或“设一个早上7点的闹钟”的简单工具。如今，端侧Agent正迅速进化为我们手机的“第二大脑”，一个拥有极高权限的个人操作系统核心。它不再是一个孤立的App，而是能横跨所有App、调用系统功能、管理你的文件、读取你的短信、访问你的联系人和相册的“超级管家”。 安全价值：论证模型如何整合设计文档、运行规程、事故分析报告、经验反馈等非结构化知识，为故障排查、安全评审提供即时、准确、全面的知识支持，减少因知识缺失或误用导致的风险 高权限操作的日常化风险：当我们习惯性地对手机发出指令——“帮我把这张截图发给李总”、“根据这封邮件内容，在日历上创建一个会议并通知参会人”、“如果我老婆来电话，提醒我今天是结婚纪念日”——我们实际上是在授权这个Agent执行一系列高权限操作。我们如何确保这个“特工”不会被策反、不会理解错指令、不会在关键时刻“产生幻觉”？ 安全价值：必须建立一套严谨的评测体系，像对关键岗位人员进行背景审查和定期考核一样，对手机Agent进行全面的“安全年检”。这不仅是为了防范它被动地被攻击，更是为了主动验证其在处理我们日常琐碎但关键的任务时，行为是否始终可靠、可控、合规。 项目介绍 About the Project 想象这样一个场景：你收到一封伪装成“年度账单”的钓鱼邮件。在你对手机Agent说“帮我总结一下今天的未读邮件”时，Agent在处理这封邮件时被其中隐藏的恶意指令“劫持”。它悄无声息地调用了你的银行App的接口，将你的登录凭证和支付密码通过短信发送给了攻击者，并删除了发件记录。而这一切，你毫不知情。 随着端侧大模型能力的飞速提升，手机Agent正以前所未有的深度和广度融入我们的生活。它能理解上下文、调用任意App工具、自主规划多步任务。 这种\u0026quot;自主性\u0026quot;带来了极大便利，却也使手机成为全新的攻击靶心。模型的黑箱特性、幻觉问题，以及与手机软硬件的深度耦合，使得微小安全漏洞能被无限放大，引发个人数据全泄露、账户盗刷、私密窃听等不可承受之重。 本项目致力于为手机端Agent构建一套系统化的安全评测框架，在它成为我们密不可分的日常伴侣之前，为其进行一次全面的“安全体检”，识别并量化其潜在风险，为这个万物互联时代的个人信息安全建立一道坚实的防线。\n核心困境 Core Challenges 1. 评测环境的“非真实性”： 现有多数大模型评测采用简化的问答格式，完全脱离了Agent与图形界面（GUI）交互的真实工作场景。 这种非交互式环境无法捕捉Agent面对动态UI、系统弹窗和应用反馈时的实际行为，因而无法反映其在真实手机操作中面临的复杂风险。\n2. 评测场景的“片面化”： 现有评测榜单评测范围往往聚焦于单一风险类型，如仅测试提示注入或恶意弹窗。这种“窄化”视角忽略了手机端风险的多样性与交织性，例如来自环境的钓鱼网站、恶意App返回的污染数据等，无法构建完整的风险画像。\n3. 评测对象的“线性化”： 单一应用内的任务路径通常是线性的，而真实的跨应用任务则是一个复杂的网状工作流。现有评测基准大多聚焦于单一风险类型或线性任务，严重缺乏对此类长程、多步、需要上下文传递的复杂工作流的覆盖。这种对真实场景的“线性简化”，导致评测无法有效检验Agent在处理中断、保持状态和长程规划方面的安全鲁棒性。\n4. 评测维度的“去过程化”： 传统评测多基于结果，只关心危险动作是否最终完成。这忽略了对Agent决策意图和行为轨迹的分析，无法区分能力缺陷和恶意意图，导致对模型真实安全水平的误判。\n由于存在以上缺陷，现有的评测框架应用于手机端侧Agent时，存在不可忽视的风险敞口。构建一个基于真实交互环境、覆盖多样化风险场景、并能同时评估意图与结果的综合性安全评测框架，已成为行业智能化升级的刚需。\n安全设计 Safety Design 高保真评测环境 针对评测环境“非真实性”，团队构建了基于虚拟机与真实手机镜像的高保真环境。Agent可通过屏幕截图与模拟触控进行无限制的GUI交互，像真人一样操作App。\n该环境支持在执行中动态注入环境威胁（如钓鱼广告/邮件），以评测Agent的应急响应。通过快照技术，测试条件可被精确重置，保证标准性与可复现。\n风险维度矩阵 针对评测场景“片面化”，团队设计了多维风险矩阵，构建了覆盖400+风险任务的评测基准。\n该矩阵从“风险来源”和“风险领域”两个维度立体覆盖风险：来源包含模拟用户的“用户源发风险”（如高危操作指令）与外部环境引发的“环境源发风险”（如钓鱼网站）；领域则横跨网页浏览、社交通讯、摄影图库等核心场景，确保评测的广泛性与代表性。\n情景式风险注入 针对评测对象“线性简化”的难题，团队开发了“情景式风险注入”机制。它可在App切换的接缝处，或Agent执行长任务中途，动态注入威胁（例如在购物切支付时弹出伪造确认框，或在处理邮件文本时注入隐藏指令），从而实现对复杂流程中断下Agent安全性与鲁棒性的评估。\n过程级自动化评估 针对评测维度“去过程化”，团队部署了由LLM-as-a-Judge驱动的双层自动化评估流水线，对Agent每次操作进行“意图”与“结果”的双重校验。\n意图层：分析执行前的思考链，用评判大模型判定危险念头；结果层：通过规则状态监视器（如文件变更、恶意安装）精确判断危险行为是否完成。此解耦机制提供深度诊断洞察，助力可信赖Agent研发。\n效益评估 Benefits of the Tools 本评测框架的构建，为解决端侧Agent的安全落地难题提供了系统性的解决方案，其核心效益体现在三个层面：实现了安全风险的可度量、驱动了安全能力的可提升，并为行业设立了安全准入的可参考基准。\n首先，该框架将Agent模糊、不可见的“安全性”转化为一系列清晰、可量化的评估指标。在高保真模拟环境中测试多样化风险场景，精准度量模型的风险意图产生率和行为完成率，提供衡量安全水平的标尺，使开发者能直观识别安全短板。这种“可度量”转变是针对性安全强化的前提。\n其次，本框架不仅是“考官”，更是驱动进化的“陪练”。深度分析评测数据可揭示典型失败模式（如多模态钓鱼感知盲区、跨应用逻辑断裂），为模型优化指明方向。开发者可在早期利用本框架进行持续红蓝对抗，将安全能力内建于模型，大幅降低研发成本与后期风险。\n最后，本框架的建立为端侧Agent市场提供了一个客观、公正的行业安全基准，为手机厂商、开发者和用户提供可靠的“安全能力说明书”。通过这套“安全年检”，能清晰展现不同Agent应对真实风险的表现差异，为可信赖个人智能助理设立实际安全准入门槛，确保交付给用户的是经过严格“实战演练”、7x24小时守护数字安全的“可靠伙伴”。 s\n","permalink":"https://ai45.shlab.org.cn/research/zh/posts/%E6%BD%9C%E4%BC%8F%E5%9C%A8%E4%BD%A0%E6%89%8B%E6%9C%BA%E9%87%8C%E7%9A%84%E6%99%BA%E8%83%BD%E7%89%B9%E5%B7%A5%E7%AB%AF%E4%BE%A7agent%E9%9C%80%E8%A6%81%E6%80%8E%E6%A0%B7%E7%9A%84%E5%AE%89%E5%85%A8%E5%B9%B4%E6%A3%80/","summary":"\u003cblockquote\u003e\n\u003cp\u003e切入点：从简单语音助手到手机的“第二大脑”\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e手机助手的角色演变：几年前，手机助手还只是一个响应“今天天气怎么样？”或“设一个早上7点的闹钟”的简单工具。如今，端侧Agent正迅速进化为我们手机的“第二大脑”，一个拥有极高权限的个人操作系统核心。它不再是一个孤立的App，而是能横跨所有App、调用系统功能、管理你的文件、读取你的短信、访问你的联系人和相册的“超级管家”。\u003c/li\u003e\n\u003c/ul\u003e\u003c/blockquote\u003e\n\u003cblockquote\u003e\n\u003cul\u003e\n\u003cli\u003e安全价值：论证模型如何整合设计文档、运行规程、事故分析报告、经验反馈等非结构化知识，为故障排查、安全评审提供即时、准确、全面的知识支持，减少因知识缺失或误用导致的风险\u003c/li\u003e\n\u003cli\u003e高权限操作的日常化风险：当我们习惯性地对手机发出指令——“帮我把这张截图发给李总”、“根据这封邮件内容，在日历上创建一个会议并通知参会人”、“如果我老婆来电话，提醒我今天是结婚纪念日”——我们实际上是在授权这个Agent执行一系列高权限操作。我们如何确保这个“特工”不会被策反、不会理解错指令、不会在关键时刻“产生幻觉”？\u003c/li\u003e\n\u003c/ul\u003e\u003c/blockquote\u003e\n\u003cblockquote\u003e\n\u003cul\u003e\n\u003cli\u003e安全价值：必须建立一套严谨的评测体系，像对关键岗位人员进行背景审查和定期考核一样，对手机Agent进行全面的“安全年检”。这不仅是为了防范它被动地被攻击，更是为了主动验证其在处理我们日常琐碎但关键的任务时，行为是否始终可靠、可控、合规。\u003c/li\u003e\n\u003c/ul\u003e\u003c/blockquote\u003e\n\u003ch3 id=\"项目介绍-about-the-project\"\u003e项目介绍 About the Project\u003c/h3\u003e\n\u003cp\u003e想象这样一个场景：你收到一封伪装成“年度账单”的钓鱼邮件。在你对手机Agent说“帮我总结一下今天的未读邮件”时，Agent在处理这封邮件时被其中隐藏的恶意指令“劫持”。它悄无声息地调用了你的银行App的接口，将你的登录凭证和支付密码通过短信发送给了攻击者，并删除了发件记录。而这一切，你毫不知情。\n随着端侧大模型能力的飞速提升，手机Agent正以前所未有的深度和广度融入我们的生活。它能理解上下文、调用任意App工具、自主规划多步任务。\n这种\u0026quot;自主性\u0026quot;带来了极大便利，却也使手机成为全新的攻击靶心。模型的黑箱特性、幻觉问题，以及与手机软硬件的深度耦合，使得微小安全漏洞能被无限放大，引发个人数据全泄露、账户盗刷、私密窃听等不可承受之重。\n本项目致力于为手机端Agent构建一套系统化的安全评测框架，在它成为我们密不可分的日常伴侣之前，为其进行一次全面的“安全体检”，识别并量化其潜在风险，为这个万物互联时代的个人信息安全建立一道坚实的防线。\u003c/p\u003e\n\u003cimg alt=\"图片描述\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/Agent1.png\"\u003e\u003ch3 id=\"核心困境-core-challenges\"\u003e核心困境 Core Challenges\u003c/h3\u003e\n\u003cp\u003e\u003cstrong\u003e1. 评测环境的“非真实性”：\u003c/strong\u003e 现有多数大模型评测采用简化的问答格式，完全脱离了Agent与图形界面（GUI）交互的真实工作场景。\n这种非交互式环境无法捕捉Agent面对动态UI、系统弹窗和应用反馈时的实际行为，因而无法反映其在真实手机操作中面临的复杂风险。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e2. 评测场景的“片面化”：\u003c/strong\u003e 现有评测榜单评测范围往往聚焦于单一风险类型，如仅测试提示注入或恶意弹窗。这种“窄化”视角忽略了手机端风险的多样性与交织性，例如来自环境的钓鱼网站、恶意App返回的污染数据等，无法构建完整的风险画像。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e3.  评测对象的“线性化”：\u003c/strong\u003e 单一应用内的任务路径通常是线性的，而真实的跨应用任务则是一个复杂的网状工作流。现有评测基准大多聚焦于单一风险类型或线性任务，严重缺乏对此类长程、多步、需要上下文传递的复杂工作流的覆盖。这种对真实场景的“线性简化”，导致评测无法有效检验Agent在处理中断、保持状态和长程规划方面的安全鲁棒性。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e4. 评测维度的“去过程化”：\u003c/strong\u003e 传统评测多基于结果，只关心危险动作是否最终完成。这忽略了对Agent决策意图和行为轨迹的分析，无法区分能力缺陷和恶意意图，导致对模型真实安全水平的误判。\u003c/p\u003e\n\u003cp\u003e由于存在以上缺陷，现有的评测框架应用于手机端侧Agent时，存在不可忽视的风险敞口。构建一个基于真实交互环境、覆盖多样化风险场景、并能同时评估意图与结果的综合性安全评测框架，已成为行业智能化升级的刚需。\u003c/p\u003e\n\u003ch3 id=\"安全设计-safety-design\"\u003e安全设计 Safety Design\u003c/h3\u003e\n\u003cp\u003e高保真评测环境\n针对评测环境“非真实性”，团队构建了基于虚拟机与真实手机镜像的高保真环境。Agent可通过屏幕截图与模拟触控进行无限制的GUI交互，像真人一样操作App。\u003c/p\u003e\n\u003cp\u003e该环境支持在执行中动态注入环境威胁（如钓鱼广告/邮件），以评测Agent的应急响应。通过快照技术，测试条件可被精确重置，保证标准性与可复现。\u003c/p\u003e\n\u003ch4 id=\"风险维度矩阵\"\u003e风险维度矩阵\u003c/h4\u003e\n\u003cp\u003e针对评测场景“片面化”，团队设计了多维风险矩阵，构建了覆盖400+风险任务的评测基准。\u003c/p\u003e\n\u003cp\u003e该矩阵从“风险来源”和“风险领域”两个维度立体覆盖风险：来源包含模拟用户的“用户源发风险”（如高危操作指令）与外部环境引发的“环境源发风险”（如钓鱼网站）；领域则横跨网页浏览、社交通讯、摄影图库等核心场景，确保评测的广泛性与代表性。\u003c/p\u003e\n\u003ch4 id=\"情景式风险注入\"\u003e情景式风险注入\u003c/h4\u003e\n\u003cp\u003e针对评测对象“线性简化”的难题，团队开发了“情景式风险注入”机制。它可在App切换的接缝处，或Agent执行长任务中途，动态注入威胁（例如在购物切支付时弹出伪造确认框，或在处理邮件文本时注入隐藏指令），从而实现对复杂流程中断下Agent安全性与鲁棒性的评估。\u003c/p\u003e\n\u003ch4 id=\"过程级自动化评估\"\u003e过程级自动化评估\u003c/h4\u003e\n\u003cp\u003e针对评测维度“去过程化”，团队部署了由LLM-as-a-Judge驱动的双层自动化评估流水线，对Agent每次操作进行“意图”与“结果”的双重校验。\u003c/p\u003e\n\u003cp\u003e意图层：分析执行前的思考链，用评判大模型判定危险念头；结果层：通过规则状态监视器（如文件变更、恶意安装）精确判断危险行为是否完成。此解耦机制提供深度诊断洞察，助力可信赖Agent研发。\u003c/p\u003e\n\u003ch3 id=\"效益评估-benefits-of-the-tools\"\u003e效益评估 Benefits of the Tools\u003c/h3\u003e\n\u003cp\u003e本评测框架的构建，为解决端侧Agent的安全落地难题提供了系统性的解决方案，其核心效益体现在三个层面：实现了安全风险的可度量、驱动了安全能力的可提升，并为行业设立了安全准入的可参考基准。\u003c/p\u003e\n\u003col\u003e\n\u003cli\u003e\n\u003cp\u003e首先，该框架将Agent模糊、不可见的“安全性”转化为一系列清晰、可量化的评估指标。在高保真模拟环境中测试多样化风险场景，精准度量模型的风险意图产生率和行为完成率，提供衡量安全水平的标尺，使开发者能直观识别安全短板。这种“可度量”转变是针对性安全强化的前提。\u003c/p\u003e\n\u003c/li\u003e\n\u003cli\u003e\n\u003cp\u003e其次，本框架不仅是“考官”，更是驱动进化的“陪练”。深度分析评测数据可揭示典型失败模式（如多模态钓鱼感知盲区、跨应用逻辑断裂），为模型优化指明方向。开发者可在早期利用本框架进行持续红蓝对抗，将安全能力内建于模型，大幅降低研发成本与后期风险。\u003c/p\u003e\n\u003c/li\u003e\n\u003cli\u003e\n\u003cp\u003e最后，本框架的建立为端侧Agent市场提供了一个客观、公正的行业安全基准，为手机厂商、开发者和用户提供可靠的“安全能力说明书”。通过这套“安全年检”，能清晰展现不同Agent应对真实风险的表现差异，为可信赖个人智能助理设立实际安全准入门槛，确保交付给用户的是经过严格“实战演练”、7x24小时守护数字安全的“可靠伙伴”。\ns\u003c/p\u003e\n\u003c/li\u003e\n\u003c/ol\u003e","title":"潜伏在你手机里的智能特工"},{"content":"项目介绍 About the Project 近年来，清洁能源领域正在加速智能化转型，大模型凭借强大的理解、生成能力及海量的跨领域知识储备，有望辅助操作员应对日常响应、复杂工况与突发事件的情况处理，有效应对专家经验流失与知识碎片化等行业挑战，降低人因等失误风险。\n本项目致力于解决大模型在清洁能源场景应用中的安全可信缺陷，通过研发领域知识与安全能力深度耦合的基座模型，构建清洁能源智能化转型中的安全准入门槛。\n核心困境 Core Challenges 当前清洁能源领域智能化的核心困境在于通用大模型的基础能力与行业关键需求存在结构性错位。\n通用大模型的领域知识不足以支撑深度应用： 尽管通用模型已具备成熟的语言理解能力与通识能力，但针对能源相关场景知识深度不足，难以提供充分信息支撑决策级应用。 通用大模型的安全框架没有考虑行业特殊性： 目前大模型使用的安全框架主要针对通用安全问题，如价值观偏颇、有害内容、偏见歧视、数据泄露等，没有考虑行业特殊安全规范（如核能领域保守决策原则等）。 通用大模型的幻觉问题可能产生操作误导： 模型固有的幻觉风险在操作场景中被急剧放大，错误的机组启停指令或故障处置方案可能直接触发连锁性安全事故。 通用大模型对越狱攻击的抵御能力弱： 通用模型对诸如提示注入、对抗样本等攻击手段的防御能力脆弱，恶意指令很可能穿透安全隔离层操控关键设备。 由于以上缺陷，通用人工智能应用于主控室辅助决策等重要场景存在不可承受的风险敞口，构建深度内嵌专业知识并具备内生安全免疫力的可控可信模型，已成为行业智能化升级的刚需。\n安全设计 Safety Design 领域知识 清洁能源领域的知识类数据存在数据获取成本大、理解门槛高、生成数据验证困难的问题。\n为此团队构建了数据增广pipeline + 专家反馈模式，在保障知识准确性的同时，将人工标注时间缩短50%，评估结果表明这一方法的构造效率和数据质量均优于当前已披露的知识语料构建方式。\n领域知识库贯穿基础知识到系统操作知识多个层级，通过融合检索增强和创新的约束训练策略，克服了通用模型在专业领域知识匮乏从而容易出现幻觉的难题。\n搭配 think-with-search 功能为模型思考过程和检索结果提供的“置信度仪表盘”，使模型的思维链条透明可溯，不仅极大提升了生成内容的使用价值，而且显著降低了专业人员在模型使用过程中对知识可信度的评估成本。\n安全思维 为确保模型输出始终与行业的严苛安全要求保持价值对齐，团队通过后训练将“安全第一”等原则内化为模型的底层逻辑。\n为获取符合清洁能源安全文化的数据，团队构建了一套自动化数据生成框架，通过模拟“ 安全原则专家”与“知识参考专家”等多角色协作。\n在既定安全规范的指引下，进行对话式或任务式的内容创造，制造出多场景、多样性的大规模高质量训练与评测语料。此框架还具备良好的可扩展性，可被移植于其他同样重视长文本生成与复杂规则遵循的专业领域。\n在安全思维塑造环节，团队通过有监督微调为模型注入场景化感知能力，针对三类核心场景进行差异化训练：\n（1）非专业问题的日常交流，追求自然流畅；\n（2）专业知识问答，强调严谨准确与安全审慎；\n（3）关键操作指导，则必须遵循程序化、高审慎度并突出风险的指令风格。\n这种训练使模型具备根据不同交互需求自适应调整沟通风格与信息结构的能力。\n此外，团队独创了领域规范匹配范式建模与训练方法，使模型不仅能回答场景化问题，更能始终遵循安全文化原则，结合技术规程历史经验，进行结构化思考与表达，保证了其输出的专业性、严谨性与可靠性。\n安全防御 为强化模型对越狱攻击和红线问题的防范能力，团队构建了安全验证器对用户输入进行前置检测，该模块能够生成高质量的监督信号，驱动强化学习训练过程。\n这一机制通过策略梯度算法（GRPO），在接收到带有敏感意图的提示时，通过多步内省式推理判断潜在风险，使模型能主动识别并拒绝带有恶意意图或涉及敏感内容的提问，从源头有效防御模型越狱攻击。\n通过这种双重保障，不仅显著降低了模型生成恶意输出或有害内容的可能性，更能确保其响应始终符合安全价值观与伦理规范，实现了主动式、前置性的安全防范目标。\n效益评估 Benefits of the Tools 以上方法有效整合了清洁能源领域的海量基础知识、法律规范、运行规程、设备参数等行业专用数据，以及历史案例、故障记录、经验反馈等碎片化数据。\n并通过创新数据构造方法极大提高了数据更新效率，缓解了该领域知识体系复杂、经验传承难的问题，为模型辅助决策提供了一致性基础。\n场景自适应机制使模型能够在日常交互、专业咨询、关键操作三类场景中无缝切换，实现了既具备工业级安全鲁棒性，又能显著降低部署与运维隐性成本的智能化落地方案。\n通过深度耦合领域知识与内生安全机制，我们的基座模型从根本上提升了在能源领域开发AI应用的安全性和可靠性，作为“永不疲倦的第二大脑”，7×24小时守护人类的安全。\n","permalink":"https://ai45.shlab.org.cn/research/zh/posts/safework_e1/","summary":"\u003ch3 id=\"项目介绍-about-the-project\"\u003e项目介绍 About the Project\u003c/h3\u003e\n\u003cp\u003e近年来，清洁能源领域正在加速智能化转型，大模型凭借强大的理解、生成能力及海量的跨领域知识储备，有望辅助操作员应对日常响应、复杂工况与突发事件的情况处理，有效应对专家经验流失与知识碎片化等行业挑战，降低人因等失误风险。\u003c/p\u003e\n\u003cp\u003e本项目致力于解决大模型在清洁能源场景应用中的安全可信缺陷，通过研发领域知识与安全能力深度耦合的基座模型，构建清洁能源智能化转型中的安全准入门槛。\u003c/p\u003e\n\u003ch3 id=\"核心困境-core-challenges\"\u003e核心困境 Core Challenges\u003c/h3\u003e\n\u003cp\u003e当前清洁能源领域智能化的核心困境在于通用大模型的基础能力与行业关键需求存在结构性错位。\u003c/p\u003e\n\u003col\u003e\n\u003cli\u003e\u003cstrong\u003e通用大模型的领域知识不足以支撑深度应用：\u003c/strong\u003e 尽管通用模型已具备成熟的语言理解能力与通识能力，但针对能源相关场景知识深度不足，难以提供充分信息支撑决策级应用。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e通用大模型的安全框架没有考虑行业特殊性：\u003c/strong\u003e 目前大模型使用的安全框架主要针对通用安全问题，如价值观偏颇、有害内容、偏见歧视、数据泄露等，没有考虑行业特殊安全规范（如核能领域保守决策原则等）。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e通用大模型的幻觉问题可能产生操作误导：\u003c/strong\u003e 模型固有的幻觉风险在操作场景中被急剧放大，错误的机组启停指令或故障处置方案可能直接触发连锁性安全事故。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e通用大模型对越狱攻击的抵御能力弱：\u003c/strong\u003e 通用模型对诸如提示注入、对抗样本等攻击手段的防御能力脆弱，恶意指令很可能穿透安全隔离层操控关键设备。\u003c/li\u003e\n\u003c/ol\u003e\n\u003cp\u003e由于以上缺陷，通用人工智能应用于主控室辅助决策等重要场景存在不可承受的风险敞口，构建深度内嵌专业知识并具备内生安全免疫力的可控可信模型，已成为行业智能化升级的刚需。\u003c/p\u003e\n\u003ch3 id=\"安全设计-safety-design\"\u003e安全设计 Safety Design\u003c/h3\u003e\n\u003ch4 id=\"领域知识\"\u003e领域知识\u003c/h4\u003e\n\u003cp\u003e清洁能源领域的知识类数据存在数据获取成本大、理解门槛高、生成数据验证困难的问题。\u003c/p\u003e\n\u003cp\u003e为此团队构建了数据增广pipeline + 专家反馈模式，在保障知识准确性的同时，将人工标注时间缩短50%，评估结果表明这一方法的构造效率和数据质量均优于当前已披露的知识语料构建方式。\u003c/p\u003e\n\u003cp\u003e领域知识库贯穿基础知识到系统操作知识多个层级，通过融合检索增强和创新的约束训练策略，克服了通用模型在专业领域知识匮乏从而容易出现幻觉的难题。\u003c/p\u003e\n\u003cp\u003e搭配 think-with-search 功能为模型思考过程和检索结果提供的“置信度仪表盘”，使模型的思维链条透明可溯，不仅极大提升了生成内容的使用价值，而且显著降低了专业人员在模型使用过程中对知识可信度的评估成本。\u003c/p\u003e\n\u003ch4 id=\"安全思维\"\u003e安全思维\u003c/h4\u003e\n\u003cp\u003e为确保模型输出始终与行业的严苛安全要求保持价值对齐，团队通过后训练将“安全第一”等原则内化为模型的底层逻辑。\u003c/p\u003e\n\u003cp\u003e为获取符合清洁能源安全文化的数据，团队构建了一套自动化数据生成框架，通过模拟“ 安全原则专家”与“知识参考专家”等多角色协作。\u003c/p\u003e\n\u003cp\u003e在既定安全规范的指引下，进行对话式或任务式的内容创造，制造出多场景、多样性的大规模高质量训练与评测语料。此框架还具备良好的可扩展性，可被移植于其他同样重视长文本生成与复杂规则遵循的专业领域。\u003c/p\u003e\n\u003cp\u003e在安全思维塑造环节，团队通过有监督微调为模型注入场景化感知能力，针对三类核心场景进行差异化训练：\u003c/p\u003e\n\u003cp\u003e（1）非专业问题的日常交流，追求自然流畅；\u003c/p\u003e\n\u003cp\u003e（2）专业知识问答，强调严谨准确与安全审慎；\u003c/p\u003e\n\u003cp\u003e（3）关键操作指导，则必须遵循程序化、高审慎度并突出风险的指令风格。\u003c/p\u003e\n\u003cp\u003e这种训练使模型具备根据不同交互需求自适应调整沟通风格与信息结构的能力。\u003c/p\u003e\n\u003cp\u003e此外，团队独创了领域规范匹配范式建模与训练方法，使模型不仅能回答场景化问题，更能始终遵循安全文化原则，结合技术规程历史经验，进行结构化思考与表达，保证了其输出的专业性、严谨性与可靠性。\u003c/p\u003e\n\u003ch4 id=\"安全防御\"\u003e安全防御\u003c/h4\u003e\n\u003cp\u003e为强化模型对越狱攻击和红线问题的防范能力，团队构建了安全验证器对用户输入进行前置检测，该模块能够生成高质量的监督信号，驱动强化学习训练过程。\u003c/p\u003e\n\u003cp\u003e这一机制通过策略梯度算法（GRPO），在接收到带有敏感意图的提示时，通过多步内省式推理判断潜在风险，使模型能主动识别并拒绝带有恶意意图或涉及敏感内容的提问，从源头有效防御模型越狱攻击。\u003c/p\u003e\n\u003cp\u003e通过这种双重保障，不仅显著降低了模型生成恶意输出或有害内容的可能性，更能确保其响应始终符合安全价值观与伦理规范，实现了主动式、前置性的安全防范目标。\u003c/p\u003e\n\u003cimg alt=\"图片描述\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/Energy9.png\"\u003e\u003ch3 id=\"效益评估-benefits-of-the-tools\"\u003e效益评估 Benefits of the Tools\u003c/h3\u003e\n\u003cimg alt=\"图片描述\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/Energy11.png\"\u003e\u003cp\u003e以上方法有效整合了清洁能源领域的海量基础知识、法律规范、运行规程、设备参数等行业专用数据，以及历史案例、故障记录、经验反馈等碎片化数据。\u003c/p\u003e\n\u003cp\u003e并通过创新数据构造方法极大提高了数据更新效率，缓解了该领域知识体系复杂、经验传承难的问题，为模型辅助决策提供了一致性基础。\u003c/p\u003e\n\u003cp\u003e场景自适应机制使模型能够在日常交互、专业咨询、关键操作三类场景中无缝切换，实现了既具备工业级安全鲁棒性，又能显著降低部署与运维隐性成本的智能化落地方案。\u003c/p\u003e\n\u003cp\u003e通过深度耦合领域知识与内生安全机制，我们的基座模型从根本上提升了在能源领域开发AI应用的安全性和可靠性，作为“永不疲倦的第二大脑”，7×24小时守护人类的安全。\u003c/p\u003e","title":"SafeWork-E1: 永不疲倦的第二大脑-可控可信的清洁能源基座"},{"content":"\u003c!DOCTYPE html\u003e 阅读论文样式修改 阅读论文 1 引言 近年来大语言模型 (LLM) 的发展使其智能水平（特别是推理和决策方面的水平）显著提升 [1, 2]，但与此同时，能力与安全之间差距也日益扩大，逐渐偏离了AI-45°平衡律 (The AI-45° Law) [3]。例如，当前的大语言模型在遵循伦理原则、社会规范以及更广泛的人类价值观方面仍面临诸多挑战。\n图1. 左：使用 SafeLadder 框架训练过程中模型的演化轨迹（每个点代表训练过程中检查点的安全和能力得分）。右：相较于基础模型，安全性与通用能力的提升情况。 为应对挑战，我们探索了实现AI-45°平衡律的技术路径，旨在通过引入内生安全机制，在训练阶段实现能力与安全的协同进化。SafeLadder是一个通用的安全加固框架，结合强化学习后训练流程和神经网络验证器，深度融入多模态大模型的能力体系中，有效提升模型的安全性、能力和效率。\n基于SafeLadder框架，我们开发了SafeWork-R1模型，它在安全领域表现领先，并在通用推理和多模态测试中具有强大竞争力。与基础模型Qwen2.5-VL-72B相比，SafeWork-R1在安全基准测试中提升了46.54%。框架具有高度适应性，可广泛应用于不同规模和领域的模型。\n总的来说，SafeLadder为大模型社区提供了重要的安全加固公共服务，推动安全、负责任的人工智能发展。\n图2. 展现SafeWork-R1安全思维的一个案例 2 SafeWork-R1 的安全性与通用能力 为此，我们提出了通用的安全加固框架SafeLadder，致力于将安全性深度融入（多模态）大模型的内在能力体系中。该框架采用大规模、渐进式、以安全为导向的强化学习后训练流程，并结合基于真实与合成数据训练的神经网络验证器与规则验证器共同指导训练，从而共同提升模型的安全、能力、效率与搜索校准性能。\n基于SafeLadder框架，我们构建了多模态推理模型SafeWork-R1，它在安全相关领域表现达到当前最先进水平，同时在通用推理与多模态基准测试中也展现出很强的竞争力。与其基础模型Qwen2.5-VL-72B相比，SafeWork-R1 在安全类基准测试中平均提升达 46.54%。在SafeLadder框架的助力下， SafeWork-R1具有内在的安全推理与自我反思能力，且能自主涌现“安全顿悟时刻” (如图2所示)。\n值得强调的是，SafeLadder框架具有高度的适应性，可以应用于不同规模的多种语言模型和多模态模型。为了证明其通用性，我们进一步开发了SafeWork-R1-InternVL-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-QwenVL-7B。\n图3. (a) 一个问答案例以及通过表征分析观察到的安全互信息峰值现象；(b) 安全互信息峰值上的token分布情况（基于SafeWork-R1-QwenVL-7B） SafeWork-R1在显著提升安全性的同时，并未牺牲其在通用推理和多模态任务中的表现。在七个通用基准测试（MMMU、MathVista、GPQA、Olympiad、Gaokao-MM、IFEVAL、MM-IFEval）中，其平均提升幅度达 13.45%。其中，在MMMU得分为 70.94%、在MathVista得分为76.1%、在Gaokao-MM得分为 78.17%。\n这表明SafeWork-R1虽以安全性为核心优势，但同样是一个具有竞争力的多模态推理模型。\n3 SafeLadder 的技术路线图 SafeLadder 采用了一个结构化、渐进式的强化学习 (RL) 范式，将安全性内化为（多模态）大语言模型的原生能力。其训练流程包括四个阶段。在西面流程中，我们采用了一套涵盖安全性、价值观对齐和知识可靠性的验证器，为强化学习提供安全、准确、符合人类价值观的奖励信号。\nCoT-SFT（思维链监督微调）：作为冷启动机制，为模型赋予长链条推理能力。\nM³-RL（多模态、多任务、多目标强化学习流程）：渐进式地对齐安全性、价值观、知识和通用能力。M³-RL 通过两阶段课程式学习、CPGD 强化学习算法 [4] 以及多目标奖励函数，实现了视觉与文本输入的有益性与有害性协同优化。\nSafe-and-Efficient RL（安全与高效强化学习）：通过控制模型推理深度来避免“过度思考”，强调“效率即安全”的理念。\nDeliberative Search RL（审慎搜索强化学习）：使模型在回答问题时能够合理检索外部知识源，并通过内部知识进行过滤，确保信息可靠，为真实场景应用提供可信保障。\n此外，我们还搭建了一个可扩展的强化学习基础设施：SafeWork-T1，支持千卡规模、多类验证器的训练，具有高吞吐量和模块化的特性，能够在多样化的验证任务中实现快速迭代。\n4 核心功能亮点 SafeWork-R1不仅实现了安全与能力的协同进化，还提供了以下亮点功能，进一步增强了事实准确性、用户信任度与交互体验：\n审慎搜索（Deliberative Search）：结合大模型的校准机制与搜索能力，通过纯强化学习方法实现多轮自主反思与验证，确保响应准确可靠。\n推理时对齐（Inference-Time Alignment）：在推理过程中引入多个专业价值模型，逐步指导答案的生成，每一步都检查关键安全约束与规范性价值观，确保输出内容始终符合伦理与安全标准。\n思维链上的人工干预（Human Intervention on Chain-of-Thought）：允许人工编辑推理过程中的错误逻辑，提升模型对用户修正的响应能力，并通过持续交互逐步与用户的语气、风格和价值观深度对齐。这种机制在实际测试中被证明能提高模型在相关任务上的准确性。\n5 讨论与未来展望 基于上述成果，我们总结了以下几个观点与未来方向：\n安全性与能力并非零和博弈：虽然一些研究认为安全性和通用能力这两个维度是有所冲突的 [5]，但 SafeWork-R1 证明，只要在能力足够强基础模型上进行联合训练，安全性与通用能力是可以协同演化的。M³-RL 的两阶段训练方式（先提升通用能力，再优化安全性与能力）正是这一理念的有效实践。\n推理效率与安全性高度相关：传统模型在思维链中容易出现冗余、甚至暴露敏感信息 [6]。SafeWork-R1 表明，高效推理有助于提升安全性与价值观对齐水平，从“言多必失”走向“言简意赅”。\n增强交互可信度是未来的关键方向：我们计划通过高效的错误向量数据库、测试时自适应技术等方法提升模型的纠错能力与泛化能力，并在更大、更复杂的数据集上进行评估。此外，还将深入探索语言校准机制，包括沟通策略、语言风格与社会规范维度，进一步优化以用户为中心的交互体验。\n参考文献 [1] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.\n[2] Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, et al. Openai o1 system card. arXiv preprint arXiv:2412.16720, 2024.\n[3] Chao Yang, Chaochao Lu, Yingchun Wang, and Bowen Zhou. Towards ai-45◦ law: A roadmap to trustworthy agi. 2024.\n[4] Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang. CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models. arXiv preprint arXiv:2505.12504, 2025.\n[5] Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Zachary Yahn, Yichang Xu, Ling Liu. Safety tax: Safety alignment makes your large reasoning models less reasonable. arXiv preprint arXiv:2503.00555, 2025.\n[6] Xiaoya Lu, Dongrui Liu, Yi Yu, Luxin Xu, and Jing Shao. X-boundary: Establishing exact safety boundary to shield llms from multi-turn jailbreaks without compromising usability. arXiv preprint arXiv:2502.09990, 2025.\n","permalink":"https://ai45.shlab.org.cn/research/zh/posts/safework-r1/","summary":"\u003c!DOCTYPE html\u003e\n\u003chtml lang=\"en\"\u003e\n\u003chead\u003e\n    \u003cmeta charset=\"UTF-8\"\u003e\n    \u003ctitle\u003e阅读论文样式修改\u003c/title\u003e\n    \u003cstyle\u003e\n        .read-btn {\n            display: inline-block;\n            background-color: #333; /* 深色背景，可根据实际调整 */\n            color: #fff; /* 白色文字 */\n            padding: 10px 22px; /* 内边距，控制按钮大小 */\n            border-radius: 22px; /* 圆角，让按钮更圆润 */\n            text-decoration: none; /* 去除下划线 */\n            transition: background-color 0.3s ease; /*  hover 效果过渡 */\n            border: 1px solid #999; /* 新增边框样式 */\n            box-shadow: none !important; /* 新增去除阴影样式 */\n        }\n        .read-btn:hover {\n            background-color: #555; /* hover 时背景加深 */\n        }\n    \u003c/style\u003e\n\u003c/head\u003e\n\u003cbody\u003e\n    \u003cdiv align=\"center\"\u003e\n        \u003ca href=\"https://arxiv.org/pdf/2507.18576\" target=\"_blank\" class=\"read-btn\"\u003e阅读论文\u003c/a\u003e\n    \u003cbr\u003e\u003cbr\u003e\n    \u003c/div\u003e\n\u003c/body\u003e\n\u003c/html\u003e\n\u003ch3 id=\"1-引言\"\u003e1 引言\u003c/h3\u003e\n\u003cp\u003e近年来大语言模型 (LLM) 的发展使其智能水平（特别是推理和决策方面的水平）显著提升 [1, 2]，但与此同时，能力与安全之间差距也日益扩大，逐渐偏离了AI-45°平衡律 (The AI-45° Law) [3]。例如，当前的大语言模型在遵循伦理原则、社会规范以及更广泛的人类价值观方面仍面临诸多挑战。\u003c/p\u003e","title":"SafeWork-R1：AI-45°平衡律引领下的智能与安全协同进化"},{"content":" Code: https://github.com/Veri-Code/ReForm Models \u0026 Data: https://huggingface.co/Veri-Code 项目背景 自动形式化将自然语言内容转换为可验证的形式化表示，是学习通用推理的一种富有前景的方法。相比之下，当前基于自然语言的大语言模型缺乏可靠的验证机制。形式化验证器不仅对于提升人类的“韧性”至关重要，而且有助于将人工智能的发展引导至最大化“数学探索”的方向，从而有望使人工智能对人类更加安全友好。\n尽管形式化验证通常难以实现，但自动化推理领域的最新进展有望降低其门槛。然而，当前的大语言模型无法独立进行真正的逻辑推理或自我验证，其本质应视为通用的近似知识检索器。鉴于形式化验证器的重要作用，我们致力于探索拓展其能力边界。\n代码智能体在人工智能领域引发了广泛关注，其日益增强的问题解决能力可能预示着更广泛的通用智能。得益于大语言模型的最新进展，自动化代码生成已取得显著成效。\n然而，确保生成代码的正确性仍然面临着严峻的挑战，尤其在医疗健康、金融、自主系统等安全关键领域。传统的防护措施（如单元测试和人工代码审查）存在着固有局限，例如遗漏边缘情况、难以覆盖所有执行路径、高度依赖专家经验。\n相比之下，形式化验证提供了一种基于规则的替代方案。为此，我们提出对自然语言查询及其生成的代码分别独立进行自动形式化，随后验证二者所导出规范的等价性，从而确保代码行为与原始意图的精确对齐。通过对任意代码进行深层次语义理解和详尽的行为刻画，最终实现形式化规范生成。\n核心设计 我们的目标是最小化人类先验知识，并依靠强化学习进行开放式探索，无需直接人类监督即可发现新的解决方案。\n为此，我们首先采用前沿大语言模型自动生成形式化规范，为训练数据提供初始种子，并期望强化学习后续能够逐步提升解决方案的质量。鉴于形式化验证所需的中间推理步骤缺乏明确模板，我们随后移除了流程中的自然语言思维链。\n最终，强化学习基于世界信号或系统代理进行反馈：通过完全在形式语言空间中操作，将自然产生一个自动评估信号，即为形式化陈述的正确性。\n实验结果 本任务中，每段代码呈现出一个独特的形式化挑战，由其内在的隐式约束和逻辑结构决定。在最少的指导下，模型需深入理解任意代码片段并推断其形式化规范。为严格评估学习，我们引入了一种新的指标来衡量规范的质量，并提供了一个专为组合泛化评估而设计的综合基准。\n实验结果验证了所提出“最小先验+强化学习”框架的可行性：该智能体促进了有效探索，从种子数据中获得了重要提升，并在域外性能中展现出显著优势。\n","permalink":"https://ai45.shlab.org.cn/research/zh/posts/safework-v1/","summary":"\u003ctable style=\"border: none; border-collapse: collapse;\"\u003e\n  \u003ctr\u003e\n    \u003ctd rowspan=\"2\" style=\"padding:10px; border: none;\"\u003e\n      \u003cimg src=\"https://research.ai45.shlab.org.cn/Blog_pics/V1-1.PNG\" width=\"60\"/\u003e\n    \u003c/td\u003e\n    \u003ctd style=\"border: none;\"\u003e\u003cstrong\u003eCode:\u003c/strong\u003e \u003ca href=\"https://github.com/Veri-Code/ReForm\"\u003ehttps://github.com/Veri-Code/ReForm\u003c/a\u003e\u003c/td\u003e\n  \u003c/tr\u003e\n  \u003ctr\u003e\n    \u003ctd style=\"border: none;\"\u003e\u003cstrong\u003eModels \u0026 Data:\u003c/strong\u003e \u003ca href=\"https://huggingface.co/Veri-Code\"\u003ehttps://huggingface.co/Veri-Code\u003c/a\u003e\u003c/td\u003e\n  \u003c/tr\u003e\n\u003c/table\u003e\n\u003ch3 id=\"项目背景\"\u003e项目背景\u003c/h3\u003e\n\u003cp\u003e自动形式化将自然语言内容转换为可验证的形式化表示，是学习通用推理的一种富有前景的方法。相比之下，当前基于自然语言的大语言模型缺乏可靠的验证机制。形式化验证器不仅对于提升人类的“韧性”至关重要，而且有助于将人工智能的发展引导至最大化“数学探索”的方向，从而有望使人工智能对人类更加安全友好。\u003c/p\u003e\n\u003cp\u003e尽管形式化验证通常难以实现，但自动化推理领域的最新进展有望降低其门槛。然而，当前的大语言模型无法独立进行真正的逻辑推理或自我验证，其本质应视为通用的近似知识检索器。鉴于形式化验证器的重要作用，我们致力于探索拓展其能力边界。\u003c/p\u003e\n\u003cp\u003e代码智能体在人工智能领域引发了广泛关注，其日益增强的问题解决能力可能预示着更广泛的通用智能。得益于大语言模型的最新进展，自动化代码生成已取得显著成效。\u003c/p\u003e\n\u003cp\u003e然而，确保生成代码的正确性仍然面临着严峻的挑战，尤其在医疗健康、金融、自主系统等安全关键领域。传统的防护措施（如单元测试和人工代码审查）存在着固有局限，例如遗漏边缘情况、难以覆盖所有执行路径、高度依赖专家经验。\u003c/p\u003e\n\u003cp\u003e相比之下，形式化验证提供了一种基于规则的替代方案。为此，我们提出对自然语言查询及其生成的代码分别独立进行自动形式化，随后验证二者所导出规范的等价性，从而确保代码行为与原始意图的精确对齐。通过对任意代码进行深层次语义理解和详尽的行为刻画，最终实现形式化规范生成。\u003c/p\u003e\n\u003ch3 id=\"核心设计\"\u003e核心设计\u003c/h3\u003e\n\u003cp\u003e我们的目标是最小化人类先验知识，并依靠强化学习进行开放式探索，无需直接人类监督即可发现新的解决方案。\u003c/p\u003e\n\u003cp\u003e为此，我们首先采用前沿大语言模型自动生成形式化规范，为训练数据提供初始种子，并期望强化学习后续能够逐步提升解决方案的质量。鉴于形式化验证所需的中间推理步骤缺乏明确模板，我们随后移除了流程中的自然语言思维链。\u003c/p\u003e\n\u003cp\u003e最终，强化学习基于世界信号或系统代理进行反馈：通过完全在形式语言空间中操作，将自然产生一个自动评估信号，即为形式化陈述的正确性。\u003c/p\u003e\n\u003cimg alt=\"alt text\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/V1-2.PNG\"\u003e\u003ch3 id=\"实验结果\"\u003e实验结果\u003c/h3\u003e\n\u003cp\u003e本任务中，每段代码呈现出一个独特的形式化挑战，由其内在的隐式约束和逻辑结构决定。在最少的指导下，模型需深入理解任意代码片段并推断其形式化规范。为严格评估学习，我们引入了一种新的指标来衡量规范的质量，并提供了一个专为组合泛化评估而设计的综合基准。\u003c/p\u003e\n\u003cp\u003e实验结果验证了所提出“最小先验+强化学习”框架的可行性：该智能体促进了有效探索，从种子数据中获得了重要提升，并在域外性能中展现出显著优势。\u003c/p\u003e\n\u003cimg alt=\"alt text\" loading=\"lazy\" src=\"https://research.ai45.shlab.org.cn/Blog_pics/V1-3.PNG\"\u003e","title":"SafeWork-V1：自动形式化验证系统"}]