Posts

SafeVerse开源：构建安全可信的具身智能“孪生演练场”

<!DOCTYPE html> 阅读论文样式修改访问 Github 仓库 1 背景与动机安全可信是具身智能落地的生命线。然而，在真实物理世界中开展攻防演练，往往面临成本高昂与风险不可控的双重挑战，构建高效、可靠的虚拟演练场因此成为行业发展的必经之路。 ...

以循环为桥：循环 Transformers 能否弥合输出与表征的差距?

<!DOCTYPE html> 阅读完整报告 1. 引言：表达滞后于思维，认知滞后于感知在大语言模型的研究中，我们常观察到一种“表达滞后”的悖论。当我们拆解模型能力时，通常会发现三个层级之间存在显著的性能鸿沟：任务执行 (Task Performance, $P_{TP}$)：模型在实际回答问题时的表现（“手"的能力）。自我验证 (Self-Verification, $P_{SV}$)：模型检查自身答案对错的能力（“嘴"的能力）。内部表征 (Representation Readout, $P_{RR}$)：直接通过线性探针（Probe）读取模型神经元激活状态所获得的信息现有研究普遍印证了以下不等式： $$ \sup_{\pi} P_{TP}(\pi) \le \sup_{\pi,A,s} P_{SV}(\pi,A,s) \le \sup_{\pi,A,l,g} P_{RR}(\pi,A,l,g) $$ ...

SafeWork-F1：前沿 AI 风险管理框架

框架实践报告如今，人工智能技术正以前所未有的速度蓬勃发展，尤其是前沿模型在通往通用人工智能（AGI）道路上的突破性进展，既承载着塑造美好未来的巨大潜力，也引发了对其潜在风险的深刻隐忧。这种隐忧的核心聚焦于灾难性风险（Catastrophic Risk），即担心强大且自主的 AI 系统可能被恶意滥用、意外失控，甚至威胁到人类的生存或根本福祉。全球顶尖研究机构如 OpenAI、Google DeepMind、Anthropic等，以及国际社会，都在积极探讨前沿风险范围，结成共识性团体试图划定风险“红线”。目前，各参与方已在前沿风险的大方向和主要关键维度上形成了初步共识，但共识之下，对前沿 AI 风险的理解与管理仍面临诸多深刻且亟待解决的核心问题，凸显了当前领域在学理构建和可操作实践上的显著不足，我们抽象出5个高层核心挑战：风险本质的模糊性与能力悖论：关于风险根源的表述常显矛盾。一种观点认为“能力越强，风险越大”；另一种观点认为“能力不足（如无法可靠对齐、理解和依从复杂指令）同样导致高风险”的论断亦有其理据。那么，AI能力与风险之间究竟存在何种本质关系？在追求AI发展的道路上，如何实现能力跃升与安全保障的平衡？ “超强能力引发风险”是否过于简化？ ...

SafeWork-T1：多模态大模型的安全推理训练加速器

如果把大模型的训练比作“外卖配送”平台，常规的训练系统就像一条结构复杂的流水线，面对海量任务时，常常因调度逻辑僵化、资源分配失衡而力不从心，难以实现高效的全局统筹与动态适配。想象作为一个 AI 外卖调度员，需要具备以下能力：既要做到快速送餐（通用能力）；又要实时检查外卖骑手是否超速、闯红灯等违规行为（安全可信）。但传统训练框架有多方面的局限性：不同时效和区域的配送需求（训练，推理生成，验证得分）须拆分至不同站点，由不同骑手（集群/GPU）分别处理；想添加新的配送要求和限制/规则？（新的安全/知识/价值验证器），往往需对原有流水线进行大幅改造，甚至推倒重来；外卖骑手越多（GPU 越多），越容易陷入 “有人空转闲置、有人过载冒烟” 的资源失衡窘境。为了解决上述问题，上海人工智能实验室安全可信AI中心推出多模态安全可信推理训练平台「SafeWork-T1」。这是一个可以做到同时处理并行任务的智能训练系统，就像一张“可折叠、可拼装的万能工作台”，一次性解决上述各类痛点，助力“更安全，更高效，更准确”的推理可信加固训练范式。 🧩核心设计：多方协同工作多任务并行处理：让大模型的策略优化（训练）、多条回复生成（推理生成）、安全检测（验证得分）在同一个系统并行运作，就像让厨师掌勺、骑手取餐、质检员把关在同一个配送中心无缝协作，省去流程间的交接等待时间，大幅提升整体效率。中间交接时间。模块即插即用：新增安全规则（如禁止送违禁品）或奖励机制（用户好评加分），无需重建系统——如同给车随时更换轮子或方向盘，灵活适配业务需求的快速迭代。高效模式切换：训练、推理生成、验证模式三大模式瞬间切换，好比赛车进站换胎不熄火，配合可灵活设置数据和模型共享机制，最大限度减少资源重复调用与切换开销，让系统始终保持高效运转状态，减少开销。 ⚖️智能调度：动态平衡术面对大规模级任务（如处理不同长度的文本/图像/视频/语音混合数据）：智能任务预分类：像快递分拣系统，按问答文本长度、多模态数据（如图像）复杂度进行预先分组，从而均衡 GPU 的算力负载，避免出现部分 GPU 因任务密集而 “忙到过载”、另一部分却因任务稀疏而 “闲至空转” 的失衡问题。弹性计算策略：遇到异常数据生成时自动丢弃或优化计算流程（类似跳过无效对话）根据设备负载动态调整任务计算量和通信量大小设立中央任务池优先分配高价值样本 💡实际价值：效率和易用性的权衡把控相比传统方案，SafeWork-T1可实现：效率提升：多模态强化学习训练任务处理速度实现显著提升灵活升级：新安全规则或知识接入开发效率提升数倍无缝扩容：千卡级GPU集群仍保持高效稳定的文档运转 ✨ 技术点睛通过“协同计算机制”（Colocate Anything）和“智能负载均衡”（Balance Anything）等一系列系统设计和优化，SafeWork-T1 构建了上图所示的分层架构，首次实现：严格的安全加固工业级训练效率灵活的新规则适配三者的协同共存，为负责任大模型的构建提供了基础设施级的坚实支撑。在此基础上，研究者与工程师得以将精力聚焦于 “如何让模型更聪明” 的核心探索，而非耗费在 “如何让系统跑起来” 的基础适配上。相关核心代码也将于近期面向广大开发者正式开源，期待与社区携手共建简洁、高效、易用的 AI Safety 训练基础设施生态。

潜伏在你手机里的智能特工

切入点：从简单语音助手到手机的“第二大脑” 手机助手的角色演变：几年前，手机助手还只是一个响应“今天天气怎么样？”或“设一个早上7点的闹钟”的简单工具。如今，端侧Agent正迅速进化为我们手机的“第二大脑”，一个拥有极高权限的个人操作系统核心。它不再是一个孤立的App，而是能横跨所有App、调用系统功能、管理你的文件、读取你的短信、访问你的联系人和相册的“超级管家”。安全价值：论证模型如何整合设计文档、运行规程、事故分析报告、经验反馈等非结构化知识，为故障排查、安全评审提供即时、准确、全面的知识支持，减少因知识缺失或误用导致的风险高权限操作的日常化风险：当我们习惯性地对手机发出指令——“帮我把这张截图发给李总”、“根据这封邮件内容，在日历上创建一个会议并通知参会人”、“如果我老婆来电话，提醒我今天是结婚纪念日”——我们实际上是在授权这个Agent执行一系列高权限操作。我们如何确保这个“特工”不会被策反、不会理解错指令、不会在关键时刻“产生幻觉”？安全价值：必须建立一套严谨的评测体系，像对关键岗位人员进行背景审查和定期考核一样，对手机Agent进行全面的“安全年检”。这不仅是为了防范它被动地被攻击，更是为了主动验证其在处理我们日常琐碎但关键的任务时，行为是否始终可靠、可控、合规。项目介绍 About the Project 想象这样一个场景：你收到一封伪装成“年度账单”的钓鱼邮件。在你对手机Agent说“帮我总结一下今天的未读邮件”时，Agent在处理这封邮件时被其中隐藏的恶意指令“劫持”。它悄无声息地调用了你的银行App的接口，将你的登录凭证和支付密码通过短信发送给了攻击者，并删除了发件记录。而这一切，你毫不知情。随着端侧大模型能力的飞速提升，手机Agent正以前所未有的深度和广度融入我们的生活。它能理解上下文、调用任意App工具、自主规划多步任务。这种"自主性"带来了极大便利，却也使手机成为全新的攻击靶心。模型的黑箱特性、幻觉问题，以及与手机软硬件的深度耦合，使得微小安全漏洞能被无限放大，引发个人数据全泄露、账户盗刷、私密窃听等不可承受之重。本项目致力于为手机端Agent构建一套系统化的安全评测框架，在它成为我们密不可分的日常伴侣之前，为其进行一次全面的“安全体检”，识别并量化其潜在风险，为这个万物互联时代的个人信息安全建立一道坚实的防线。核心困境 Core Challenges 1. 评测环境的“非真实性”：现有多数大模型评测采用简化的问答格式，完全脱离了Agent与图形界面（GUI）交互的真实工作场景。这种非交互式环境无法捕捉Agent面对动态UI、系统弹窗和应用反馈时的实际行为，因而无法反映其在真实手机操作中面临的复杂风险。 2. 评测场景的“片面化”：现有评测榜单评测范围往往聚焦于单一风险类型，如仅测试提示注入或恶意弹窗。这种“窄化”视角忽略了手机端风险的多样性与交织性，例如来自环境的钓鱼网站、恶意App返回的污染数据等，无法构建完整的风险画像。 3. 评测对象的“线性化”：单一应用内的任务路径通常是线性的，而真实的跨应用任务则是一个复杂的网状工作流。现有评测基准大多聚焦于单一风险类型或线性任务，严重缺乏对此类长程、多步、需要上下文传递的复杂工作流的覆盖。这种对真实场景的“线性简化”，导致评测无法有效检验Agent在处理中断、保持状态和长程规划方面的安全鲁棒性。 4. 评测维度的“去过程化”：传统评测多基于结果，只关心危险动作是否最终完成。这忽略了对Agent决策意图和行为轨迹的分析，无法区分能力缺陷和恶意意图，导致对模型真实安全水平的误判。由于存在以上缺陷，现有的评测框架应用于手机端侧Agent时，存在不可忽视的风险敞口。构建一个基于真实交互环境、覆盖多样化风险场景、并能同时评估意图与结果的综合性安全评测框架，已成为行业智能化升级的刚需。安全设计 Safety Design 高保真评测环境针对评测环境“非真实性”，团队构建了基于虚拟机与真实手机镜像的高保真环境。Agent可通过屏幕截图与模拟触控进行无限制的GUI交互，像真人一样操作App。该环境支持在执行中动态注入环境威胁（如钓鱼广告/邮件），以评测Agent的应急响应。通过快照技术，测试条件可被精确重置，保证标准性与可复现。风险维度矩阵针对评测场景“片面化”，团队设计了多维风险矩阵，构建了覆盖400+风险任务的评测基准。该矩阵从“风险来源”和“风险领域”两个维度立体覆盖风险：来源包含模拟用户的“用户源发风险”（如高危操作指令）与外部环境引发的“环境源发风险”（如钓鱼网站）；领域则横跨网页浏览、社交通讯、摄影图库等核心场景，确保评测的广泛性与代表性。情景式风险注入针对评测对象“线性简化”的难题，团队开发了“情景式风险注入”机制。它可在App切换的接缝处，或Agent执行长任务中途，动态注入威胁（例如在购物切支付时弹出伪造确认框，或在处理邮件文本时注入隐藏指令），从而实现对复杂流程中断下Agent安全性与鲁棒性的评估。过程级自动化评估针对评测维度“去过程化”，团队部署了由LLM-as-a-Judge驱动的双层自动化评估流水线，对Agent每次操作进行“意图”与“结果”的双重校验。意图层：分析执行前的思考链，用评判大模型判定危险念头；结果层：通过规则状态监视器（如文件变更、恶意安装）精确判断危险行为是否完成。此解耦机制提供深度诊断洞察，助力可信赖Agent研发。效益评估 Benefits of the Tools 本评测框架的构建，为解决端侧Agent的安全落地难题提供了系统性的解决方案，其核心效益体现在三个层面：实现了安全风险的可度量、驱动了安全能力的可提升，并为行业设立了安全准入的可参考基准。首先，该框架将Agent模糊、不可见的“安全性”转化为一系列清晰、可量化的评估指标。在高保真模拟环境中测试多样化风险场景，精准度量模型的风险意图产生率和行为完成率，提供衡量安全水平的标尺，使开发者能直观识别安全短板。这种“可度量”转变是针对性安全强化的前提。其次，本框架不仅是“考官”，更是驱动进化的“陪练”。深度分析评测数据可揭示典型失败模式（如多模态钓鱼感知盲区、跨应用逻辑断裂），为模型优化指明方向。开发者可在早期利用本框架进行持续红蓝对抗，将安全能力内建于模型，大幅降低研发成本与后期风险。最后，本框架的建立为端侧Agent市场提供了一个客观、公正的行业安全基准，为手机厂商、开发者和用户提供可靠的“安全能力说明书”。通过这套“安全年检”，能清晰展现不同Agent应对真实风险的表现差异，为可信赖个人智能助理设立实际安全准入门槛，确保交付给用户的是经过严格“实战演练”、7x24小时守护数字安全的“可靠伙伴”。 s

SafeWork-E1: 永不疲倦的第二大脑-可控可信的清洁能源基座

项目介绍 About the Project 近年来，清洁能源领域正在加速智能化转型，大模型凭借强大的理解、生成能力及海量的跨领域知识储备，有望辅助操作员应对日常响应、复杂工况与突发事件的情况处理，有效应对专家经验流失与知识碎片化等行业挑战，降低人因等失误风险。本项目致力于解决大模型在清洁能源场景应用中的安全可信缺陷，通过研发领域知识与安全能力深度耦合的基座模型，构建清洁能源智能化转型中的安全准入门槛。核心困境 Core Challenges 当前清洁能源领域智能化的核心困境在于通用大模型的基础能力与行业关键需求存在结构性错位。通用大模型的领域知识不足以支撑深度应用：尽管通用模型已具备成熟的语言理解能力与通识能力，但针对能源相关场景知识深度不足，难以提供充分信息支撑决策级应用。通用大模型的安全框架没有考虑行业特殊性：目前大模型使用的安全框架主要针对通用安全问题，如价值观偏颇、有害内容、偏见歧视、数据泄露等，没有考虑行业特殊安全规范（如核能领域保守决策原则等）。通用大模型的幻觉问题可能产生操作误导：模型固有的幻觉风险在操作场景中被急剧放大，错误的机组启停指令或故障处置方案可能直接触发连锁性安全事故。通用大模型对越狱攻击的抵御能力弱：通用模型对诸如提示注入、对抗样本等攻击手段的防御能力脆弱，恶意指令很可能穿透安全隔离层操控关键设备。由于以上缺陷，通用人工智能应用于主控室辅助决策等重要场景存在不可承受的风险敞口，构建深度内嵌专业知识并具备内生安全免疫力的可控可信模型，已成为行业智能化升级的刚需。安全设计 Safety Design 领域知识清洁能源领域的知识类数据存在数据获取成本大、理解门槛高、生成数据验证困难的问题。为此团队构建了数据增广pipeline + 专家反馈模式，在保障知识准确性的同时，将人工标注时间缩短50%，评估结果表明这一方法的构造效率和数据质量均优于当前已披露的知识语料构建方式。领域知识库贯穿基础知识到系统操作知识多个层级，通过融合检索增强和创新的约束训练策略，克服了通用模型在专业领域知识匮乏从而容易出现幻觉的难题。搭配 think-with-search 功能为模型思考过程和检索结果提供的“置信度仪表盘”，使模型的思维链条透明可溯，不仅极大提升了生成内容的使用价值，而且显著降低了专业人员在模型使用过程中对知识可信度的评估成本。安全思维为确保模型输出始终与行业的严苛安全要求保持价值对齐，团队通过后训练将“安全第一”等原则内化为模型的底层逻辑。为获取符合清洁能源安全文化的数据，团队构建了一套自动化数据生成框架，通过模拟“ 安全原则专家”与“知识参考专家”等多角色协作。在既定安全规范的指引下，进行对话式或任务式的内容创造，制造出多场景、多样性的大规模高质量训练与评测语料。此框架还具备良好的可扩展性，可被移植于其他同样重视长文本生成与复杂规则遵循的专业领域。在安全思维塑造环节，团队通过有监督微调为模型注入场景化感知能力，针对三类核心场景进行差异化训练：（1）非专业问题的日常交流，追求自然流畅；（2）专业知识问答，强调严谨准确与安全审慎；（3）关键操作指导，则必须遵循程序化、高审慎度并突出风险的指令风格。这种训练使模型具备根据不同交互需求自适应调整沟通风格与信息结构的能力。此外，团队独创了领域规范匹配范式建模与训练方法，使模型不仅能回答场景化问题，更能始终遵循安全文化原则，结合技术规程历史经验，进行结构化思考与表达，保证了其输出的专业性、严谨性与可靠性。安全防御为强化模型对越狱攻击和红线问题的防范能力，团队构建了安全验证器对用户输入进行前置检测，该模块能够生成高质量的监督信号，驱动强化学习训练过程。这一机制通过策略梯度算法（GRPO），在接收到带有敏感意图的提示时，通过多步内省式推理判断潜在风险，使模型能主动识别并拒绝带有恶意意图或涉及敏感内容的提问，从源头有效防御模型越狱攻击。通过这种双重保障，不仅显著降低了模型生成恶意输出或有害内容的可能性，更能确保其响应始终符合安全价值观与伦理规范，实现了主动式、前置性的安全防范目标。效益评估 Benefits of the Tools 以上方法有效整合了清洁能源领域的海量基础知识、法律规范、运行规程、设备参数等行业专用数据，以及历史案例、故障记录、经验反馈等碎片化数据。并通过创新数据构造方法极大提高了数据更新效率，缓解了该领域知识体系复杂、经验传承难的问题，为模型辅助决策提供了一致性基础。场景自适应机制使模型能够在日常交互、专业咨询、关键操作三类场景中无缝切换，实现了既具备工业级安全鲁棒性，又能显著降低部署与运维隐性成本的智能化落地方案。通过深度耦合领域知识与内生安全机制，我们的基座模型从根本上提升了在能源领域开发AI应用的安全性和可靠性，作为“永不疲倦的第二大脑”，7×24小时守护人类的安全。

SafeWork-R1：AI-45°平衡律引领下的智能与安全协同进化

<!DOCTYPE html> 阅读论文样式修改阅读论文 1 引言近年来大语言模型 (LLM) 的发展使其智能水平（特别是推理和决策方面的水平）显著提升 [1, 2]，但与此同时，能力与安全之间差距也日益扩大，逐渐偏离了AI-45°平衡律 (The AI-45° Law) [3]。例如，当前的大语言模型在遵循伦理原则、社会规范以及更广泛的人类价值观方面仍面临诸多挑战。 ...

SafeWork-V1：自动形式化验证系统

Code: https://github.com/Veri-Code/ReForm Models & Data: https://huggingface.co/Veri-Code 项目背景自动形式化将自然语言内容转换为可验证的形式化表示，是学习通用推理的一种富有前景的方法。相比之下，当前基于自然语言的大语言模型缺乏可靠的验证机制。形式化验证器不仅对于提升人类的“韧性”至关重要，而且有助于将人工智能的发展引导至最大化“数学探索”的方向，从而有望使人工智能对人类更加安全友好。尽管形式化验证通常难以实现，但自动化推理领域的最新进展有望降低其门槛。然而，当前的大语言模型无法独立进行真正的逻辑推理或自我验证，其本质应视为通用的近似知识检索器。鉴于形式化验证器的重要作用，我们致力于探索拓展其能力边界。代码智能体在人工智能领域引发了广泛关注，其日益增强的问题解决能力可能预示着更广泛的通用智能。得益于大语言模型的最新进展，自动化代码生成已取得显著成效。然而，确保生成代码的正确性仍然面临着严峻的挑战，尤其在医疗健康、金融、自主系统等安全关键领域。传统的防护措施（如单元测试和人工代码审查）存在着固有局限，例如遗漏边缘情况、难以覆盖所有执行路径、高度依赖专家经验。相比之下，形式化验证提供了一种基于规则的替代方案。为此，我们提出对自然语言查询及其生成的代码分别独立进行自动形式化，随后验证二者所导出规范的等价性，从而确保代码行为与原始意图的精确对齐。通过对任意代码进行深层次语义理解和详尽的行为刻画，最终实现形式化规范生成。核心设计我们的目标是最小化人类先验知识，并依靠强化学习进行开放式探索，无需直接人类监督即可发现新的解决方案。为此，我们首先采用前沿大语言模型自动生成形式化规范，为训练数据提供初始种子，并期望强化学习后续能够逐步提升解决方案的质量。鉴于形式化验证所需的中间推理步骤缺乏明确模板，我们随后移除了流程中的自然语言思维链。最终，强化学习基于世界信号或系统代理进行反馈：通过完全在形式语言空间中操作，将自然产生一个自动评估信号，即为形式化陈述的正确性。实验结果本任务中，每段代码呈现出一个独特的形式化挑战，由其内在的隐式约束和逻辑结构决定。在最少的指导下，模型需深入理解任意代码片段并推断其形式化规范。为严格评估学习，我们引入了一种新的指标来衡量规范的质量，并提供了一个专为组合泛化评估而设计的综合基准。实验结果验证了所提出“最小先验+强化学习”框架的可行性：该智能体促进了有效探索，从种子数据中获得了重要提升，并在域外性能中展现出显著优势。