强化学习 | AI45研究成果

SafeWork-T1：多模态大模型的安全推理训练加速器

如果把大模型的训练比作“外卖配送”平台，常规的训练系统就像一条结构复杂的流水线，面对海量任务时，常常因调度逻辑僵化、资源分配失衡而力不从心，难以实现高效的全局统筹与动态适配。想象作为一个 AI 外卖调度员，需要具备以下能力：既要做到快速送餐（通用能力）；又要实时检查外卖骑手是否超速、闯红灯等违规行为（安全可信）。但传统训练框架有多方面的局限性：不同时效和区域的配送需求（训练，推理生成，验证得分）须拆分至不同站点，由不同骑手（集群/GPU）分别处理；想添加新的配送要求和限制/规则？（新的安全/知识/价值验证器），往往需对原有流水线进行大幅改造，甚至推倒重来；外卖骑手越多（GPU 越多），越容易陷入 “有人空转闲置、有人过载冒烟” 的资源失衡窘境。为了解决上述问题，上海人工智能实验室安全可信AI中心推出多模态安全可信推理训练平台「SafeWork-T1」。这是一个可以做到同时处理并行任务的智能训练系统，就像一张“可折叠、可拼装的万能工作台”，一次性解决上述各类痛点，助力“更安全，更高效，更准确”的推理可信加固训练范式。 🧩核心设计：多方协同工作多任务并行处理：让大模型的策略优化（训练）、多条回复生成（推理生成）、安全检测（验证得分）在同一个系统并行运作，就像让厨师掌勺、骑手取餐、质检员把关在同一个配送中心无缝协作，省去流程间的交接等待时间，大幅提升整体效率。中间交接时间。模块即插即用：新增安全规则（如禁止送违禁品）或奖励机制（用户好评加分），无需重建系统——如同给车随时更换轮子或方向盘，灵活适配业务需求的快速迭代。高效模式切换：训练、推理生成、验证模式三大模式瞬间切换，好比赛车进站换胎不熄火，配合可灵活设置数据和模型共享机制，最大限度减少资源重复调用与切换开销，让系统始终保持高效运转状态，减少开销。 ⚖️智能调度：动态平衡术面对大规模级任务（如处理不同长度的文本/图像/视频/语音混合数据）：智能任务预分类：像快递分拣系统，按问答文本长度、多模态数据（如图像）复杂度进行预先分组，从而均衡 GPU 的算力负载，避免出现部分 GPU 因任务密集而 “忙到过载”、另一部分却因任务稀疏而 “闲至空转” 的失衡问题。弹性计算策略：遇到异常数据生成时自动丢弃或优化计算流程（类似跳过无效对话）根据设备负载动态调整任务计算量和通信量大小设立中央任务池优先分配高价值样本 💡实际价值：效率和易用性的权衡把控相比传统方案，SafeWork-T1可实现：效率提升：多模态强化学习训练任务处理速度实现显著提升灵活升级：新安全规则或知识接入开发效率提升数倍无缝扩容：千卡级GPU集群仍保持高效稳定的文档运转 ✨ 技术点睛通过“协同计算机制”（Colocate Anything）和“智能负载均衡”（Balance Anything）等一系列系统设计和优化，SafeWork-T1 构建了上图所示的分层架构，首次实现：严格的安全加固工业级训练效率灵活的新规则适配三者的协同共存，为负责任大模型的构建提供了基础设施级的坚实支撑。在此基础上，研究者与工程师得以将精力聚焦于 “如何让模型更聪明” 的核心探索，而非耗费在 “如何让系统跑起来” 的基础适配上。相关核心代码也将于近期面向广大开发者正式开源，期待与社区携手共建简洁、高效、易用的 AI Safety 训练基础设施生态。

SafeWork-R1：AI-45°平衡律引领下的智能与安全协同进化

<!DOCTYPE html> 阅读论文样式修改阅读论文 1 引言近年来大语言模型 (LLM) 的发展使其智能水平（特别是推理和决策方面的水平）显著提升 [1, 2]，但与此同时，能力与安全之间差距也日益扩大，逐渐偏离了AI-45°平衡律 (The AI-45° Law) [3]。例如，当前的大语言模型在遵循伦理原则、社会规范以及更广泛的人类价值观方面仍面临诸多挑战。 ...

SafeWork-V1：自动形式化验证系统

Code: https://github.com/Veri-Code/ReForm Models & Data: https://huggingface.co/Veri-Code 项目背景自动形式化将自然语言内容转换为可验证的形式化表示，是学习通用推理的一种富有前景的方法。相比之下，当前基于自然语言的大语言模型缺乏可靠的验证机制。形式化验证器不仅对于提升人类的“韧性”至关重要，而且有助于将人工智能的发展引导至最大化“数学探索”的方向，从而有望使人工智能对人类更加安全友好。尽管形式化验证通常难以实现，但自动化推理领域的最新进展有望降低其门槛。然而，当前的大语言模型无法独立进行真正的逻辑推理或自我验证，其本质应视为通用的近似知识检索器。鉴于形式化验证器的重要作用，我们致力于探索拓展其能力边界。代码智能体在人工智能领域引发了广泛关注，其日益增强的问题解决能力可能预示着更广泛的通用智能。得益于大语言模型的最新进展，自动化代码生成已取得显著成效。然而，确保生成代码的正确性仍然面临着严峻的挑战，尤其在医疗健康、金融、自主系统等安全关键领域。传统的防护措施（如单元测试和人工代码审查）存在着固有局限，例如遗漏边缘情况、难以覆盖所有执行路径、高度依赖专家经验。相比之下，形式化验证提供了一种基于规则的替代方案。为此，我们提出对自然语言查询及其生成的代码分别独立进行自动形式化，随后验证二者所导出规范的等价性，从而确保代码行为与原始意图的精确对齐。通过对任意代码进行深层次语义理解和详尽的行为刻画，最终实现形式化规范生成。核心设计我们的目标是最小化人类先验知识，并依靠强化学习进行开放式探索，无需直接人类监督即可发现新的解决方案。为此，我们首先采用前沿大语言模型自动生成形式化规范，为训练数据提供初始种子，并期望强化学习后续能够逐步提升解决方案的质量。鉴于形式化验证所需的中间推理步骤缺乏明确模板，我们随后移除了流程中的自然语言思维链。最终，强化学习基于世界信号或系统代理进行反馈：通过完全在形式语言空间中操作，将自然产生一个自动评估信号，即为形式化陈述的正确性。实验结果本任务中，每段代码呈现出一个独特的形式化挑战，由其内在的隐式约束和逻辑结构决定。在最少的指导下，模型需深入理解任意代码片段并推断其形式化规范。为严格评估学习，我们引入了一种新的指标来衡量规范的质量，并提供了一个专为组合泛化评估而设计的综合基准。实验结果验证了所提出“最小先验+强化学习”框架的可行性：该智能体促进了有效探索，从种子数据中获得了重要提升，并在域外性能中展现出显著优势。