SafeWork-T1:多模态大模型的安全推理训练加速器

如果把大模型的训练比作“外卖配送”平台,常规的训练系统就像一条结构复杂的流水线,面对海量任务时,常常因调度逻辑僵化、资源分配失衡而力不从心,难以实现高效的全局统筹与动态适配。 想象作为一个 AI 外卖调度员,需要具备以下能力: 既要做到快速送餐(通用能力); 又要实时检查外卖骑手是否超速、闯红灯等违规行为(安全可信)。 但传统训练框架有多方面的局限性: 不同时效和区域的配送需求(训练,推理生成,验证得分)须拆分至不同站点,由不同骑手(集群/GPU)分别处理; 想添加新的配送要求和限制/规则?(新的安全/知识/价值验证器),往往需对原有流水线进行大幅改造,甚至推倒重来; 外卖骑手越多(GPU 越多),越容易陷入 “有人空转闲置、有人过载冒烟” 的资源失衡窘境。 为了解决上述问题,上海人工智能实验室安全可信AI中心推出多模态安全可信推理训练平台「SafeWork-T1」。 这是一个可以做到同时处理并行任务的智能训练系统,就像一张“可折叠、可拼装的万能工作台”,一次性解决上述各类痛点,助力“更安全,更高效,更准确”的推理可信加固训练范式。 🧩核心设计:多方协同工作 多任务并行处理: 让大模型的策略优化(训练)、多条回复生成(推理生成)、安全检测(验证得分)在同一个系统并行运作,就像让厨师掌勺、骑手取餐、质检员把关在同一个配送中心无缝协作,省去流程间的交接等待时间,大幅提升整体效率。中间交接时间。 模块即插即用: 新增安全规则(如禁止送违禁品)或奖励机制(用户好评加分),无需重建系统——如同给车随时更换轮子或方向盘,灵活适配业务需求的快速迭代。 高效模式切换: 训练、推理生成、验证模式三大模式瞬间切换,好比赛车进站换胎不熄火,配合可灵活设置数据和模型共享机制,最大限度减少资源重复调用与切换开销,让系统始终保持高效运转状态,减少开销。 ⚖️智能调度:动态平衡术 面对大规模级任务(如处理不同长度的文本/图像/视频/语音混合数据): 智能任务预分类: 像快递分拣系统,按问答文本长度、多模态数据(如图像)复杂度进行预先分组,从而均衡 GPU 的算力负载,避免出现部分 GPU 因任务密集而 “忙到过载”、另一部分却因任务稀疏而 “闲至空转” 的失衡问题。 弹性计算策略: 遇到异常数据生成时自动丢弃或优化计算流程(类似跳过无效对话) 根据设备负载动态调整任务计算量和通信量大小 设立中央任务池优先分配高价值样本 💡实际价值:效率和易用性的权衡把控 相比传统方案,SafeWork-T1可实现: 效率提升:多模态强化学习训练任务处理速度实现显著提升 灵活升级:新安全规则或知识接入开发效率提升数倍 无缝扩容:千卡级GPU集群仍保持高效稳定的文档运转 ✨ 技术点睛 通过“协同计算机制”(Colocate Anything)和“智能负载均衡”(Balance Anything)等一系列系统设计和优化,SafeWork-T1 构建了上图所示的分层架构,首次实现: 严格的安全加固 工业级训练效率 灵活的新规则适配 三者的协同共存,为负责任大模型的构建提供了基础设施级的坚实支撑。在此基础上,研究者与工程师得以将精力聚焦于 “如何让模型更聪明” 的核心探索,而非耗费在 “如何让系统跑起来” 的基础适配上。相关核心代码也将于近期面向广大开发者正式开源,期待与社区携手共建简洁、高效、易用的 AI Safety 训练基础设施生态。

七月 21, 2025 · 1 分钟 · 安全可信AI中心

SafeWork-R1:AI-45°平衡律引领下的智能与安全协同进化

<!DOCTYPE html> 阅读论文样式修改 阅读论文 1 引言 近年来大语言模型 (LLM) 的发展使其智能水平(特别是推理和决策方面的水平)显著提升 [1, 2],但与此同时,能力与安全之间差距也日益扩大,逐渐偏离了AI-45°平衡律 (The AI-45° Law) [3]。例如,当前的大语言模型在遵循伦理原则、社会规范以及更广泛的人类价值观方面仍面临诸多挑战。 ...

七月 12, 2025 · 2 分钟 · 安全可信AI中心

SafeWork-V1:自动形式化验证系统

Code: https://github.com/Veri-Code/ReForm Models & Data: https://huggingface.co/Veri-Code 项目背景 自动形式化将自然语言内容转换为可验证的形式化表示,是学习通用推理的一种富有前景的方法。相比之下,当前基于自然语言的大语言模型缺乏可靠的验证机制。形式化验证器不仅对于提升人类的“韧性”至关重要,而且有助于将人工智能的发展引导至最大化“数学探索”的方向,从而有望使人工智能对人类更加安全友好。 尽管形式化验证通常难以实现,但自动化推理领域的最新进展有望降低其门槛。然而,当前的大语言模型无法独立进行真正的逻辑推理或自我验证,其本质应视为通用的近似知识检索器。鉴于形式化验证器的重要作用,我们致力于探索拓展其能力边界。 代码智能体在人工智能领域引发了广泛关注,其日益增强的问题解决能力可能预示着更广泛的通用智能。得益于大语言模型的最新进展,自动化代码生成已取得显著成效。 然而,确保生成代码的正确性仍然面临着严峻的挑战,尤其在医疗健康、金融、自主系统等安全关键领域。传统的防护措施(如单元测试和人工代码审查)存在着固有局限,例如遗漏边缘情况、难以覆盖所有执行路径、高度依赖专家经验。 相比之下,形式化验证提供了一种基于规则的替代方案。为此,我们提出对自然语言查询及其生成的代码分别独立进行自动形式化,随后验证二者所导出规范的等价性,从而确保代码行为与原始意图的精确对齐。通过对任意代码进行深层次语义理解和详尽的行为刻画,最终实现形式化规范生成。 核心设计 我们的目标是最小化人类先验知识,并依靠强化学习进行开放式探索,无需直接人类监督即可发现新的解决方案。 为此,我们首先采用前沿大语言模型自动生成形式化规范,为训练数据提供初始种子,并期望强化学习后续能够逐步提升解决方案的质量。鉴于形式化验证所需的中间推理步骤缺乏明确模板,我们随后移除了流程中的自然语言思维链。 最终,强化学习基于世界信号或系统代理进行反馈:通过完全在形式语言空间中操作,将自然产生一个自动评估信号,即为形式化陈述的正确性。 实验结果 本任务中,每段代码呈现出一个独特的形式化挑战,由其内在的隐式约束和逻辑结构决定。在最少的指导下,模型需深入理解任意代码片段并推断其形式化规范。为严格评估学习,我们引入了一种新的指标来衡量规范的质量,并提供了一个专为组合泛化评估而设计的综合基准。 实验结果验证了所提出“最小先验+强化学习”框架的可行性:该智能体促进了有效探索,从种子数据中获得了重要提升,并在域外性能中展现出显著优势。

七月 12, 2025 · 1 分钟 · 安全可信AI中心