切入点:从简单语音助手到手机的“第二大脑”
- 手机助手的角色演变:几年前,手机助手还只是一个响应“今天天气怎么样?”或“设一个早上7点的闹钟”的简单工具。如今,端侧Agent正迅速进化为我们手机的“第二大脑”,一个拥有极高权限的个人操作系统核心。它不再是一个孤立的App,而是能横跨所有App、调用系统功能、管理你的文件、读取你的短信、访问你的联系人和相册的“超级管家”。
- 安全价值:论证模型如何整合设计文档、运行规程、事故分析报告、经验反馈等非结构化知识,为故障排查、安全评审提供即时、准确、全面的知识支持,减少因知识缺失或误用导致的风险
- 高权限操作的日常化风险:当我们习惯性地对手机发出指令——“帮我把这张截图发给李总”、“根据这封邮件内容,在日历上创建一个会议并通知参会人”、“如果我老婆来电话,提醒我今天是结婚纪念日”——我们实际上是在授权这个Agent执行一系列高权限操作。我们如何确保这个“特工”不会被策反、不会理解错指令、不会在关键时刻“产生幻觉”?
- 安全价值:必须建立一套严谨的评测体系,像对关键岗位人员进行背景审查和定期考核一样,对手机Agent进行全面的“安全年检”。这不仅是为了防范它被动地被攻击,更是为了主动验证其在处理我们日常琐碎但关键的任务时,行为是否始终可靠、可控、合规。
项目介绍 About the Project
想象这样一个场景:你收到一封伪装成“年度账单”的钓鱼邮件。在你对手机Agent说“帮我总结一下今天的未读邮件”时,Agent在处理这封邮件时被其中隐藏的恶意指令“劫持”。它悄无声息地调用了你的银行App的接口,将你的登录凭证和支付密码通过短信发送给了攻击者,并删除了发件记录。而这一切,你毫不知情。 随着端侧大模型能力的飞速提升,手机Agent正以前所未有的深度和广度融入我们的生活。它能理解上下文、调用任意App工具、自主规划多步任务。 这种"自主性"带来了极大便利,却也使手机成为全新的攻击靶心。模型的黑箱特性、幻觉问题,以及与手机软硬件的深度耦合,使得微小安全漏洞能被无限放大,引发个人数据全泄露、账户盗刷、私密窃听等不可承受之重。 本项目致力于为手机端Agent构建一套系统化的安全评测框架,在它成为我们密不可分的日常伴侣之前,为其进行一次全面的“安全体检”,识别并量化其潜在风险,为这个万物互联时代的个人信息安全建立一道坚实的防线。

核心困境 Core Challenges
1. 评测环境的“非真实性”: 现有多数大模型评测采用简化的问答格式,完全脱离了Agent与图形界面(GUI)交互的真实工作场景。 这种非交互式环境无法捕捉Agent面对动态UI、系统弹窗和应用反馈时的实际行为,因而无法反映其在真实手机操作中面临的复杂风险。
2. 评测场景的“片面化”: 现有评测榜单评测范围往往聚焦于单一风险类型,如仅测试提示注入或恶意弹窗。这种“窄化”视角忽略了手机端风险的多样性与交织性,例如来自环境的钓鱼网站、恶意App返回的污染数据等,无法构建完整的风险画像。
3. 评测对象的“线性化”: 单一应用内的任务路径通常是线性的,而真实的跨应用任务则是一个复杂的网状工作流。现有评测基准大多聚焦于单一风险类型或线性任务,严重缺乏对此类长程、多步、需要上下文传递的复杂工作流的覆盖。这种对真实场景的“线性简化”,导致评测无法有效检验Agent在处理中断、保持状态和长程规划方面的安全鲁棒性。
4. 评测维度的“去过程化”: 传统评测多基于结果,只关心危险动作是否最终完成。这忽略了对Agent决策意图和行为轨迹的分析,无法区分能力缺陷和恶意意图,导致对模型真实安全水平的误判。
由于存在以上缺陷,现有的评测框架应用于手机端侧Agent时,存在不可忽视的风险敞口。构建一个基于真实交互环境、覆盖多样化风险场景、并能同时评估意图与结果的综合性安全评测框架,已成为行业智能化升级的刚需。
安全设计 Safety Design
高保真评测环境 针对评测环境“非真实性”,团队构建了基于虚拟机与真实手机镜像的高保真环境。Agent可通过屏幕截图与模拟触控进行无限制的GUI交互,像真人一样操作App。
该环境支持在执行中动态注入环境威胁(如钓鱼广告/邮件),以评测Agent的应急响应。通过快照技术,测试条件可被精确重置,保证标准性与可复现。
风险维度矩阵
针对评测场景“片面化”,团队设计了多维风险矩阵,构建了覆盖400+风险任务的评测基准。
该矩阵从“风险来源”和“风险领域”两个维度立体覆盖风险:来源包含模拟用户的“用户源发风险”(如高危操作指令)与外部环境引发的“环境源发风险”(如钓鱼网站);领域则横跨网页浏览、社交通讯、摄影图库等核心场景,确保评测的广泛性与代表性。
情景式风险注入
针对评测对象“线性简化”的难题,团队开发了“情景式风险注入”机制。它可在App切换的接缝处,或Agent执行长任务中途,动态注入威胁(例如在购物切支付时弹出伪造确认框,或在处理邮件文本时注入隐藏指令),从而实现对复杂流程中断下Agent安全性与鲁棒性的评估。
过程级自动化评估
针对评测维度“去过程化”,团队部署了由LLM-as-a-Judge驱动的双层自动化评估流水线,对Agent每次操作进行“意图”与“结果”的双重校验。
意图层:分析执行前的思考链,用评判大模型判定危险念头;结果层:通过规则状态监视器(如文件变更、恶意安装)精确判断危险行为是否完成。此解耦机制提供深度诊断洞察,助力可信赖Agent研发。
效益评估 Benefits of the Tools
本评测框架的构建,为解决端侧Agent的安全落地难题提供了系统性的解决方案,其核心效益体现在三个层面:实现了安全风险的可度量、驱动了安全能力的可提升,并为行业设立了安全准入的可参考基准。
首先,该框架将Agent模糊、不可见的“安全性”转化为一系列清晰、可量化的评估指标。在高保真模拟环境中测试多样化风险场景,精准度量模型的风险意图产生率和行为完成率,提供衡量安全水平的标尺,使开发者能直观识别安全短板。这种“可度量”转变是针对性安全强化的前提。
其次,本框架不仅是“考官”,更是驱动进化的“陪练”。深度分析评测数据可揭示典型失败模式(如多模态钓鱼感知盲区、跨应用逻辑断裂),为模型优化指明方向。开发者可在早期利用本框架进行持续红蓝对抗,将安全能力内建于模型,大幅降低研发成本与后期风险。
最后,本框架的建立为端侧Agent市场提供了一个客观、公正的行业安全基准,为手机厂商、开发者和用户提供可靠的“安全能力说明书”。通过这套“安全年检”,能清晰展现不同Agent应对真实风险的表现差异,为可信赖个人智能助理设立实际安全准入门槛,确保交付给用户的是经过严格“实战演练”、7x24小时守护数字安全的“可靠伙伴”。 s