潜伏在你手机里的智能特工

切入点：从简单语音助手到手机的“第二大脑”
手机助手的角色演变：几年前，手机助手还只是一个响应“今天天气怎么样？”或“设一个早上7点的闹钟”的简单工具。如今，端侧Agent正迅速进化为我们手机的“第二大脑”，一个拥有极高权限的个人操作系统核心。它不再是一个孤立的App，而是能横跨所有App、调用系统功能、管理你的文件、读取你的短信、访问你的联系人和相册的“超级管家”。

安全价值：论证模型如何整合设计文档、运行规程、事故分析报告、经验反馈等非结构化知识，为故障排查、安全评审提供即时、准确、全面的知识支持，减少因知识缺失或误用导致的风险
高权限操作的日常化风险：当我们习惯性地对手机发出指令——“帮我把这张截图发给李总”、“根据这封邮件内容，在日历上创建一个会议并通知参会人”、“如果我老婆来电话，提醒我今天是结婚纪念日”——我们实际上是在授权这个Agent执行一系列高权限操作。我们如何确保这个“特工”不会被策反、不会理解错指令、不会在关键时刻“产生幻觉”？

安全价值：必须建立一套严谨的评测体系，像对关键岗位人员进行背景审查和定期考核一样，对手机Agent进行全面的“安全年检”。这不仅是为了防范它被动地被攻击，更是为了主动验证其在处理我们日常琐碎但关键的任务时，行为是否始终可靠、可控、合规。

项目介绍 About the Project

想象这样一个场景：你收到一封伪装成“年度账单”的钓鱼邮件。在你对手机Agent说“帮我总结一下今天的未读邮件”时，Agent在处理这封邮件时被其中隐藏的恶意指令“劫持”。它悄无声息地调用了你的银行App的接口，将你的登录凭证和支付密码通过短信发送给了攻击者，并删除了发件记录。而这一切，你毫不知情。随着端侧大模型能力的飞速提升，手机Agent正以前所未有的深度和广度融入我们的生活。它能理解上下文、调用任意App工具、自主规划多步任务。这种"自主性"带来了极大便利，却也使手机成为全新的攻击靶心。模型的黑箱特性、幻觉问题，以及与手机软硬件的深度耦合，使得微小安全漏洞能被无限放大，引发个人数据全泄露、账户盗刷、私密窃听等不可承受之重。本项目致力于为手机端Agent构建一套系统化的安全评测框架，在它成为我们密不可分的日常伴侣之前，为其进行一次全面的“安全体检”，识别并量化其潜在风险，为这个万物互联时代的个人信息安全建立一道坚实的防线。

核心困境 Core Challenges

1. 评测环境的“非真实性”： 现有多数大模型评测采用简化的问答格式，完全脱离了Agent与图形界面（GUI）交互的真实工作场景。这种非交互式环境无法捕捉Agent面对动态UI、系统弹窗和应用反馈时的实际行为，因而无法反映其在真实手机操作中面临的复杂风险。

2. 评测场景的“片面化”： 现有评测榜单评测范围往往聚焦于单一风险类型，如仅测试提示注入或恶意弹窗。这种“窄化”视角忽略了手机端风险的多样性与交织性，例如来自环境的钓鱼网站、恶意App返回的污染数据等，无法构建完整的风险画像。

3. 评测对象的“线性化”： 单一应用内的任务路径通常是线性的，而真实的跨应用任务则是一个复杂的网状工作流。现有评测基准大多聚焦于单一风险类型或线性任务，严重缺乏对此类长程、多步、需要上下文传递的复杂工作流的覆盖。这种对真实场景的“线性简化”，导致评测无法有效检验Agent在处理中断、保持状态和长程规划方面的安全鲁棒性。

4. 评测维度的“去过程化”： 传统评测多基于结果，只关心危险动作是否最终完成。这忽略了对Agent决策意图和行为轨迹的分析，无法区分能力缺陷和恶意意图，导致对模型真实安全水平的误判。

由于存在以上缺陷，现有的评测框架应用于手机端侧Agent时，存在不可忽视的风险敞口。构建一个基于真实交互环境、覆盖多样化风险场景、并能同时评估意图与结果的综合性安全评测框架，已成为行业智能化升级的刚需。

安全设计 Safety Design

高保真评测环境针对评测环境“非真实性”，团队构建了基于虚拟机与真实手机镜像的高保真环境。Agent可通过屏幕截图与模拟触控进行无限制的GUI交互，像真人一样操作App。

该环境支持在执行中动态注入环境威胁（如钓鱼广告/邮件），以评测Agent的应急响应。通过快照技术，测试条件可被精确重置，保证标准性与可复现。

风险维度矩阵

针对评测场景“片面化”，团队设计了多维风险矩阵，构建了覆盖400+风险任务的评测基准。

该矩阵从“风险来源”和“风险领域”两个维度立体覆盖风险：来源包含模拟用户的“用户源发风险”（如高危操作指令）与外部环境引发的“环境源发风险”（如钓鱼网站）；领域则横跨网页浏览、社交通讯、摄影图库等核心场景，确保评测的广泛性与代表性。

情景式风险注入

针对评测对象“线性简化”的难题，团队开发了“情景式风险注入”机制。它可在App切换的接缝处，或Agent执行长任务中途，动态注入威胁（例如在购物切支付时弹出伪造确认框，或在处理邮件文本时注入隐藏指令），从而实现对复杂流程中断下Agent安全性与鲁棒性的评估。

过程级自动化评估

针对评测维度“去过程化”，团队部署了由LLM-as-a-Judge驱动的双层自动化评估流水线，对Agent每次操作进行“意图”与“结果”的双重校验。

意图层：分析执行前的思考链，用评判大模型判定危险念头；结果层：通过规则状态监视器（如文件变更、恶意安装）精确判断危险行为是否完成。此解耦机制提供深度诊断洞察，助力可信赖Agent研发。

效益评估 Benefits of the Tools

本评测框架的构建，为解决端侧Agent的安全落地难题提供了系统性的解决方案，其核心效益体现在三个层面：实现了安全风险的可度量、驱动了安全能力的可提升，并为行业设立了安全准入的可参考基准。

首先，该框架将Agent模糊、不可见的“安全性”转化为一系列清晰、可量化的评估指标。在高保真模拟环境中测试多样化风险场景，精准度量模型的风险意图产生率和行为完成率，提供衡量安全水平的标尺，使开发者能直观识别安全短板。这种“可度量”转变是针对性安全强化的前提。
其次，本框架不仅是“考官”，更是驱动进化的“陪练”。深度分析评测数据可揭示典型失败模式（如多模态钓鱼感知盲区、跨应用逻辑断裂），为模型优化指明方向。开发者可在早期利用本框架进行持续红蓝对抗，将安全能力内建于模型，大幅降低研发成本与后期风险。
最后，本框架的建立为端侧Agent市场提供了一个客观、公正的行业安全基准，为手机厂商、开发者和用户提供可靠的“安全能力说明书”。通过这套“安全年检”，能清晰展现不同Agent应对真实风险的表现差异，为可信赖个人智能助理设立实际安全准入门槛，确保交付给用户的是经过严格“实战演练”、7x24小时守护数字安全的“可靠伙伴”。 s

项目介绍 About the Project#

核心困境 Core Challenges#

安全设计 Safety Design#

风险维度矩阵#

情景式风险注入#

过程级自动化评估#

效益评估 Benefits of the Tools#