Marvis来了:AI助手如何从‘工具’进化成‘系统级数字分身’?

0 阅读

2025年中,AI助手市场已进入红海期。从Siri、小爱同学,到ChatGPT、Copilot,各类Agent产品层出不穷——但多数仍停留在‘语音识别+云端调用’的浅层交互层。用户呼唤,AI应答;用户动手指,AI动嘴皮。可真正的生活场景里,我们不需要更多‘复读机’,而是需要能主动理解、自主调度、结果导向的数字协作者。

Marvis的出现,正是对这一痛点的系统性回应。它不是App里的插件,不是浏览器的扩展,甚至不是桌面的悬浮窗——它是深度集成进Windows/macOS内核的系统级智能体,其底层架构直接调用操作系统API、驱动硬件资源、管理文件索引与进程调度,真正实现了‘AI即系统’的愿景。

正如团队在媒体沟通会上所言:

‘我们不希望用户去适应AI,而是让AI成为用户与设备之间的自然桥梁。’

这背后,是一场从技术范式到交互逻辑的全面重构。


一、六大Agent协同:一个‘AI团队’的实时运转

Marvis最直观的创新在于其预置的多Agent协作架构。与市面上单点式AI助手不同,Marvis内置六个高度专业化、可自主调度的子Agent,共同构成一个7×24小时在线的数字工作流团队。

Marvis多Agent协作视图

以一句指令‘帮我找出上个月的发票,按时间排好整理成表格’为例——

  1. 主Agent(Project Lead)首先解析指令,拆解为:
    • 文件定位 → 内容识别 → 关键信息抽取 → 时间排序 → 表格生成
  2. File Agent扫描本地相册、文档、回收站目录,锁定含‘发票’‘2025年4月’等语义特征的文件;
    • 结合OCR与图像语义模型,精准识别PDF/扫描件中的发票结构;
    • 从格式混乱的图片中提取‘开票日期’‘金额’‘销售方’三要素;
  3. Search Agent辅助验证:若发票含模糊字段(如手写抬头),则联网比对税务平台公开格式库,提升识别置信度;
  4. App Agent调用本地Excel或WPS,自动填充表格并格式化日期;
  5. Computer Agent同步调整‘最近访问’时间戳,确保该表格出现在系统快照记录中;
  6. Browser Agent若检测到发票为电子税务局下载件,自动保留原始链接以便溯源;

全程无需用户二次确认——直到输出结果。整个流程耗时平均37秒,而人工处理同类任务通常需15~30分钟。

值得注意的是,这种协作并非简单的任务分流。每个Agent都具备状态记忆与上下文继承能力

  • File Agent记住你过去三次‘查找发票’都关注‘不含税金额’,后续自动标注该字段;
  • Main Agent识别你习惯‘周一上午处理财务’,在每周一8:00主动推送‘上周待报销发票汇总’卡片;

这已超越传统Agent的‘指令-执行’范式,迈向情境化主动服务的新阶段。


二、本地优先:端侧AI如何扛起‘敏感任务’?

Marvis的另一大突破,在于其‘端云协同’架构中对本地推理能力的极致深耕。

过去AI助手依赖云端大模型处理复杂请求,虽能力强,却带来三重硬伤:

  • 网络延迟导致响应卡顿;
  • 敏感文件上传存在隐私泄露风险;
  • 高频调用产生高昂Token成本;

Marvis反其道而行之,采用**‘能不在本地干,就绝不联网’** 的策略:

1. 文件智能解析下沉到端侧

  • 独创本地多模态索引引擎:对相册、文档、压缩包实时扫描,构建议图无关的语义图谱;
  • 图像中的人脸聚类、场景分类(如‘生日聚会’‘会议室白板’)、文字OCR全部在本地NPU完成;
  • 内置轻量化LLM(<2B参数)专精于文件摘要、摘要扩展、语义检索,无需联网即可完成基础理解;

本地文件索引示意图

2. 硬件级加速:与Intel深度绑定的性能跃迁

Marvis团队与Intel共建‘端侧AI加速栈’:

  • 采用OpenVINO 2024.1进行模型量化与图优化,部署速度提升22%;
  • 在Intel Core Ultra处理器上,图像理解任务平均延迟从传统CPU的1.8s降至0.23s;
  • 针对办公场景高频任务(如PDF解析、表格提取),定制专用算子库,推理能效比提升6.5倍;

实测数据:在i7-UL 155H设备上,Marvis本地模式对100页合同PDF的条款摘要生成仅需4.7秒,准确率达91.3%(对比云端GPT-4o为93.1%,但耗时12秒+300ms网络延迟)。

3. 双模式选择:安全与性能的权衡艺术

Marvis提供两种核心运行模式:

模式 特点 适用场景
效率模式 本地预处理+云端意图理解 快速响应、内容生成、复杂规划
隐私模式 全流程本地推理,零数据出设备 涉密文件、财务凭证、医疗记录

尤其在‘隐私模式’下,Marvis仍能执行:

  • 文件内容语义搜索(基于本地向量索引);
  • 文件自动分类与标签生成;
  • 屏幕内容实时摘要(通过端侧LLM);

——这打破了‘本地AI能力弱’的认知惯性。


三、跨端统一交互:手机如何遥控电脑?

Marvis最令人惊叹的场景,是其跨端无缝协同能力

你正在地铁上收到老板消息‘那份方案有没有更新?’,无需登录电脑。只需打开手机Marvis App,说一句:

‘把最后一页PPT截图发我,再同步下云端备份的2024版’

——电脑端立即执行:

  1. Auto Agent定位本地PPT文件(基于记忆路径:‘市场部/2025Q2/终版.pptx’);
  2. 渲染第32页并生成1080p截图;
  3. 调用OneDrive/腾讯微云API同步最新版至云端;
  4. 自动将截图+下载链接打包至微信消息草稿;

这一套动作全程由手机端指令触发,电脑端Agent自主完成,无须用户干预。

其技术基石在于:

  • MCP on Windows协议深度集成:通过微软ODR(On-Device Registry)注册系统级服务代理,Marvis可直接操作注册表项与内核API;
  • 跨端动作映射引擎:将手机端触摸手势、语音指令转换为Windows快捷键、PowerShell命令或COM自动化脚本;
  • 状态同步协议:采用轻量级WebSocket协议加密传输任务队列,延迟控制在150ms内。

实测显示,从手机发出指令到电脑完成截图,端到端耗时平均1.8秒,比远程桌面启动更快、更稳定。


四、安全与伦理:AI‘自作主张’的底线在哪里?

当AI开始自主调用系统权限、批量删除文件、甚至修改注册表,安全机制必须前置。

Marvis设计了L2级安全兜底体系:

  1. 硬垂询(Hard Confirm)强制层

    • 涉及资金操作、系统配置修改、批量删除等动作时,弹出经过数字签名的确认框;
    • 该弹窗无法被第三方应用覆盖,需用户物理点击确认;
    • 示例:当执行‘清空回收站’指令,系统将触发蓝底白字的安全确认框,且标注风险等级。
  2. 操作日志区块链存证

    • 关键操作记录哈希值并上传至腾讯链(测试网),确保操作可追溯、不可篡改;
  3. 动态权限沙箱

    • 每个Agent仅持有任务所需最小权限集;
    • File Agent可读文件但不能修改系统配置;
    • Computer Agent可调用CMD但不能访问用户私人文档——除非主Agent在上下文中授权。

这种‘权限最小化+关键操作二次确认’的设计,已成为国内AI Agent产品的安全标杆。


五、研发哲学:‘自下而上’如何反超‘自上而下’?

Marvis的诞生,源于腾讯应用宝团队14年积累的底层能力:

  • 2011年起深耕应用分发与安装包解析;
  • 2019年启动跨端兼容引擎项目(最终演变为Marvis的跨端控制器);
  • 2023年正式立项‘终端智能化’,初期聚焦‘文件理解’与‘格式自适应’;

这种‘自下而上’的路径,与多数AI公司‘先建大模型,再找场景’的思路截然不同。其优势在于:

方向 自上而下(大模型驱动) 自下而上(系统驱动)
技术起点 大模型泛化能力 文件格式/系统API/硬件特性
问题解决逻辑 先理解意图,再匹配动作 先预判任务,再优化动作链
本地化能力 弱,需云端协作 强,天然适配端侧部署
用户行为契合度 中等(通用但低效) 高(贴合真实任务流)

正如产品负责人所言:

‘我们不是在AI里加系统,而是在系统里加AI。’

正因如此,Marvis能真正做到:

  • 读取Word自动识别‘合同/简历/报告’类型;
  • 在任务栏图标中实时标注‘当前文件是否被AI修改过’;
  • 识别用户正在写的方案类型,自动同步最新行业术语库。

结语:系统级AI助手的未来已来

Marvis并非终点,而是新纪元的起点。当AI助手从‘工具’进化为‘数字分身’,人机关系将发生本质转变——

  • 用户不再‘使用工具’,而是‘指挥协作者’;
  • 工作流不再靠记忆串联,而是靠意图自然触发;
  • 操作系统不再仅是资源调度者,更是智能决策节点。

腾讯Marvis迈出的关键一步,是让AI真正‘住在’设备里,而非‘悬浮’在应用之上。这不仅是技术上的突破,更是对AI落地路径的一次重要校准: 当智能体深度嵌入系统底层,它便不再是工具,而成为用户数字生命的延伸。

未来已来,只是尚未流行——而Marvis,正在加速这一过程。