
在当前的移动互联网生态中,自动化操作技术一直面临着来自各方的阻力。当用户期望通过智能助手完成"点一杯奶茶"、"在京东上买一个篮球"或"在猫眼上买一张电影票"等简单需求时,往往会发现现有的解决方案存在诸多限制。豆包手机与各家APP的控制权争夺尚未平息,而现有的自动化工具在跨端操作方面仍然力不从心。
技术路线的根本差异

在实现跨端自动化任务的技术路径上,市场上主要存在三种不同的解决方案,每种方案都有其独特的技术逻辑和局限性。
高权限合作模式的代表是豆包手机,通过与手机厂商深度合作获得系统级权限。这种模式的优势在于可以绕过用户授权环节,直接实现底层操作。但问题在于,这种"特权"模式极易引发APP厂商的抵制,导致后续的封禁措施。从技术生态的角度看,这种依赖特定厂商合作的模式缺乏普适性。
远程虚拟机方案以智谱开源的AutoGLM为例,基于adb协议在虚拟机环境中操作手机。虽然技术上可行,但需要用户在云端虚拟机中运行,存在信任成本高、延迟明显等问题。更重要的是,这种方案无法直接在用户设备上运行,使用体验大打折扣。
无障碍服务方案正是ZeroFlow选择的技术路径。Android系统的无障碍服务原本是为视障用户设计的辅助功能,却意外地为自动化操作提供了合法通道。申请该权限后,Agent可以读取屏幕内容,获取界面元素信息,并模拟人类操作手势。这种方案的最大优势在于其"无法被封杀"的特性,因为它是Android系统层面的标准功能。
工程实现的技术挑战

虽然基于无障碍服务的原理听起来简单,但实际的工程实现却面临着多重挑战。张志勇在技术分享中提到,国内互联网产品的反自动化设计给技术实现带来了巨大障碍。
网页设计中的"元素隐藏"技术是一个典型例子。很多网站为了防止自动化操作,会将真实的交互元素放置在远离视觉位置的地方,或者使用复杂的DOM结构进行混淆。从纯代码角度理解这些页面变得异常困难,但多模态模型通过视觉理解能力可以相对轻松地识别这些模式。
另一个关键技术难点在于截图效率的优化。单文榜指出,网页上的广告弹窗、自动跳转等干扰因素会严重影响多模态模型的理解准确性。如果依赖最强的多模态模型,虽然能获得最佳效果,但Token成本会让普通用户难以承受。因此,如何在保证准确性的前提下,使用更经济的模型和更少的截图次数,成为了工程优化的核心课题。

安全与成本的平衡艺术
在AI Agent领域,安全性和使用成本始终是两大关键考量因素。ZeroFlow在这两个维度上都做出了创新性的设计。
安全隔离机制是ZeroFlow的重要特色。借鉴OpenClaw的开源理念,团队设计了沙箱隔离+小模型脱敏的双重保护机制。在workspace层面,用户的敏感信息如密钥等被隔离隐藏,即使是AI本身也难以直接访问。同时,专门的小模型负责监控所有信息交互,对敏感内容进行实时脱敏处理。这种设计确保了用户隐私在多轮交互中的安全性。
成本优化策略同样值得关注。ZeroFlow针对国内主流大模型进行了深度工程调优,不仅改善了工具调用的流畅度,更重要的是将提示词长度平均缩短了近40%。这一优化直接带来了Token成本的大幅降低,据张志勇透露,普通用户的使用成本可降低约30%。这种成本控制对于产品的商业化推广具有重要意义。

从专用工具到通用平台的演进
ZeroFlow的诞生并非一蹴而就,而是建立在团队长期的技术积累之上。当大语言模型技术刚刚兴起时,张志勇和单文榜团队就开始探索编程智能体的开发。他们最初的目标很具体:帮助工程师从繁琐的编码细节中解放出来,将精力集中在创造性工作上。
这个内部孵化的编程智能体经历了从GPT-3.5时代的简单提示词工程,到具备多轮对话记忆、工具调用、代码审查等完整功能的演进过程。在这个过程中,团队积累了关于"如何让智能体真正理解人类意图并持续执行"的方法论体系。
当OpenClaw等通用Agent开始流行时,团队意识到他们多年来打磨的技术框架具有更广泛的应用价值。"如果这套方法论能让工程师效率倍增,它为什么不能让每一个行业的每一个人都获得同样的解放?"这种思考促使他们将专用工具升级为通用平台。
技术产品的市场定位

在谈到与大厂的竞争关系时,张志勇表现出相当的自信。他认为,大厂由于自身生态的局限性,很难实现真正的跨平台自动化操作。一旦某家大厂推出类似产品,很容易遭到其他平台的针对性限制,这正是创业团队的优势所在。
ZeroFlow的市场定位十分清晰:降低普通用户使用AI Agent的门槛。单文榜强调,ZeroFlow不是编程助手的简单替代品,而是将智能体的核心范式迁移到了更广泛的知识工作场景中。无论是财务分析、运营流程、内容生产还是数据洞察,只要有重复性、逻辑性和输出要求的场景,都是ZeroFlow的应用领域。
在产品设计上,团队极度重视用户体验。整个部署过程遵循互联网产品的使用习惯,用户只需要打开浏览器注册账号即可开始使用。这种"零接入成本"的设计理念,与当前市场上大多数需要复杂配置的AI工具形成了鲜明对比。
技术发展的未来展望
从技术演进的角度看,ZeroFlow代表了一种重要的趋势:AI正在从单纯的对话工具向能够实际操作系统的智能体转变。这种转变不仅需要强大的多模态理解能力,更需要可靠的动作执行机制。
未来,随着多模态技术的进一步发展,我们可能会看到更加智能的跨端操作Agent出现。它们不仅能够完成预设任务,还可能具备学习能力和适应性,能够根据用户习惯优化操作流程。
在商业化方面,获得近千万天使投资的依零科技面临着产品完善和市场推广的双重任务。资金将主要用于进一步优化产品功能,特别是在模型适配性和用户体验方面的持续改进。
从更宏观的视角来看,ZeroFlow这样的技术产品正在重新定义人机交互的边界。当AI能够像人类一样操作各种应用程序时,我们工作的方式和效率都将发生根本性的改变。这种变化不仅关乎技术本身,更关乎如何在这种新技术环境下重新思考人的价值和创造力。











