
在当前的智能体应用场景中,随着对话轮数的增加和上下文长度的扩展,KV-Cache的命中率通常能够达到95%以上。这意味着每一轮对话都需要搬运大量的历史数据,推理性能的瓶颈已经从纯粹的计算能力转向了数据搬运效率。DeepSeek最新提出的DualPath框架正是针对这一挑战而设计的创新解决方案。
传统架构的局限性
在现有的预填充-解码分离架构中,所有的数据加载任务都集中在预填充引擎的存储网卡上,导致带宽瞬间达到饱和状态。与此同时,解码引擎的存储网卡往往处于闲置状态,造成了明显的资源错配。这种单一路径的设计在短文本场景下尚可应对,但在长文本智能体推理中却暴露出了严重的性能瓶颈。

更值得关注的是,当前GPU算力的增长速度远远超过了网络带宽和HBM容量的提升速度,这使得I/O限制问题变得更加突出。正如业内专家反复强调的那样,计算成本正在不断降低,但数据移动的成本却相对较高。
双路径架构的技术实现
DualPath框架的核心创新在于打破了传统的单路径思维,引入了存储至解码引擎的第二条数据加载路径。这种设计允许KV-Cache先加载到解码引擎中,再通过高性能的RDMA网络传输至预填充引擎。

具体而言,系统包含两条不同的数据路径:路径A遵循传统模式,将缓存直接读入预填充引擎;路径B则是创新性的设计,缓存先进入解码引擎的缓冲池,再传输给预填充引擎。这种双路径设计使得系统能够根据实时负载情况动态选择最优的数据传输路线。
在架构组成方面,DualPath包含三个关键组件:推理引擎负责GPU资源管理,严格区分预填充和解码功能;流量管理器处理各种数据拷贝和传输操作;中央调度器则扮演决策大脑的角色,实时优化路径选择策略。
存储至解码路径的精细设计
为了实现高效的层级流式处理,DualPath在预填充引擎和解码引擎上都分配了适量的DRAM缓冲区。针对不同的处理阶段,系统设计了精细化的数据流控制机制。
在预填充引擎读取路径中,命中的KV-Cache从存储设备读入预填充缓冲区。在每层计算开始前,相应的缓存会被传输至预填充引擎的HBM内存中,这个过程与计算操作可以重叠执行,最大化利用系统资源。计算完成后,完整的KV-Cache会被传回解码引擎缓冲区,形成完整的上下文环境。
而在解码引擎读取路径中,KV-Cache直接进入解码引擎缓冲区。在预填充阶段,对应的缓存层会通过跨节点传输到达预填充引擎的HBM内存,同样实现计算与传输的重叠执行。这种设计减少了数据传输的复杂度,提高了整体效率。
流量管理与调度优化
双路径设计虽然带来了性能提升的可能性,但也引入了新的挑战,特别是当缓存搬运流量与模型计算通信发生冲突时。DualPath通过两套优化方案有效解决了这一问题。
首先是以计算网卡为中心的流量管理策略,强制所有流量通过配对的计算网卡走GPUDirect RDMA路径。在InfiniBand或RoCE网络中,利用虚拟层技术将推理通信设置为最高优先级,并预留99%的带宽资源,确保缓存搬运操作只能在通信间隙中利用剩余带宽,从而避免相互干扰。

其次是自适应请求调度器的设计,该调度器实时监控每个节点的磁盘队列长度和Token数量。系统会优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞问题。这种动态调度机制确保了资源的高效利用。
实际性能表现
在DeepSeek-V3、Qwen等主流模型上的测试结果表明,DualPath框架在多种场景下都表现出了显著的性能提升。在离线推理任务中,端到端吞吐量最高提升了1.87倍;在线服务场景下,平均吞吐量提升达到1.96倍。
更重要的是,系统在高负载情况下仍然能够保持优异的响应性能。首字延迟得到了大幅优化,而Token间的生成速度几乎不受任何干扰,这体现了框架在保证服务质量方面的优势。
技术创新的深远影响
DualPath框架的成功实践证明了通过重新思考数据加载路径可以有效突破当前大模型推理的I/O性能瓶颈。这种软件层面的创新在不增加硬件成本的前提下,充分利用了解码引擎原本被浪费的I/O带宽资源。

该技术的意义不仅限于当前的智能体应用场景,更为未来大模型推理系统的发展指明了方向。随着模型规模的不断扩大和应用场景的日益复杂,类似的架构创新将在提升系统效率方面发挥越来越重要的作用。
从技术演进的角度来看,DualPath代表了一种新的优化思路:不再仅仅关注单一组件的性能提升,而是从系统整体角度出发,通过优化数据流动路径来释放潜在的性能潜力。这种全局优化的理念值得在更多领域推广应用。
未来发展展望
基于DualPath框架的成功经验,我们可以预见几个重要的发展趋势。首先,类似的路径优化技术可能会扩展到更多的数据处理场景,如图像生成、视频处理等需要大量数据搬运的应用领域。
其次,随着硬件技术的不断进步,特别是网络带宽和存储性能的持续提升,双路径架构的优化空间还将进一步扩大。未来可能会出现更加精细化的多路径数据流动策略,实现更极致的性能优化。
最后,这种架构创新的思维方式也启示我们,在追求硬件性能提升的同时,更应该关注系统层面的协同优化。通过软件架构的创新,往往能够以更低的成本获得更大的性能收益。

DualPath框架的研发团队来自DeepSeek系统组,他们在下一代模型的推理基础设施建设方面积累了丰富经验。团队专注于大规模软件系统在多硬件平台上的性能优化,这一研究方向正好契合了当前AI基础设施发展的关键需求。

从技术实施的角度来看,DualPath框架的成功离不开对现有硬件特性的深入理解和巧妙利用。通过挖掘解码引擎闲置网卡的潜在价值,团队实现了以软件创新驱动硬件效率提升的目标。这种技术路线对于资源受限环境下的性能优化具有重要的参考价值。
在实际部署过程中,DualPath框架展现出了良好的兼容性和可扩展性。系统能够适应不同的硬件配置和工作负载特征,通过自适应的调度策略实现动态优化。这种灵活性使得该技术能够广泛应用于各种规模的推理场景。
从行业影响的角度分析,DualPath框架的推出标志着大模型推理优化进入了一个新的阶段。传统的优化手段主要关注计算效率的提升,而现在则需要更多地考虑数据流动的效率问题。这种转变反映了AI基础设施发展的重要趋势。
对于开发者而言,DualPath框架提供了宝贵的技术借鉴。其核心思想——通过路径优化释放系统潜力——可以应用于各种性能敏感的应用场景。特别是在资源受限的环境中,类似的架构创新往往能够带来意想不到的性能提升。
从长远来看,DualPath所代表的技术方向还将继续演进。未来可能会出现更加智能的路径选择算法,能够根据实时工作负载特征自动调整优化策略。同时,随着新型硬件技术的出现,路径优化的具体实现方式也可能发生重要变化。
总之,DualPath框架的成功实践不仅解决了一个具体的技术难题,更重要的是为整个行业提供了新的优化思路和方法论。这种以系统架构创新驱动性能提升的模式,将在未来的技术发展中发挥越来越重要的作用。











