Proto语言:让生命设计像编程一样,开启合成生物学新范式
长期以来,生物学研究被视为一门“经验科学”。科学家们习惯于在自然界现有的生物组件库中进行挑选、组合,再通过高成本、长周期的“构建-测试-学习”循环来验证功能。这种类似于“生物考古”的模式,不仅效率低下,更严重依赖运气与专家直觉。然而,随着生成式人工智能在计算领域的爆发,一种全新的范式正在诞生:生物学正在从“发现”走向“编程”。
斯坦福大学与Arc研究所的Brian Hie及其团队近日发布的Proto编程语言,正是这一转折点的标志性成果。Proto不仅仅是一个软件工具,它是一套用于生成式生物学的高级编程框架,旨在让科学家能够像编写计算机代码一样,精准地设计和创造生命系统。这一突破性工作将多种封闭的AI模型整合在一个统一的工作流中,实现了从DNA序列到蛋白质结构,再到复杂调控逻辑的全链路设计。

解构生命:从试错到定义原语
Proto的核心创新在于其对生物设计任务的抽象能力。传统生物工程设计缺乏统一的语法标准,而Proto借鉴了计算机科学的思维,将复杂的生物设计过程简化为四个基本的“原语”(Primitive):序列、约束、生成器和优化器。这种模块化设计使得生物设计变得像搭积木一样灵活且可预测。
首先是序列(Sequence)。在Proto中,DNA、RNA或蛋白质被抽象为最基本的字符串变量。这不仅是数据的载体,更是计算的基本单元。通过标准化的序列表示,不同来源的生物数据得以在同一平台上进行交互和处理。
其次是约束(Constraint)。这是设计任务中的“裁判”。约束可以是简单的统计指标,如GC含量或熔点温度,也可以是复杂的深度学习预测模型,如AlphaFold结构预测器。约束函数通过评分机制判断序列的优劣,分数越低往往意味着越符合设计要求。Proto允许约束条件以线性组合的方式叠加,形成“专家乘积”,从而支持多目标同时优化。这意味着研究者可以同时追求结构稳定性、结合亲和力以及表达特异性等多重目标。
生成器(Generator)则充当“创造力引擎”。它可以是预训练的大语言模型(如Evo2),负责提出具有高生物合理性的候选序列;也可以是扩散模型,用于在连续的潜在空间中采样。生成器确保生成的序列不会偏离生物学的自然分布,避免出现无意义的随机字符串。
最后是优化器(Optimizer)。作为智能筛选引擎,优化器通过迭代循环,结合生成器和约束的反馈,不断调整序列参数,直至找到满足所有约束条件的最优解。这种迭代机制极大地提高了设计成功率,减少了实验验证的盲目性。

理论基石:能量模型与概率分布
Proto的强大并非凭空而来,其背后有一套严谨的数学框架支撑。研究团队将生物设计过程建模为一个基于能量的概率模型。其核心公式为:目标分布正比于生成器先验分布乘以约束得分的指数函数。
这一公式蕴含了深刻的平衡哲学。生成器先验保证了序列的“生物合理性”,确保生成的DNA或蛋白质在物理化学性质上是可行的;而约束得分则推动序列向特定的“功能优越性”进化。公式中的温度参数(Temperature)充当了调节旋钮,控制着探索(Exploration)与利用(Exploitation)之间的平衡。较高的温度允许更多的随机性,有助于跳出局部最优解;较低的温度则聚焦于高概率区域,加速收敛。
这种基于能量的建模方式使得Proto能够处理极其复杂的约束组合。例如,在设计一个既要在特定细胞中表达,又要避免免疫原性的蛋白质时,Proto可以并行处理多个相互制约的约束条件,找到全局最优的序列空间。这种数学上的优雅性,使得Proto在处理多模态、多尺度的生物设计问题时,展现出远超传统方法的鲁棒性。
实验验证:从代码到细胞的成功转化
理论的生命力在于实践。Proto团队通过一系列严谨的实验,证明了其设计程序的可行性和高效性。这些案例不仅展示了Proto在单一元件设计上的能力,更揭示了其在复杂系统构建上的潜力。
案例一:细胞特异性可变剪接设计
基因表达的关键环节之一是RNA的可变剪接,它决定了最终产生哪种蛋白质异构体。传统方法难以精准调控这一过程,往往需要筛选成千上万条序列。利用Proto,研究团队设计了能够在不同人类细胞系中实现差异化剪接的内含子序列。
实验结果显示,在仅测试65个候选序列的情况下,有32%表现出显著的目标方向差异剪接。这一成功率远超此前类似研究中不到7%的水平(后者测试了超过10万条序列)。其中,名为PI-KS1的设计展现出了惊人的特异性:在SH-SY5Y神经细胞中,仅有36%的转录本被剪接;而在K562白血病细胞中,这一比例高达71%。这种精准的细胞类型特异性调控,为疾病治疗提供了新的调控手段。

案例二:跨模态协同设计启动子-阻遏蛋白对
Proto的另一个突破在于其跨模态协同设计能力。传统方法通常分别设计DNA元件和蛋白质,难以保证两者的完美匹配。Proto则允许同时优化DNA序列和蛋白质序列,以实现最佳相互作用。
研究团队设计了全新的σ70启动子(ProtoPromoter),并在86个候选中,有71个的活性超过了已知的强启动子PLtetO1。更令人印象深刻的是,团队针对这些启动子设计了配套的阻遏蛋白(ProtoRepressor)。设计成功率达到46%,其中最强的设计ProtoRepressor 44_9对其目标启动子展现出2倍的抑制效果,而对非目标启动子几乎没有影响。这种高特异性的正交调控系统,是构建复杂基因回路的基础。
案例三:AI智能体驱动的复杂系统重构
Proto还集成了通用AI智能体,使得自然语言成为设计生物系统的接口。研究人员只需描述需求,AI即可自动编写Proto程序。这一功能在复杂系统设计中展现了巨大威力。
团队利用该方法完成了三项极具挑战性的任务:首先,设计了249个人类蛋白质复合体,涵盖797个基因,所有设计的结构预测与天然结构高度一致(中位RMSD仅1.9埃);其次,重新设计了β2-肾上腺素信号通路,涉及8种蛋白质、多种小分子配体和DNA元件;最后,设计了针对非小细胞肺癌的多层调控治疗载体,涵盖了从肿瘤特异性识别到转录、剪接及翻译后调控的全链条设计。
工程化挑战与开源生态
Proto的成功不仅源于算法创新,更得益于其工程化的坚实基础。当前的生物学AI工具生态碎片化严重,每个模型都有独立的依赖库、硬件要求和数据格式,极大地阻碍了工作流的整合。Proto团队投入巨大精力,建立了一套标准化的基础设施,目前支持超过120种不同的生物计算工具。
为了促进技术的广泛传播,研究团队已将Proto完全开源,包括Python API、图形用户界面(GUI)以及云端执行环境。任何人访问proto.evodesign.org即可开始使用。这种开放策略旨在建立一个类似Linux或Python的生物编程生态,鼓励全球科学家共同贡献模块、优化算法,加速生成式生物学的普及。
未来展望:创造力成为唯一限制
Proto的发布标志着生物学设计进入了一个新的阶段。正如Verilog和C语言推动了集成电路和软件工程的规模化发展,Proto有望成为生物系统设计的“通用语言”。它将生物学家从繁琐的实验试错中解放出来,将工作重心转向更高层级的逻辑设计和创新构思。
当然,Proto并非万能。目前最大的瓶颈依然在于实验验证。再完美的计算设计,也需要在真实的细胞环境中检验其功能。测序技术、基因合成成本和细胞工程水平的提升,正在逐步缩小计算与实验之间的差距。随着生成式模型精度的提高和AI智能体推理能力的增强,Proto所能设计的生物学功能在范围、规模和可靠性上都将实现质的飞跃。
未来的生物学设计,将不再受限于自然界已存在的元件列表,而是受限于人类的创造力。Proto只是这一宏大叙事的第一章,它开启了一个“设计即合成”的新时代,让我们有望以更低的成本、更高的效率,定制解决能源、健康和环境问题所需的生物系统。在这场生命编程的革命中,代码与生命的边界正逐渐消融,而新的可能性正无穷延伸。