从0到1:021科学基础模型如何重构多领域科研范式

2

近日,浙江之江实验室发布的021科学基础模型在杭州举办的创新合作大会上全面亮相,这款被誉为'人工智能皇冠上的明珠'的创新成果,不仅覆盖基因组、天文、地学等多个科学领域,更实现了全球首个百亿级人类基因组基础模型Genos的开源。这一系列突破标志着AI正从辅助科研工具向重构科研范式的关键角色转变,为全球科学研究带来了全新可能。

科学基础模型的革命性突破

021科学基础模型以'从0到1'为核心理念,构建了跨学科知识、跨领域推理、跨语言理解(覆盖204种语言)三大基石,具备出色的科学推理能力,能够深入分析、推导、验证多类科学问题。

中国工程院院士、之江实验室主任王坚曾形象地比喻:'如果基础模型是人工智能的皇冠,那么科学基础模型就是人工智能皇冠上的明珠。'这一比喻凸显了科学基础模型在AI领域的重要地位。

之江实验室科学模型总体部技术总师薛贵荣进一步解释,科学数据涵盖时间、空间、能量等多个维度,是对复杂物理系统演变规律的高维表征。为解决科学问题,科学界需要突破语言空间的局限,研发科学基础模型,构建'科学空间+语言空间'于一体的更高维空间,建立跨学科数据之间的深层连接,变革科学研究范式。

中国工程院院士、之江实验室主任王坚

为实现这一目标,之江实验室研发团队探索将科学数据和文本语料编码到统一的高维空间,让模型能够识别、处理科学数据,认识并解决复杂科学问题。经过近万次实验,团队形成了模型训练框架,包括预训练、后训练、强化学习等,并完成了2360亿参数规模的021科学基础模型训练。

这一规模庞大的模型训练过程不仅展示了之江实验室在AI领域的深厚技术积累,也体现了其对科学基础模型未来发展的坚定信念。021不仅是'zero to one'的简写,更是AI正在从辅助科研转向重构科研的符号。

跨学科人才培养与科研创新

在AI4S(AI for Science)的道路上,之江实验室通过与科学合作伙伴共同举办'种子班'来培养团队,让不同学科背景的人才聚集在一起,由专家级班主任带领,共同碰撞创新,在实战中完善、升级。截至目前,之江实验室已累计举办22期种子班,培育了900余名紧缺型AI人才。

这种跨学科的人才培养模式,打破了传统科研领域的壁垒,促进了不同学科之间的知识流动和创新融合。正如021模型所体现的核心理念,只有从0到1的突破,才能真正带来科研范式的革命性变革。

图片来源:之江实验室

生命科学领域的重大突破:Genos模型

在021模型的多领域应用中,生命科学领域的全球首个百亿级人类基因组基础模型Genos尤为引人关注。2023年10月23日,之江实验室与华大生命科学研究院在第二十届国际基因组学大会上联合发布并开源了这款大模型。

Genos模型支持多达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。这一技术突破对于基因组学研究具有重要意义,因为传统的基因组分析方法往往受限于短序列读取,难以处理长链DNA中的复杂结构变异。

Genos整合了人类泛基因组参考联盟(HPRC)和人类基因组结构变异图谱计划(HGSVC)等资源,基于636个'端粒到端粒'级别高质量人类基因组数据进行训练,覆盖全球不同人群。这一大规模的数据集为模型提供了丰富的学习素材,使其能够更好地理解人类基因组的多样性和复杂性。

在技术架构上,Genos模型采用混合专家(MoE)架构,通过'按需激活'机制降低推理成本,在致病性突变解读任务中准确率达92%,结合科学基础模型后提升至98.3%。这一准确率远超传统基因组分析方法,为精准医疗和疾病研究提供了强大工具。

Genos模型提供12亿和100亿参数两个版本,已在GitHub、Hugging Face及魔搭等平台开源,并集成至DCS Cloud云平台提供免费推理服务。这种开源策略不仅促进了科学研究的开放共享,也为全球科研人员提供了便捷的工具支持。

地学领域的创新:GeoGPT模型

在地学领域,之江实验室向全球开源了地球科学大模型GeoGPT。该模型基于021科学基础模型研发,目前已进行了数次迭代,支持图像描述总结、图像信息提取、地理空间推理、地学分析推理等典型任务,通过融合深时地球数据与智能算法,提升地学研究效率。

地球科学研究涉及大量时空数据,传统的分析方法往往难以处理这些高维、多尺度的数据。GeoGPT模型的开发,正是为了解决这一挑战,通过深度学习技术,从海量地球科学数据中提取有价值的信息和模式。

GeoGPT的应用范围广泛,从气候变化研究到地质灾害预测,从资源勘探到环境监测,都能发挥重要作用。特别是在应对全球气候变化这一重大挑战时,GeoGPT模型能够帮助科学家更好地理解地球系统的复杂动态,为制定有效的应对策略提供科学依据。

天文领域的突破:OneAstronomy模型

同样基于021基础模型打造的,还有之江实验室联合中国科学院国家天文台研发的天文领域科学大模型OneAstronomy。该模型能够实现跨模态融合推理,重构数据处理范式,释放望远镜自主观测潜力,推动实现'观测即发现'。

OneAstronomy模型于2023年9月被列为全球科技公共产品,服务于开放科学行动。这一认可不仅体现了OneAstronomy在天文研究中的重要价值,也彰显了中国在全球科学治理中的贡献。

现代天文观测产生了前所未有的海量数据,传统的人工分析方法已难以应对。OneAstronomy模型通过自动化和智能化的数据处理,大大提高了天文研究的效率,使科学家能够专注于科学发现本身,而非繁琐的数据处理工作。

材料科学领域的应用:OnePorous模型

在材料学领域,021科学基础模型打造出了多孔合金材料模型OnePorous。该模型可根据材料性能需求,逆向生成新型多孔结构,目前已应用于3D打印卫星主体结构制造。

材料科学是现代工业和科技发展的重要基础,而新型材料的研发往往依赖于大量的实验尝试和试错。OnePorous模型通过逆向设计方法,大大缩短了新材料研发周期,降低了研发成本。

特别是在航空航天领域,轻质高强的材料需求迫切。OnePorous模型生成的多孔合金材料,不仅具有优异的力学性能,还能通过3D打印技术实现复杂结构的精确制造,为卫星等航天器的设计提供了新的可能性。

AI4S:全球科研新趋势

自去年诺贝尔化学奖和物理学奖均授予了与AI密切相关的研究者后,AI4S就被普遍认为是AI大模型的又一进阶之路。各大高校和科研院所对AI4S探索步伐加速的同时,政策也在持续加码。

2023年11月,美国总统特朗普签署行政令启动AI'创世纪计划',试图利用人工智能变革科学研究方式、加速科学发现,生物技术、关键材料、先进制造业等均是重点领域。

这一政策动向表明,AI4S已成为全球科技竞争的新焦点。各国纷纷加大在这一领域的投入,以期在未来的科技革命中占据有利位置。

不止于学术界,包括谷歌、微软、Meta等全球科技巨头,也在这一领域进行了重点布局。其中,谷歌DeepMind的Alpha系列大模型一直被视为领军者,该模型近年来在蛋白质结构预测方面的突出表现,已成为了AI4S的典型案例。

面临的挑战与未来展望

尽管AI4S领域取得了显著进展,但目前大模型对科研领域的助力,覆盖范围还有所局限。在这一方向上,人才、科学数据的搜集整合、不同前沿学科的交融等问题亟待解决,并且极度缺少既往成功经验和案例可参考。

人才方面,AI4S需要既懂AI技术又熟悉专业科研领域的复合型人才,这类人才目前仍然稀缺。之江实验室通过'种子班'模式培养人才的做法,为解决这一问题提供了有益借鉴。

科学数据方面,高质量、大规模、标准化的科学数据集仍然不足。许多科研领域的数据分散在不同机构,格式不一,难以整合利用。建立开放共享的科学数据平台,是推动AI4S发展的重要基础。

学科交融方面,传统科研领域的壁垒仍然存在,不同学科之间的语言和方法论差异,使得跨学科合作面临挑战。构建'科学空间+语言空间'的高维模型,如021科学基础模型所尝试的,是解决这一问题的可能途径。

未来,随着技术的不断进步和应用的深入,AI4S有望在更多领域发挥重要作用,从基础科学到应用技术,从理论研究到产业创新,都将迎来新的发展机遇。之江实验室的021科学基础模型及其系列领域模型,正是这一趋势的重要体现。