全面理解人类基因组!谷歌DeepMind推出新DNA模型AlphaGenome
2025-07-15 15:21:20
围观 : 137 次
0 评论
2020年,谷歌DeepMind打造的蛋白质预测模型AlphaFold 2横空出世,其惊人的准确率一举解决了困扰生物学界数十年的“结构预测难题”。从初代AlphaFold到功能更强大的AlphaFold 3,该模型实现了跨越式进化,大幅推动了蛋白质三维结构预测的发展,并凭此斩获2024年诺贝尔奖。2025年6月25日,DeepMind再次发布重磅成果,全新AI模型AlphaGenome正式问世。与AlphaFold聚焦蛋白质结构预测不同,AlphaGenome旨在解码人类基因组中被称作“暗物质”的非编码区域,这部分占据人类基因组98%的“空白地带”,虽然不编码蛋白,却深度参与基因调控,且蕴藏着大量与疾病相关的遗传变异。AlphaGenome是首个可同时处理百万碱基长DNA序列,并以单碱基分辨率输出多种调控特性预测结果的AI模型,为破解“从序列到功能”的难题提供了前所未有的技术路径。该成果以论文形式发布于预印本平台,论文标题为AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model.论文链接>>https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf人类基因组由约31亿个DNA碱基对组成,承担着指导生命发育、调控细胞功能、决定个体特征的重要职责。尽管基因测序已趋于成熟,我们对基因组的理解仍局限于冰山一角。当前科学已明确,约2%的基因组序列编码蛋白,其余98%的非编码序列尽管不直接转录为蛋白质,却在转录调控、RNA剪接、染色质构象等过程中扮演关键角色。正是在这些非编码区域中,潜藏着大量调控元件如增强子、沉默子、绝缘子和剪接信号,它们是决定基因何时何地表达的“开关”。大量研究已表明,非编码突变是许多疾病的重要致病因素。尽管非编码区如此重要,其功能解析却极具挑战性。主要难点在于:一方面,传统计算模型很难在分析长达数十万甚至上百万碱基的远程调控区域的同时,保留对单碱基变化的敏感性;另一方面,非编码区所承载的调控功能极为复杂,涉及基因表达量、剪接模式、染色质可及性、转录因子结合位点等多个维度,单一模态建模方法难以胜任。AlphaGenome的诞生,正是为破解上述难题而设计的。它不仅突破了序列长度与分辨率之间的权衡瓶颈,还将多种调控模态整合到一个统一的AI框架中,标志着“从序列到功能”的建模能力跃升至一个全新高度。AlphaGenome是一个以DNA序列为输入,预测多种基因调控相关分子特性的深度学习模型。它能够接受长达100万碱基对的DNA序列作为输入,分析其中隐藏的调控逻辑,并对单碱基变异带来的功能性影响进行高分辨率预测。(AlphaGenome将一百万个DNA碱基作为输入,并预测不同组织和细胞类型中的多种分子特性;图片来源:DeepMind)具体来说,AlphaGenome可预测以下关键分子特征:AlphaGenome的神经网络结构可分为三个层次:模型输入为最长1,000,000个碱基的DNA序列,通过独特的碱基编码和位置编码机制保留了序列的空间位置信息。这一长度足以囊括目标基因及其上下游远程调控元件(如增强子和绝缘子),为捕捉复杂的调控关系提供了数据基础。2. 特征提取层:卷积层与Transformer的协同工作卷积神经网络(CNN)层:首先对局部序列进行编码,识别出短程的调控信号,例如剪接信号序列或转录因子结合基序。该模块采用不同大小的卷积核,提升了对不同尺度序列模式的识别能力。Transformer层:基于自注意力机制,Transformer模块能够建模任意两个碱基之间的潜在相互作用,进而学习出长距离的调控依赖关系。这一机制是捕捉“基因远端调控元件作用于转录起始位点”等现象的关键。通过多任务学习框架,模型将提取到的序列特征转化为不同模态下的预测输出,涵盖基因表达量、RNA剪接位点、染色质结构、蛋白质-DNA相互作用等多个生物过程。这一设计不仅提升了预测精度,也使模型能够在统一框架下实现多维度的调控信息整合。(AlphaGenome的模型架构、训练方案与综合评估性能;图片来源:DeepMind论文)AlphaGenome的训练数据来源广泛,包括ENCODE、GTEx、4D Nucleome和FANTOM5等国际高水平数据库,这些项目覆盖了数百种人类与小鼠的组织和细胞类型,提供了多模态、多条件下的实验数据支持。如此丰富的训练样本,不仅保证了模型的预测广度和精度,也使其具备良好的泛化能力,能适用于更广泛的研究背景。AlphaGenome在多个技术维度实现了对现有模型的超越。以往的序列模型常需在序列长度和预测精度之间做出妥协,AlphaGenome通过优化模型结构和计算效率,首次实现了对百万级碱基长度的全序列分析,并保持对单个碱基变异的精准响应。这一能力使得模型可分析远距调控元件与基因表达之间的因果联系,为变异解释与疾病机制研究带来突破。AlphaGenome能够同时预测包括基因表达、RNA剪接、染色质可及性、蛋白结合位点等在内的多种调控模态。这种联合建模的方式大大拓宽了模型适用范围,使其可用于从基础生物研究到临床前疾病模型建立的多种场景。该模型支持输入突变前后序列,通过比较两者在各调控模态下的预测结果,对变异可能造成的功能性影响进行评分。该机制不仅高效灵活,还允许采用不同策略生成特异性解释,从而适配不同科研需求。AlphaGenome是首个可直接预测剪接位点及其使用强度的模型。该功能对研究RNA剪接异常相关的遗传病具有重要价值,例如脊髓性肌萎缩症、囊性纤维化等。模型无需额外实验测序,即可预测剪接异常的产生与变异相关性,为分子诊断与机制研究提供了新工具。尽管功能强大,AlphaGenome的训练过程在资源利用上却更加高效。其基础模型在无蒸馏优化的情况下,仅使用前一代模型Enformer一半的计算预算即可完成训练,时间缩短至4小时。这为未来模型迭代、边缘部署及大规模研究场景下的应用提供了可行性保障。AlphaGenome不仅在模型架构上实现了关键性突破,在实际性能评估中同样展现出远超前人模型的卓越表现。在一系列主流基准任务中,AlphaGenome取得了如下成果:- 在24项DNA序列功能预测任务中,AlphaGenome在22项任务中超越了当前最佳模型;
- 在26项遗传变异影响预测任务中,有24项结果达到或超过现有最高水平。
(AlphaGenome在不同的DNA序列和突变效应任务上的相对改进情况,与每个类别中当前最佳方法的结果进行了对比;图片来源:DeepMind)这些对比对象不仅包括多种主流通用模型,也涵盖了专为特定任务构建的精细化模型,例如专注于剪接预测、转录因子识别或染色质构象建模的工具。而AlphaGenome是其中唯一能够在多个模态任务中实现全面领先的通用型模型,进一步凸显了其广泛适用性与算法通用性。AlphaGenome所具备的全景式预测能力,为生命科学研究提供了一个功能强大且可广泛适配的计算工具。当前可预见的应用领域包括:针对罕见遗传病或复杂性状疾病,AlphaGenome可协助研究者识别功能性变异位点,精准预测其在多种调控层面上的潜在影响,帮助厘清致病机制,识别关键调控节点与候选治疗靶点。尤其在孟德尔遗传病研究中,该模型对于解释非编码区致病突变具有显著优势。在合成生物学领域,研究者可利用AlphaGenome预测不同DNA片段在特定细胞类型中的调控活性,从而实现合成调控元件的功能预测与优化。例如,定向设计仅在神经细胞中表达、但在肌肉细胞中静默的基因元件,为精准控制基因表达和构建安全有效的基因治疗载体提供技术支持。AlphaGenome能协助科研人员在全基因组尺度上识别调控性功能元件,包括启动子、增强子、剪接信号、转录终止位点等,有助于构建高分辨率的细胞类型特异性功能基因组图谱,推动人类基因调控网络的系统化解析。尽管AlphaGenome展现出前所未有的性能,其研究团队也明确指出,当前模型仍存在若干待改进之处:尽管模型已能处理百万碱基对长度的输入,但对于间隔超过10万碱基对的远距离调控关系,其建模能力仍存在盲区。AlphaGenome当前设计用于研究单个变异对分子层面的调控影响,尚未针对个体全基因组变异模式与表型间的关系进行系统优化,因此并不适用于当前临床环境下的个体基因解读或风险预测。模型训练数据来源于静态条件下的组学测定,难以反映细胞在发育、应激、分化等生理过程中发生的动态变化。当前模型主要基于人类与小鼠数据训练,泛化至其他物种(如斑马鱼、非人灵长类、植物等)的预测效果尚未充分评估。AlphaGenome的诞生标志着AI在基因组调控研究中的又一重要里程碑。作为目前少数具备同时处理超长序列、多模态预测与单碱基分辨率的统一模型,AlphaGenome不仅在性能上显著领先,更为科研人员提供了前所未有的研究工具。尽管尚未完全解决基因调控难题,其通用性和高效性为未来研究奠定了坚实基础。继AlphaFold之后,AlphaGenome有望成为AI驱动生命科学的又一引擎。随着技术迭代和数据积累,它有望进一步揭开基因组调控的奥秘,助力精准医疗和生物技术创新。1、https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/2、https://www.nature.com/articles/d41586-025-01998-w3、https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdfVectorBuilder云舟生物是世界知名分子生物学家蓝田博士创办的基因递送领军企业,在全球设有10余家子公司和办事处,2023年晋升为全球独角兽企业。
云舟生物独创“载体家”平台,开启了个性化基因载体的商品化时代;目前已赋能全球130多个国家和地区,为超过7000家顶尖科研院校和制药公司提供服务,在QS前100高校的客户覆盖率达到了90%,全球TOP30药企的客户覆盖率亦超过90%,产品成果的全球文献引用量逾7000篇。
云舟生物的基因药物CRO、CDMO项目遍布北美、欧洲、日本等多个国家和地区,已成功助力全球数十个项目成功开展IIT或IND研究,其中GMP级别的质粒和慢病毒载体已获得美国FDA的IND正式批准,用于在美国的多中心临床试验。
云舟生物致力于系统性攻克基因递送行业的关键技术瓶颈,为行业和世界创造不可取代的价值。
发表评论