【导语】据《自然》杂志报道,谷歌DeepMind新推出的人工智能模型AlphaGenome,能够助力科学家解析基因组序列中的“暗物质”——非编码区,揭示其对细胞运作及癌症等疾病发生的影响。该模型通过大量基因组数据训练,实现了对非编码序列功能的预测,为解析人类基因组的未解之谜提供了新的工具。然而,其预测准确性和适用范围仍有待进一步提升和验证。
据《自然》报道,谷歌DeepMind新开发的人工智能(AI)模型AlphaGenome可以帮助科学家解析基因组序列中的“暗物质”——非编码区(qū),了(le)解(jiě)它(tā)们如何影(yǐng)响(xiǎng)细(xì)胞(bāo)内(nèi)部(bù)运(yùn)作并导致癌症等疾病的发生。目前,从事非商业工作的研究人员可以使用编程接口通过DeepMind的服务器访问该模型。这个AI模型在 6 月 25 日的预印本中进行了描述。

研究人员将大量基因组数据输(shū)入(rù)机(jī)器(qì)学(xué)习(xí)系(xì)统(tǒng),训(xun)练(liàn)它(tā)们(men)预(yù)测(cè)非(fēi)编(biān)码(mǎ)序(xù)列(liè)的(de)作(zuò)用(yòng)。图(tú)片(piàn)来(lái)源(yuán):JuSun/iStock via Getty
2001年(nián),《自(zì)然(rán)》发(fā)表(biǎo)由(yóu)美(měi)、英(yīng)、日(rì)、德(dé)、法(fǎ)、中(zhōng)六(liù)国(guó)科学家共同完(wán)成(chéng)的(de)人(rén)类基因组序列草图。然而直到现在,约31亿个碱基对中的许多仍然是待解之谜。
在长长的人类基因组序列中,98%是不直接参与蛋白质编码合成的基因,即非编码区,但它们可以影响蛋白质活性,并包含了大量与疾病相关的变异位点。这一部分尤其让科学家感到头疼。
弄清楚DNA序列的作用很难,因为没有现成的答案,就像AlphaFold预测蛋白质3D结构一样。从吸引一组细胞机器附着在染色体的特定部分并将附近的基因转录为RNA分子,到吸引影响基因表达发生地点、时间和程度的转录因子,单个DNA片段具有许多相互关联的作用。例如,许多DNA序列通过改变染色体的3D形状来影响基(jī)因(yīn)活(huó)性,从而限制或简化转录机器的访问。
几十年来,科学家开发了数十种AI模型来理解基因组。其中许多都集中在单个任务上,例如预测基因表达水平或确定外显子是如何被剪切并拼接到不同蛋白质中的。而AlphaGenome正是一个“一体化”解释DNA序列的工具。
AlphaGenome可以处理多达100万个DNA碱基,这可能包括一个基因和无数个调节元件,并能针对多种生物特性进行数千次预测。而且,AlphaGenome在预测过程中对单个DNA碱基的变化十分敏感,这意味着科学家可以预测突变的影响。
DeepMind研究人员利用AlphaGenome分析了先前研究中发现的一种白(bái)血(xuè)病(bìng)患(huàn)者(zhě)的(de)不(bù)同(tóng)突变。该模型准确预测了非编码区突变间接激活了附近的一个基因,后者是这种癌症常见的驱动因素。
不过,研究人员表示,AlphaGenome仅基于人类和小鼠的基因组,以及其他相关实验数据进行训练,还没有测试它在其他生物中的有效性。此外,AlphaGenome预测的准确性还有提升的空间。例如,该模型难以识别位于10万多个碱基对以外的目标基因序列。
美国冷泉港实验室的计算生物学家Peter Koo说,AlphaGenome和类似的模型尚未捕捉到不断变化的细胞性质如何影响DNA序列的功能。因为这些模型只能在一个固定环境中进行预测,而细胞是动态的:蛋白质水平、DNA上的化学标签和其他条件会随着时间或细胞类型的不同而变化,这可能会改变同一序列的行为方式。
(原标题为《DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质》)
前沿动态

在线咨询
留言您的联系方式及需求,专业顾问将于收到资料后尽快与您回复。
我要预约
填写您的预约需求,您将获得相应的专业顾问满足您的需求。
电话咨询
全国统一客服专线021-26586690,期待为您服务。
微信咨询
直接添加客服微信号,专业顾问随时准备解答您的一切疑问。
在线咨询
服务热线
021-26586690
在线咨询
官方微信
TOP