“DNA谷歌”来了，海量数据搜索引擎开辟生物学研究新领域

来源：干细胞

日期： 2025-10-11 14:31:01

访问量： 267

【导(dǎo)语(yǔ)】生(shēng)物(wù)学(xué)领(lǐng)域迎(yíng)来(lái)“谷(gǔ)歌(gē)级(jí)”突(tū)破(pò)——MetaGraph搜(sōu)索(suǒ)引(yǐn)擎(qíng)10月(yuè)8日(rì)登(dēng)上(shàng)《自(zì)然(rán)》杂(zá)志(zhì)，其(qí)能(néng)高(gāo)效(xiào)检(jiǎn)索(suǒ)拍(pāi)字(zì)节级生物数据，无需标注即可挖掘海量DNA、RNA序列中的隐藏模式，为破解全球抗生素耐药性等难题提供新工具，而开源数据共享正推动科学进入“拍字节基因组学”新时代。

“DNA谷歌”来了，海量数据搜索引擎开辟生物学研究新领域

互联网有谷歌，如今生物学(xué)领(lǐng)域有(yǒu)了MetaGraph。这款搜索引擎能够快速筛选公共数据库中储存的海量生物数据。相关研究成果10月8日发表于《自然》。

“这是一项了不起的成就。”法国巴斯德研究所的Rayan Chikhi表示(shì)，“他(tā)们(men)为(wèi)分析原始生物数据设定了一个新标准。”这些数据包括DNA、RNA和蛋白质序列，来源于可能包含千万亿级DNA碱基的数据库，相当于拍字节（1拍字节=1000万亿字节）的信息，其数量甚至超过谷歌庞大索引中的所有网页。

尽管MetaGraph被视为“DNA谷歌”，但Chikhi更倾向于将其比作“YouTube搜索引擎”，因为它背后的计算任务难度更高。就像在YouTube上搜索时，能够检索到所有以“红色气球”为特征的视频，即使这一关键词并未出现在标题、标签或描述中。MetaGraph同样无需提前对基因模式进行明确标注，就能找到隐藏在庞大测序数据集深处的这些模式。

开发MetaGraph的初衷是为了解决测序数据集的可及性问题(tí)。过(guò)去(qù)几十年间，生物数据库的规模呈爆炸式增长，却给使用这些数据的科学家带来了挑战——原始测序读数碎片化、噪声多，且数量庞大，无法直接检索。加拿大多伦多大学的Artem Babaian指出：“矛盾的是，数据量反而成了我们实际使用这(zhè)些(xiē)数(shù)据(jù)的(de)最大障碍。”

论文共同通讯作者、瑞士苏黎世联邦理工学院的André Kahles表示，MetaGraph能够帮助研究人员向序列读取档案库（SRA）这样的数据库提出生物学问(wèn)题(tí)。SRA作(zuò)为(wèi)一(yī)个(gè)公(gōng)共(gòng)数(shù)据(jù)库(kù)，包(bāo)含(hán)的(de)DNA碱(jiǎn)基(jī)已(yǐ)超(chāo)过(guò)10亿(yì)亿(yì)个(gè)。

研(yán)究(jiū)团(tuán)队(duì)借(jiè)助(zhù)数(shù)学(xué)“图(tú)谱(pǔ)”解(jiě)决(jué)了(le)数(shù)据(jù)检(jiǎn)索(suǒ)难(nán)题(tí)。这(zhè)种(zhǒng)图(tú)谱(pǔ)能(néng)将(jiāng)重(zhòng)叠(dié)的(de)DNA片(piàn)段(duàn)连接起来，就像图书索引中排列(liè)的(de)使(shǐ)用(yòng)相(xiāng)同(tóng)词汇(huì)的(de)句(jù)子(zi)一(yī)样(yàng)。

研(yán)究(jiū)人(rén)员(yuán)整(zhěng)合(hé)了(le)7个(gè)公(gōng)共(gòng)资(zī)助(zhù)数(shù)据(jù)库(kù)的(de)数(shù)据(jù)，构(gòu)建(jiàn)出(chū)涵(hán)盖(gài)病(bìng)毒(dú)、细(xì)菌(jūn)、真(zhēn)菌(jūn)、植(zhí)物(wù)、动(dòng)物(wù)，也(yě)包(bāo)括(kuò)人(rén)类(lèi)在(zài)内的所有生物类群(qún)的(de)序(xù)列(liè)集，其中包含1880万个独特的DNA和RNA序列集，以及2100亿个氨基酸序列集。同时，他们(men)还(hái)为(wèi)这(zhè)些(xiē)序(xù)列(liè)开发了一款搜索引擎，用户只需通过文本提示，就能检索这些整合后的原始数据档案。

“这是一种与这类数据交互的全新方式。”Kahles说，“数据虽然经过压缩处理，但可实现即时访问。”

为证明MetaGraph的实用价值，研究团队利用它对全球241384个人类肠道微生物组样本进行了检索，旨在寻找全球抗生素耐药性的基因标志物。这项研究是在前期工作基础上开展的。此前研究人员曾利用旧版MetaGraph追踪过全球主要城市地铁系统中细菌菌株的耐药基因。据团队介绍，在一台高性能计算机上完成这项分析仅需约1个小时。

MetaGraph并非目前唯一的大规模序列检索工具。例如，Chikhi和Babaian共同开发了一个名为Logan的平台，能将数十亿条短测序读数拼接成更长、更有组织的DNA片段。这种设计架构使(shǐ)其(qí)能(néng)在(zài)比(bǐ)MetaGraph更(gèng)大(dà)规(guī)模(mó)的(de)测(cè)序(xù)读(dú)数(shù)集合(hé)中(zhōng)，识(shi)别(bié)出(chū)完(wán)整(zhěng)基(jī)因(yīn)及(jí)其(qí)变(biàn)异(yì)。Chikhi表(biǎo)示(shì)：“我(wǒ)们(men)的(de)工(gōng)具(jù)功(gōng)能(néng)较(jiào)少(shǎo)，但(dàn)性(xìng)能(néng)更(gèng)强(qiáng)。”

凭(píng)借(jiè)更(gèng)广(guǎng)的(de)检(jiǎn)索(suǒ)范(fàn)围(wéi)，Logan帮(bāng)助(zhù)研(yán)究(jiū)人(rén)员(yuán)发(fā)现(xiàn)了(le)2亿(yì)多(duō)个(gè)天然存在的“噬塑酶”变体，这些变体来源于多种细菌、真菌和昆虫，其中部分变体的活性甚至优于实验室设计的酶。9月，这一发现公布于预印本bioRxiv。

Babaian认为，这类发现离不开开源检索工具及其依托的公共测序数据库。目前，一些生物数据库正面临资金削减的威胁，他强调，这些检索技术的创新恰恰凸显了“开放数据共享至关重要”。“这些资源正在推动全球科学进步，并开启了一个全新的(de)‘拍(pāi)字(zì)节(jié)级(jí)基(jī)因(yīn)组(zǔ)学(xué)’领(lǐng)域。”

相(xiāng)关论(lùn)文信(xìn)息(xi)：https://doi.org/10.1038/s41586-025-09603-w https://doi.org/10.1101/2024.07.30.605881

上一篇：在上海国际生物医药产业周，读懂全球医药协作与共赢