好百科首页 > MIT科学家发现识别文字的AI也能发现新冠病毒变异

MIT科学家发现识别文字的AI也能发现新冠病毒变异

DeepTech深科技 2021-02-26 浏览239次

伽利略曾认为自然是用数学书写，而生物学可能是用文字来书写。自然语言处理（下文简称 NLP）算法现在能够生成蛋白质序列，并预测病毒突变、包括预测能帮助新冠病毒躲避免疫系统攻击的关键突变。

上述之所以能实现，得益于一重要洞见，即生物系统许多特性可以用单词和句子来解释。麻省理工学院计算生物学家邦妮·伯格说：“我们正在学习进化的语言。”

过去几年里，遗传学家乔治·丘奇的实验室团队、Salesforce 团队等研究人员已经证明，蛋白质序列和遗传密码可以使用 NLP 技术建模。

最近，伯格及其同事的研究发表于《科学》杂志。在研究中，伯格等人将几种毒株集合在一起，利用 NLP 来预测能帮助病毒躲避人体免疫系统抗体的突变。病毒躲过抗体称作“病毒免疫逃逸”，该研究的基本观点认为，免疫系统解读病毒类似于人类解读句子。

Salesforce 科学家阿里·马达尼正利用 NLP 预测蛋白质序列，他说：“论文写得很好，延续之前工作的发展势头。”

伯格团队使用了语法和语义（或称意义）这两种语言学概念，病毒感染宿主的能力等遗传或进化适应性特征，可从语法正确程度的角度来解读。病毒传染性强，在语法层面为正确；病毒传染性不强，则为不正确。

同样，病毒突变可以用语义来解释。比如，病毒表面蛋白质突变，某些抗体便无法发现病毒，像这样导致病毒在环境中与其它事物区分开来的变异，便是改变了病毒的语义。病毒突变可以有不同语义，而每一种有自身语义的病毒可能需要不同抗体来解读。

为建立这些特性的模型，研究人员使用了 LSTM 神经网络，LSTM 诞生在基于变形金刚的神经网络出现之前，后者现为 GPT-3 等大型语言模型所使用。LSTM 等存在较久的网络所需训练数据比变形金刚少得多，并且在许多应用中仍然表现良好。

研究人员不是用数百万个句子，而是利用取自三种病毒的数千个基因序列训练 NLP 模型。这些序列为流感病毒株的 4.5 万个独特序列、HIV 病毒株的 6 万个独特序列、以及新冠病毒病毒株的 3000 到 4000 个独特序列。麻省理工学院研究生布莱恩·希建立了模型。他说：“由于对新冠病毒的监测较少，新冠病毒的数据较少。”

NLP 模型在数学空间中对单词进行编码，单词和单词间若含义相近，距离会更近，反之，距离则更远。这一过程称为“嵌入”。在病毒层面，基因序列的嵌入便是根据病毒突变的相似性，对病毒进行分组。

该方法的总目标，是识别那些可能帮助病毒逃逸免疫系统、且不降低病毒传染性的突变，也就是说要识别那些改变病毒含义、而又不导致病毒语法错误的突变。为测试模型，研究团队使用评估机器学习模型所做预测的通用度量标准，该标准给精确度打分的区间为 0.5（相当于意外发生的概率）到1（完美）。

研究中，研究人员采用由模型识别、最有可能出现的突变，并在实验室中利用病毒，检查这些突变中有多少确实是会帮助病毒逃逸免疫的突变。精确度分数最低值为针对 HIV 病毒株的预测结果精确度，为 0.69；最高值为针对新冠病毒病毒株的预测结果精确度，为 0.85。研究人员表示，实验结果比其他最先进模型的结果要好。

预先警告

知道可能会有哪些突变，医院和公共卫生当局便更容易提前计划。例如，要模型显示出某种流感病毒的语义自 2020 年以来发生了多大变化，就能预计人们已经产生的抗体在今年会发挥多大作用。

该研究团队表示，正在根据新冠病毒新变种运行模型。针对的新变种包括英国出现的变异病毒、丹麦水貂体内出现的变异病毒、以及南非、新加坡和马来西亚出现的变异病毒。研究人员已经发现，这些变异病毒免疫逃逸潜力可能很高，但尚未在实验室外进行测试。

不过，模型没有预测到南非变异病毒出现的一种变异。人们已经开始担心，这种变异可能帮助病毒躲避疫苗接种，目前研究人员正在尝试探明原因。伯格说：“南非变异病毒里包含多个突变，我们认为，这些突变组合起来产生的效应可能会导致免疫逃逸。”

使用 NLP 可以加速原本缓慢的研究进程，以前是从医院里一名新冠患者身上提取病毒、测序基因组，并在实验室里重新创造和研究相应突变。项目研究人员麻省理工学院生物学家布赖恩·布莱森说，以前的做法可能需要几周时间，NLP 模型可以直接预测潜在突变，实验室研究便找到重点、工作速度也加快。

布莱森说：“整个工作很大开眼界。”每周都有新病毒序列。布莱森说：“一边更新模型，一边跑去实验室进行实验测试，很奇妙。计算生物学好就好在这。”

但这也只是开始。将基因突变视为语义变化，可以在生物学中有不同应用。布莱森说：“一个好类比，能起很大作用。”

例如，希认为研究团队的方法可以应用于研究抗药性。希说，“比如癌细胞蛋白质对化疗产生耐药性、或者细菌蛋白质对抗生素产生耐药性”，这些变异也可以看作是意义上出现变化，“我们解读语言模型，可以有很多创意。”

马达尼说：“我认为，生物学正处在革命边缘。我们不再仅仅收集大量数据，而正在转向学习如何深入理解数据。”

总体来说，研究人员正在关注 NLP 的发展，同时发掘语言和生物学之间的新类比，来利用NLP取得的进步。不过，布莱森、伯格和希都认为，生物学和 NLP 算法交叉可以是双向，即新 NLP 算法受生物学概念启发而诞生。伯格说：“生物学有自己的语言。”

经验内容仅供参考，如果您需解决具体问题(尤其法律、医学等领域)，建议您详细咨询相关领域专业人士。如需转载，请注明版权!

标题：MIT科学家发现识别文字的AI也能发现新冠病毒变异网址：http://www.jrxk.cn/view/232953.html

发布媒体：好百科作者：DeepTech深科技

好百科首页 > MIT科学家发现识别文字的AI也能发现新冠病毒变异

MIT科学家发现识别文字的AI也能发现新冠病毒变异

热搜经验：