【新智元导读】 刚刚,分子生物学界引爆核弹级消息:人类的 DNA,已经能由 AI 重新改写了!初创公司 Profluent 宣布开源了世界首个 AI 设计基因编辑器,成功编辑了人类细胞中的 DNA。这可太科幻了,如果有机会,你会选择「改造」自己的 DNA 吗?
AI,能够重写人类基因组了?
就在刚刚,初创公司 Profluent 宣布,完全由 AI 设计的基因编辑器, 已经成功编辑了人类细胞中的 DNA 。
也就是说,世界上首个使用 AI 从头设计的分子级精确基因编辑器诞生了。
就像 ChatGPT 能生成诗歌一样,Profluent 这个全新的 AI 系统,可以让我们编辑自己 DNA 的微观机制生成蓝图。
在迄今最广泛的基于 CRISPR 的基因编辑系统数据集上,研究者训练了 LLM。这些 LLM 产生的蛋白质,将几乎所有天然存在的 CRISPR-Cas 家族的多样性,扩大了 4.8 倍!
并且,基因编辑器在人类细胞中显示出了与 SpCas9(一个示例基因编辑器)相当或更好的活性和特异性,同时距离超过 400 个突变。
这也就意味着,我们掌握了自己的基因组密码。未来的科学家,会比今天更精确、更快速地对抗疾病。而且,公司还决定, 会在 OpenCRISPR 协议下,自由释放这些 DNA 分子 。
Profluent 联创 Ali Madani 表示,「尝试用 AI 设计的生物系统,编辑人类 DNA 是一次科学登月之旅」。
「我们的成功表明,在未来,AI 可精准设计出一系列定制的疾病治疗方案」。
有网友表示,「是时候重新编程人类了吗?AI 驱动的 CRISPR 技术进步,正挑战着基因伦理的边界」。
如果你可以改变自己的 DNA,你会这么做吗?
初创公司 Profluent 在刚刚发表的这篇论文中,详细描述了这项技术。
论文地址:
论文预计将于下月,在美国基因与细胞治疗学会年会上发表。
这项技术和驱动 ChatGPT 的方法是一样的,它在分析大量生物数据后,创造了新的基因编辑器,包括科学家已经用于编辑人类 DNA 的微观机制。
这些基因编辑器基于的是诺奖的获奖方法,涉及一种名叫 CRISPR 的生物机制。
基于 CRISPR 的技术诞生后,即在业界引起轰动。它改变了科学家研究疾病的方式。
在以前,如果我们不幸得了镰状细胞性贫血和失明这样的遗传性疾病,往往束手无策,而现在,CRISPR 技术可以直接让我们修改导致这些疾病的基因了!
CRISPR 方法使用的是我们在自然界中发现的机制:从细菌中收集的生物材料,竟然神奇地赋予了这些微生物抵抗细菌的能力。
加州大学旧金山分校生物工程和治疗科学系教授兼系主任 James Fraser 介绍说,这些生物材料从未在地球上存在过,而 Profluent 的 AI 系统,正是从大自然中学习如何创造这些全新的东西。
如果这些技术继续发展,所产生的基因编辑器,或许会比我们人类经过数十亿年进化磨练的基因编辑器更灵活、更强大。
现在,,这也就意味着,个人、学术实验室和公司都能免费使用这些技术。
AI 界常见的开源,可以加速新技术的产生。不过,对于生物实验室和制药公司来说,像 OpenCRISPR-1 这样的开源并不常见。
当然,Profluent 也只是开源了其 AI 技术生成的基因编辑器,并没有开源 AI 技术本身。
目前,蛋白质工程界想要复制功能性蛋白质,或者用「定向进化」来迭代修饰,通常还是需要从自然界中复制。
许多对人类有重大意义的蛋白质,都是我们偶然发现的,比如狗的胰岛素、酸奶设施中的 Cas9 和经常造成食物中毒的肉毒杆菌毒素。
大型生成蛋白质语言模型的作用,就是可以捕获使天然蛋白质发挥作用的基本蓝图。它们勾勒出一条捷径,可以绕过进化的随机过程,推动人类有意识地为特定目的设计蛋白质。
Cas9 蛋白,是 CRISPR-Cas9 基因编辑系统的核心组成部分,它是一种 RNA 引导的核酸酶,可以搜索人类基因组中的所有 30 亿个核苷酸,并在一个特定位点进行切割。
这种核酸酶与单导 RNA(sgRNA)复合在一起,sgRNA 由一个在结构上与蛋白质相互作用的支架和一个间隔序列组成,后者可通过编程靶向基因组中的任何位点。
棘手的是,大多数 Cas9 蛋白的长度超过 1000 个氨基酸,整个设计空间包含 20^1000 种可能的序列,比起可观测宇宙中的原子数量,它都要高出几个数量级!
而且,由于这些蛋白质必须以精确的顺序协调许多相互作用,才能实现精确切割,因此即使是单个错位突变,也可能完全消除蛋白质的功能。
如果通过实验穷尽所有可能的序列变异,许多科学家几辈子时间都做不完。然而,AI 系统却能很轻松地探索整个搜索空间,发现功能性的基因编辑器。而且,只需要花几个小时!
基因编辑器 OpenCRISPR-1,由一个 Cas9 样蛋白质,和引导 RNA(guide RNA)构成。
正如之前所述,它是完全由 Profluent 的 AI 大模型开发的。
在具体实现过程中,研究人员对 26TB 组装的「基因组」和「元基因组」数据库系统进行挖掘,整理出超 100 万个 CRISPR 操纵子(operon)的数据集。
通过训练 OpenCRISPR,AI 从大规模序列和生物背景中学习,生成了自然界不存在的数百万种 CRISPR 样蛋白。
研究人员称,AI 生成了自然界中已发现的「CRISPR-Cas 家族」的 4.8 倍的蛋白质集群,完全实现了指数级扩展!
而且,语言模型还为类 Cas9 效应蛋白定制了单引导 RNA 序列。
与原型基因编辑效应器 SpCas9 相比,几个生成的基因编辑器显示出,可比或改进的活性和特异性,同时在序列上相差 400 个突变。
最后,研究人员还证明了 AI 生成的基因编辑 OpenCRISPR-1 与碱基编辑的兼容性。
这项研究中的关键结果,具体如下。
生成蛋白质语言模型通常是在,大型涵盖多种系统发育和功能的天然蛋白序列的数据集上,进行预训练 。
这些模型能够生成,反映天然蛋白质分布和特性的真实蛋白质序列。
然而,对于特定的应用,例如新型基因编辑器的生成,有必要将生成过程导向特定的感兴趣的蛋白家族子集。
对此,研究人员进行了详尽的数据挖掘来构建数据库。
他们搜索了 26.2TB 的组装微生物基因组和宏基因组,发现了 1,246,163 个 CRISPR-Cas 操纵子。
与 CRISPRCasDB 和 CasPDB 等精选数据库,以及世界上最大的蛋白质资源 UniProt 相比,最新创建的数据库显示出更大的多样性。
通过总结共性,研究人员发现了所有 CRISPR-Cas 蛋白的单一模型,能够生成跨家族的不同序列。
为了生成新型 CRISPR-Cas 蛋白,作者在 CRISPR-Cas Atlas 上微调了基于 Progen2 的语言模型,由此平衡了蛋白家族的表示和序列簇大小。
从这个模型中,研究者生成了 400 万个序列。其中一半是直接从模型生成的,另一半是由天然蛋白质 N 或 C 末端的最多 50 个残基提示,以引导向特定蛋白的生成。
为了评估其新颖性和多样性,作者使用 MMseqs2 对每个家族的生成序列和天然序列按 70% 的同一性进行了聚类。
结果发现,与 CRISPR-Cas 图谱中的天然蛋白相比,生成序列实现了 4.8 倍的多样性扩展。
对于天然蛋白质很少的家族,比如 Cas13 和 Cas12a,生成序列的多样性分别增加了 8.4 倍和 6.2 倍。
另外,只需要极少的上下文,即提供 50 个或更少的残基,就能针对某一特定科引导序列生成与感兴趣的科保持一致。
虽然许多 CRISPR-Cas 蛋白已被用于基因组编辑 ,但 Cas9 仍是应用最广泛的一种。
为了生成类 Cas9 的新序列,研究人员从 CRISPR-Cas 图谱中采样,Cas9 的 N 端或 C 端 50 个残基,对 CRISPR-Cas 模型进行了提示。
这里,作者使用了 CRISPR-Cas Atlas 中 238917 条 Cas9 序列,对另一个语言模型进行了微调。
这一模型生成可行的类 Cas9 序列的速度是 CRISPR-Cas 模型的 2 倍(54.2%),而且需要任何提示。
为了探索 II 型效应器的潜在序列分布,研究人员使用 Cas9 模型生成了 100 万个 Cas9 蛋白。
生成的可存活代(n=542,042)与同一性为 40% 的天然 Cas9 聚类在一起,并用作构建最大似然系统发育树的输入(图 2a)。
引人注目的是,生成的蛋白质主导了系统发育的格局,占系统发育总多样性的 94.1%。
与整个 CRISPR-Cas 图谱相比,多样性增加了 10.3 倍(图 2b)。
新的系统发生群分布在整个树中,这表明该模型捕捉到了 Cas9 的全部多样性,并没有过度拟合任何特定系。
生成的序列与 CRISPR-Cas 图谱的差异很大,与任何自然序列的平均同一性只有 56.8%(图 2c)。
总体而言,生成的序列与同一蛋白质簇中天然蛋白质的长度密切匹配,皮尔逊相关性为 0.97(图 2d)。
此外,图 2e 显示了,天然 Cas9、祖先序列重建和 48 个生成蛋白的靶上和脱靶的编辑效率。图 2f 展示了自然 Cas9、祖先序列重建,以及生成蛋白在靶向编辑效率和特异性方面的对比。
生成的基因编辑器,在人类细胞中发挥作用
然后,研究者进一步将关注范围缩小到 CRISPR-Cas9 系统,并在 CRISPR-Cas 图谱中的 238,917 个 Cas9 蛋白上,训练了蛋白质语言模型。
使用这些模型,研究者生成了可与 SpCas9 互操作的 Cas9 样蛋白。也就是说,它们与基因组的相同部分(PAM)结合,并与相同的 sgRNA 相容,因此,它们可用于相同的应用。
研究者选择了其中 48 个生成的序列,用于在人类细胞中进行严格的功能表征。
最热门的 OpenCRISPR-1,在靶向位点的活性与 SpCas9 相当(OpenCRISPR-1 的编辑率为 55.7%,SpCas9 的编辑率为 48.3%),但令人惊讶的是,在脱靶位点的编辑减少了 95%(OpenCRISPR-1 的编辑率为 0.32%,SpCas9 为 6.1%)。
此外,作为一种非常新的蛋白质,OpenCRISPR-1 与 SpCas9 相距 403 个突变,与 CRISPR-Cas 图谱中的任何天然蛋白质相距 182 个突变。
研究者们还发现,当与脱氨酶配对时,OpenCRISPR-1 和 SpCas9 在精确编辑靶基因组中的单个碱基时,具有相似的活性和特异性。
他们还能保持碱基编辑活性,同时通过用由另一种 Profluent 训练的蛋白质语言模型生成的脱氨酶,来提高特异性。
最后,为了进一步优化所生成的核酸酶的活性,研究者还训练了一个模型来为任何给定的 Cas9 样蛋白生成相容的 sgRNA。
与 SpCas9 的 sgRNA 相比,这些生成的 sgRNA 可以提高所测试的五种蛋白质中四种产生的核酸酶的活性。
现在,全世界都有很多项目,在用 AI 技术改善医疗保健。
比如,华盛顿大学的科学家们正在用 ChatGPT 和 Midjourney 背后的方法来,创造全新的蛋白质,并且正在努力加速新疫苗和药物的开发。
如今大火的许多生成式 AI,背后都是由神经网络驱动的。通过分析大量数据,神经网络就习得了某些技能。
比如,Midjourney 以神经网络为基础,分析了数百万张数字图像,以及描述每张图像的标题。这样,系统就学会了识别图像和文字之间的联系,可以画出「犀牛从金门大桥上跳下来」这样的画。
Profluent 的技术,也是由一个类似的 AI 模型驱动的。
这个模型从氨基酸和核酸序列中学习,正是这些化合物,定义了科学家用来编辑基因的微观生物学机制。
本质而言,它就是分析了从自然界中提取的 CRISPR 基因编辑器的行为,学习了如何生成全新的基因编辑器。
Profluent 的 CEO Ali Madani 介绍道,这些 AI 模型都是从序列中学习的,无论是字符、单词、计算机代码,还是氨基酸的序列。
Madani 先生在加州伯克利 Profluent 实验室内,此前他曾在软件巨头 Salesforce 的人工智能实验室工作
目前,Profluent 尚未对这些合成基因编辑器进行临床试验,因此尚不清楚它们是否能与 CRISPR 的性能相媲美,甚至超过 CRISPR。
但他们的研究表明了,AI 模型可以产生能够编辑人类基因组的东西。
尽管如此,这项成果还不太可能在短期内影响医疗保健。
UC 伯克利创新基因组学研究所的基因编辑先驱兼科学主任费 Fyodor Urnov 表示,科学家们并不缺乏天然存在的基因编辑器,用来对抗疾病。
真正的瓶颈在于,这项编辑器在用于临床治疗之前,还会因安全性、制造、监管审查产生极高的成本。
但是,随着学习越来越多的数据,生成式 AI 系统的潜力不可小觑。
如果 Profluent 的技术继续改进,终有一天,科学家们可以用更精确的方式编辑基因。到那时,我们可能身处这样一个世界 —— 许多药物和治疗方法,都能快速为个人量身定制。这是今天的人们所不敢想的。
「我梦想着这样一个世界,我们可以在几周内按需提供 CRISPR,」 Urnov 博士说。
还有一个重大的问题就是,CRIPSR 有风险吗?
长期以来,科学家们一直在警告:不要使用 CRISPR 进行人类增强!因为,这是一项相对较新的技术,很可能会产生不良的副作用,比如引发癌症。而且还有些人会用于非道德的用途,比如转基因人类胚胎。
合成基因编辑器,也面临着这项问题。而如今,科学家们已经掌握了编辑胚胎所需的一切技术。
但 Fraser 博士表示,如果真的有人想用它们做坏事,也只会使用现有的东西,而非 AI 创建的编辑器。
本文来自微信公众号:新智元 (ID:AI_era)
本文地址:https://www.zdmsl.com/demo/001/article/131.html