生命科学的新篇章,AI与数字生物学

生命科学不仅仅是一个领域,它是充满挑战与机遇的战场。随着人工智能技术的不断发展,越来越多的科学家认识到对人类健康进行安全有效干预的重要性。这不仅是一个需要解决的难题,更是利用人工智能为社会做出贡献的绝佳机会。如何进一步通过AI技术服务于人类,提高生活质量。人工智能与生物学的交叉领域可以加速我们对生物学的理解,并带来一些本时代最激动人心和具有变革性的技术进步。
生物学是非常复杂的,甚至可能超出人类大脑完全理解的能力。结合AI和生物学有望加速对生物学的理解,揭示以往未知的生物学信息,从而带来新的医学突破、新的诊断方法,以及更早地检测和治疗疾病的能力,甚至有可能在疾病开始之前就进行干预。
AI如何重塑医疗
人工智能是一个通过使用复杂的大型数据集来教育计算机模型的过程。模型通过这些数据的训练过程学习,从而建立其做出决策或在面对新数据时预测结果的能力。目前,医生可以参考基于成千上万其他患者的经验来知晓治疗是否可能有效,以及基于患者个人状况选择最佳治疗方案的计算机模型。世界上没有两个人是完全相同的,但AI模型正在帮助医生从有着类似状况或甚至相似遗传信息的患者中学习,做出高度明智的诊断和治疗决策。利用卷积神经网络(CNN)等技术,AI可以帮助医生快速准确地诊断各种疾病,如川崎病、结肠癌、肺癌和肝硬化等。然而,我们也需警惕数据集中的偏见可能对诊断结果产生的影响。
再说说AI在诊断上的助力,它在图像识别和数据解读方面展现了强大能力。比如看MRI和CT扫描,AI能又快又准地找出问题所在。这意味着能早点发现病情,比如癌症,给患者治疗带来更好的希望。有一些诊所和医生已经开始使用AI为癌症患者提供护理。癌症诊断可能非常复杂,对医生来说是在做关于诊断原发性或继发性癌症的决策,对患者来说则是在理解治疗方案的风险和成功率。但AI模型可以帮助简化这个过程,通过从多个来源获取信息。这包括将患者的血液测试数据、疑似病变的X光图像,以及组织活检的遗传信息输入AI模型。经过训练的AI模型可以迅速整合这些信息,并提供关于患者诊断的高度准确预测、最有可能成功的治疗方案以及预后。
Navid Toosi Saidy博士在一次TEDx活动上的演讲中提及,他的癌症患者Peter,在经历了全面的临床评估、影像学和各种其他诊断后,即使问遍了最好的医生也无法告诉他他的癌症原发部位在哪里,这意味着他无法获得针对他的癌症的特定治疗,他在未来五年存活的几率不到十分之一。但Saidy博士的团队已经开发出了一个使用AI和患者遗传信息的工具,可以准确地识别Peter的癌症原发部位,并使医生能够给Peter提供我们知道对他有效的治疗。这类模型可以被大幅扩展,用以预测准确的医疗保健。
(关于这个案例,下一段“多模态AI在医疗中的应用“中我们还会详细介绍)
美敦力推出了首批采用英伟达AI技术构建的GI Genius系统。届时,外科医生在使用GI Genius系统时可获得AI增强诊断图像,为患者制定更准确的治疗方案。
另一方面,AI 和加速计算正在为基因组测序流程开辟新的可能性。例如,生物技术公司 PacBio 最近发布了一款采用 NVIDIA Tensor Core GPU 的新型长读长测序系统——Revio。与之前的系统相比,Revio 的算力提高了 20 倍,旨在以低于 1000 美元的成本对人类基因组进行大规模的高精度长读测序。
牛津纳米孔科技有限公司提供了业内仅有的一个单一技术,能够对任何长度的 DNA 或 RNA 片段进行实时测序,使研究人员能够迅速发现更多遗传变异。西雅图儿童医院最近使用高通量纳米孔测序仪 PromethION 在新生儿出生后的几小时内检测遗传性疾病。
Ultima Genomics 正在提供每个样本只需 100 美元的高通量全基因组测序。Singular Genomics 的 G4 测序仪是目前最强大的台式测序系统。
AI给了我们比以往任何时候都更精细、更详尽地理解人类健康的能力。但AI被应用于日常临床实践也存在问题。我们现有的监管框架并不是为用于诊断、治疗或管理疾病的AI软件设计的,也就是所谓的作为医疗设备的基于AI的软件。它们是为像外科植入物这样的物理医疗设备设计的,或者大多数软件每次患者或临床医生使用时都有相同的输出。传统软件是静态的,意味着开发人员发布一个软件版本,无论你使用多少次,它总是对同一数据有相同的输出。另一方面,AI软件与医疗保健中的大多数软件完全不同,因为它具有随时间学习和进化的内在能力,理想情况下会变得更加智能,以适应它们所使用的环境。
多模态AI在医疗中的应用
近年来,一种新型AI——多模态AI——开始在医疗领域崭露头角。多模态AI能够处理多种形式的数据,如文本、图像和数字。在医院中,医生们在与患者交流、听诊、检查血液测试结果时,实际上正在运用多模态的人类智能。多模态AI能够模拟这一过程,处理来自不同来源的医疗数据。2023年随着OpenAI发布Chat GPT,媒体对AI的报道开始真正走红。Chat GPT是一种被称为大型语言模型或AGI,但它并不是唯一类型的AI。还有其他类型的AI,它们对大众来说可能不太熟悉,比如机器学习、计算机视觉、自然语言处理等。这些AI大多只接受单一类型的数据,被称之为单模型AI。
比如,世界上大多数的X光检查实际上是正常的。这个名为Chestlink的软件,由一家名为Oxy的公司开发,是一个医疗AI分级系统,它是第一个获得监管或CE批准,可以完全自动地报告胸部X光片的系统。Oxy查找胸部X光片上的75种异常,如果没有发现这些异常,它会在没有任何人类参与的情况下报告X光片为正常。如果发现异常,它会将X光片交给人类放射科医生进行报告。这是AI与人类放射科医生之间任务共享的一个例子。
再比如说,视网膜,这是人眼睛后面的组织。如果你曾经去做过眼科检查,这就是验光师所看到的。验光师正在寻找可逆的失明原因,如黄斑变性。伦敦大学学院的一组研究人员开发了一个经过1.6百万张视网膜图片训练的AI模型。这个模型能够诊断眼病并预测眼病的结果,如黄斑变性。它能做到大多数非专家医生难以做到的事情是非常令人印象深刻的。
不仅如此,比如像帕金森病这样的疾病,通常不会想到眼底的情况。帕金森病会影响你的运动,引起震颤,影响你的行走。但同一个AI模型可以观察到眼睛后面,预测患者在出现症状前几年得帕金森病的可能性。所以,现在它不仅可以看到人类能看到的东西,还可以看到人类看不到的东西。然而,这个模型不会像真正的医生一样能够诊断帕金森病,也绝对不会给帕金森病患者提供富有同情心的护理。像这样的AI必须与受过高度培训的医疗保健专业人员一起使用。
LLM
2023年12月,谷歌发布了一个名为MedPalM的医学大型语言模型。他们训练了他们的通用大型语言模型Pam来执行医学问题解答,这是有史以来第一次,一台计算机或AI模型以67%的及格分数通过了美国医学执照考试,仅仅三个月后,MedPalM的下一个版本得分达到了86%,这是该考试的专家水平。
如果你口袋里有智能手机,多模态AI现在就可以为你所用。在OpenAI发布了ChatGPT的多模态版本后,现在医生可以传入患者的一张心电图,给出一个小场景“60岁的男性,出现心悸,这是你感觉到心脏在胸腔中跳动的感觉,他能感觉到自己的心脏跳过了几下,没有过去的病史,目前没有在用药,附上的图片是他的心电图,这个病人下一步该怎么办?”GPT可以给出近乎完美的心电图分析,并给出后续建议。当多模态大型语言模型接受医学任务训练时,这会变得更好。MedPalM接受多种不同类型的输入,包括皮肤图片、胸部X光片、病理图片、放射学图像的文本,并执行多种医学任务。它并不完美,但MedPalM生成的放射学报告与人类放射科医生的报告相比,盲审人员在40%的情况下更喜欢MedPalM的报告。
还有一些比如NVIDIA合作研究涵盖了生命科学和药物发现的广泛领域,包括预测新的COVID变体、开发通用DNA变换器、功能性蛋白质生成器、蛋白质配体复合物预测器、分子生成器等。此外,Nvidia还宣布了通过与微软Azure、谷歌GCP和甲骨文OCI等云服务提供商的合作,将Nvidia DGX云服务提供给整个行业。顺便说一下这个平台非常牛,云端大数据+AI,感兴趣的可以去官网体验一下。
NVIDIA还宣布了Nvidia BioNeMo云服务,这是一个针对生成性AI和药物发现的服务套件,提供预训练和优化的开源模型,以便于药物发现工作流程中的易于访问。BioNeMo提供优化模型和模型托管,使药物发现团队能够轻松部署和扩展生成性AI工作负载。例如,它可以用于药物发现的虚拟筛选,使用生成模型从蛋白质的氨基酸序列中预测靶标蛋白的结构,并生成具有理想药物动力学属性的分子,从而加速最佳药物候选物的发现。
目前,Nvidia和Medtronic正在合作,他们将在今年晚些时候推出的GI Genius AI辅助结肠镜检系统。生成性AI在加速药物发现、改善临床试验设计和结果、发现新的治疗靶点和不良事件等方面的重要作用。这个前文也提及过了~
多模态AI在医疗领域的应用确实展示了其在提高效率、个性化和可访问性方面的巨大潜力。然而,也面临一些重要的挑战,特别是涉及到信任、可解释性和随机临床试验的问题。
1. 信任:
在医疗领域,患者和医疗从业者对于使用AI的信任是至关重要的。焦虑可能源于对技术的不了解、担心错误诊断、以及对人工智能在医疗决策中所扮演的角色的不确定性。为了建立信任,教育和透明度是关键。解释AI的工作原理、强调其辅助而非替代的角色,以及提供良好的沟通途径,都有助于提高人们对AI技术的信任感。
2. 可解释性:
对于医疗决策,可解释性是至关重要的。患者和医生需要理解AI模型是如何得出某一结论或建议的。黑匣子模型可能导致不信任和不确定性。因此,开发可解释性强的AI算法,并提供简单易懂的解释,有助于使医疗专业人员和患者更容易接受和理解AI的建议。
3. 随机临床试验:
随机临床试验是确保新治疗方法安全和有效的关键步骤。在AI模型介入的情况下,确保其效果的最佳方法之一是通过随机对照试验。这有助于验证模型的预测能力,并确保其在真实临床环境中的可靠性。
多模态AI的潜在应用:
个性化治疗:利用多模态AI分析患者数据,个性化制定治疗方案,提高治疗效果。
行政任务简化:使用AI帮助患者预约、找医生等行政任务,释放医疗从业者更多时间用于患者护理。
远程地区医疗:扩展到偏远地区和低中收入国家,为那些医疗资源有限的地区提供更好的医疗服务。
提高研究效率:在医学研究中,利用AI可以更快速地识别潜在的治疗方法,减少实验失败的可能性。
综合而言,多模态AI在医疗领域的应用不仅可以提高效率,还可以改善患者护理和医疗资源的分配,为全球医疗保健带来新的可能性。然而,对于这些技术的成功应用,必须克服众多的技术、伦理和社会挑战。
AI助力药物研发
Daphne Koller是insitro的创始人兼首席执行官,该公司利用人工智能和机器学习来进行药物发现工作。她表示,AI正在与生物学融合,这一结果被称为数字生物学,将在人类健康领域产生巨大影响。在Daphne的引领下,insitro构建了一种生物学的语言模型。这个模型类似于自然语言处理中的GPT,但它的应用焦点是在细胞层面。通过这种模型,原本复杂难懂的生物数据变得容易理解,每个人都能像专家一样解读和分析这些信息。
先介绍一下这个insitro是做什么的。
首先,Insitro的机器学习AI技术能够分析来自活检的癌症组织的组织学图像。Koller指出,通常情况下,人类病理学家会将这些数十亿像素的图像简化为三个数字,但实际上这些图像中包含了更多未被利用的信息。通过使用机器学习,计算机可以真正学习组织学的语言,从而使机器能够以90%至95%的准确率预测患有癌症的患者的遗传变化。
然而,为了找到药物靶点,需要更多的组织样本,而实际上收集到的样本往往很有限,只有几十个。为了解决这个问题,Insitro团队使用生成AI来创建组织图像的“深度伪造”。
Koller解释说,他们生成的不是电影明星的图像,而是病理学幻灯片的图像。通过将组织样本从数百个增加到数千个,研究人员可以使用斯坦福大学开发的特殊工具进行分析,这个工具称为“ATAC-seq”测定。团队成功从400个癌症组织图像样本扩展到了近10万个。这一规模开始使得可以提出在样本较少的情况下无法回答的问题。
生成AI被用于创建组织图像的“深度伪造”,从而扩大了可以使用基因测定进行挖掘的样本规模。通过分析数千个深度伪造的三阴性乳腺癌图像,技术揭示了以前未知的可能成为药物靶点的遗传变化。Koller表示,一些这些靶点在三阴性乳腺癌中是新颖的,但它们已被涉及到其他癌症中。这给人们信心,这些变化在癌症中发挥了因果作用,可能成为有趣的新药物靶点。
Koller将生成AI在生物学中的应用描述为处理人类大脑永远无法理解的复杂程度。为了解决这个领域的问题,我们需要首先以前所未有的保真度和规模收集大量数据,不同生物层次的数据,然后让机器做它们比人类做得更好的事情,即理解这些数据中的微妙模式,帮助我们重新定义人类疾病的多样性和复杂性,并找出可能在临床上起作用的干预点。
视频链接:https://a16z.com/digital-biology/#
在与a16z的Vijay Pande的一次采访中,Daphne讨论了如何利用针对细胞的大型语言模型(LLM)来革新药物发现,并探讨了如何在以原子(物理世界)和以比特(数字世界)构建之间架起技术和文化的桥梁。
她强调了AI在处理和分析生物学数据中的关键作用,特别是在以下几个方面:
1.AI集成到仪器中:Daphne提到,使用一些高级生物学仪器(如用于细胞成像的仪器)是不可能的,除非它们内置了AI技术。AI用于细胞的分割、条形码的识别等任务。
2.创建潜在空间和生物学语言模型:她谈到了为生物学数据构建一个潜在空间,类似于自然语言处理中的大型语言模型(如GPT),但专注于细胞。这包括细胞的外观、转录或基因表达特征的建模。
3.处理和解析大量数据:她提到,通过这种方法,可以用更少的数据来探索如何通过疾病引起的基因变化或治疗来改变细胞状态,从而实现从疾病状态恢复到健康状态。
4.模型的不断改进:类似于其他语言模型,这种生物学模型随着数据量的增加而不断改进,提供更深入的生物学和疾病理解。
5.超越细胞数据:除了细胞数据外,还使用临床数据,如组织病理学和MRI数据,这些数据通常包含远超过医生和放射科医生所观察到的信息。
6.跨生物模态的语言学习:随着时间的推移,他们正在学习不同生物学模态的语言,并能够在它们之间进行翻译。
总的来说,Daphne描述的是一个将AI与生物学数据紧密结合的系统,通过这种结合来更深入地理解健康和疾病,并不断提高这种理解的精度和深度。
那么AI是如何能够区分疾病和非疾病状态或不同疾病表型的呢?
Daphne总结了这个过程包括几个关键步骤和技术:
1.数据收集和预处理:第一步包括收集大量的生物数据。这些数据可以包括遗传信息、蛋白质组学档案、代谢物档案、临床数据等。然后对数据进行预处理,以确保其干净、标准化并适合分析。
2.特征提取:AI算法,特别是机器学习和深度学习领域的算法,被用来从这些复杂数据中提取有意义的特征。这些特征可能包括与疾病状态相关的特定基因表达、蛋白质水平或其他生物标志物。
3.创建潜在空间:潜在空间是数据的低维表示,捕捉其最重要的方面。在人类生物学的背景下,这意味着创建一个简化的生物数据表示,仍然保留有关疾病状态的关键信息。通常使用自动编码器、主成分分析(PCA)和t分布随机邻居嵌入(t-SNE)等技术来创建这个空间。
总的来说,Daphne描述的是一个将AI与生物学数据紧密结合的系统,通过这种结合来更深入地理解健康和疾病,并不断提高这种理解的精度和深度。哦对了,药明康德也投了她,领投了 Insilico 的 A 轮,后来加入的投资者包括 启明创投、斯道资本、百度风投、礼来亚洲等等。到 2024 年,AI 药物研发的市场规模预计将达到 200 亿美元。此前,医药领域咨询公司 L.E.K. 在去年对制药行业高管进行了调查。结果显示,在未来 5-10 年内,AI 将成为药企运营模式中的标准配置。由于大部分 AI 技术供应商尚处在初创阶段,目前也没有成功的商业案例用来借鉴,所以对于药企或者投资者来说,按照什么节奏、如何布局 AI 战略成为一项复杂而艰难的工作。
个性化治疗拉开序幕
人工智能在个性化医疗领域的突破无疑是令人期待的。通过了解患者的基因、饮食和生活习惯等等,然后根据这些信息来定制治疗方案,让疗效最大化,副作用最小化。这可是未来医疗的大趋势。个性化医疗的理念是根据每个人的独特特征,包括基因信息、生理参数、生活习惯和环境因素,来制定特定的治疗方案。AI的强大数据处理能力和学习能力使其成为实现这一目标的理想工具。通过分析这些复杂的数据,AI能够为每位患者绘制出独一无二的健康画像,并据此推荐最适合的治疗方案。
目前,个性化医疗正逐渐成为现实。研究人员利用机器学习算法结合遗传数据和临床特征,预测患者对特定药物的反应,比如在类风湿性关节炎和卵巢癌治疗中的应用。此外,AI还可以预测患者发展慢性疾病的可能性,如糖尿病,并帮助患者预测血糖水平的变化。此外在临床试验中也展现出巨大潜力,甚至在改变医学研究的方式。
总而言之,AI在医疗领域的应用不仅为患者提供了更加个性化、精准的治疗方案,也极大地提高了医疗效率和医生的工作质量。随着技术的不断发展,我们有理由相信,AI将继续在医疗领域扮演着日益重要的角色。
下一篇文章我们讲继续展开这个话题,聊一聊AI在生物学研究中的作用以及结合AI和生物学的挑战。
—END—