大型语言模型在生物技术和药物研究中的应用

王建民

大型语言模型 (LLM, Large Language Models) 是一种特殊的机器学习模型，经过训练可以处理文本。通常，他们通过向模型展示大量文本（语料库）来训练它们，其中包含人们倾向于如何使用各种单词的示例，并且通过使用自我监督学习技术，不需要非常昂贵的数据标记过程。在分析大量文本数据的行业中，大型语言模型 (LLM) 的使用是不可避免的。与其他类型的模型相比，它们处理更大的数据集，具有复杂的架构设计，并且在生成文本、摘要、翻译、回答问题和情感分析等任务中具有接近人类水平的准确性。

大型语言模型 (LLM) 越来越多地应用于生物技术和药物研究，包括蛋白质序列生成、药物发现和计算生物学。ProGen、ChemCrow 和 ChatGPT 是这些领域中使用的 LLM 示例，可帮助研究人员优化工作流程、分析数据并产生新见解。

ProGen

Progen是一种深度学习 LLM，能够生成跨大型蛋白质家族具有可预测功能的蛋白质序列。ProGen 接受了来自 19,000 多个家族的 280M 蛋白质序列的训练，并且该模型增加了指定蛋白质特性的控制标签。可以对 ProGen 进行微调，以使用特定序列和标签创建更准确的蛋白质序列。

Madani, A., Krause, B., Greene, E.R. et al. Large language models generate functional protein sequences across diverse families. Nat Biotechnol (2023).

https://doi.org/10.1038/s41587-022-01618-2

ChemCrow

尽管LLM在各个领域的任务中表现出色，但他们经常在与化学相关的问题上苦苦挣扎。此外，这些模型无法访问外部资源，这限制了它们在科学研究中的实用性。ChemCrow是一个 LLM 化学代理，旨在解决这个问题。该模型旨在完成药物发现、有机合成和材料设计方面的任务。

已集成 13 种专家设计的工具来开发 ChemCrow，从而增强其在化学方面的性能。该模型能够帮助专业化学家并降低非专家的障碍。此外，它可以通过弥合实验化学和计算化学之间的差距来促进科学进步。

Bran, Andres M., Sam Cox, Andrew D. White, and Philippe Schwaller. "ChemCrow: Augmenting large-language models with chemistry tools." arXiv preprint arXiv:2304.05376 (2023).

药物发现中的 ChatGPT

密歇根州立大学的研究人员探索了 ChatGPT 在药物发现中的用途。他们得出了以下结果：

ChatGPT 可以根据科学文献进行微调，并可用于生成特定疾病最新研究的摘要。这可以帮助研究人员确定新的潜在靶标或更好地了解特定领域的研究现状。
通过在一组已建立的类药物分子上训练 ChatGPT，可以产生具有相似特征的新型化学结构。这种方法可以帮助科学家在临床前和临床研究中以更高的成功率识别新的先导化合物。
ChatGPT 可以预测新药的药代动力学和药效学，支持早期药物发现中化学库的虚拟筛选。
ChatGPT 可以在毒性数据的数据集上进行训练，然后用于预测新药的潜在毒性作用。

Sharma, Gaurav, and Abhishek Thakur. "ChatGPT in drug discovery." (2023).

ChatGPT/GPT-4 在计算生物学中的使用

以下是计算生物学家使用 ChatGPT/GPT-4 优化工作流程的一些方法：

使用 ChatGPT 可以提高代码的可读性和文档。
ChatGPT 可以协助编写高效的代码。
研究人员可以通过 RStudio 和 Visual Studio Code 的插件将 ChatGPT 集成到他们的 IDE 中。
ChatGPT 可以通过帮助更清晰地表达想法来改进科学写作。
ChatGPT 可用于清理和协调数据。
可以改进数据可视化，因为 ChatGPT 可以建议新的可视化技术并增强现有数据。
GPT API 可用于针对特定应用对系统进行微调，并且可以调整参数以控制响应的创造性和重复性。

Lubiana, Tiago, Rafael Lopes, Pedro Medeiros, Juan Carlo Silva, Andre Nicolau Aquime Goncalves, Vinicius Maracaja-Coutinho, and Helder I. Nakaya. "Ten Quick Tips for Harnessing the Power of ChatGPT/GPT-4 in Computational Biology." arXiv preprint arXiv:2303.16429 (2023).

生物信息学中的 ChatGPT

一组研究人员已经证明了在生物信息学教育中使用 ChatGPT 来帮助学生生成用于科学数据分析任务的代码的可行性。在他们的研究中，ChatGPT 生成代码将短读取与人类参考基因组进行比对，并将比对总结为整个基因组的计数。

ChatGPT 还可以帮助学生进行系统发育分析。研究人员使用模型生成的 R 代码为九个物种创建了系统发育树。在他们的研究中，研究人员还表明，ChatGPT 可以充当虚拟助教，向学生教授分而治之的方法。

Shue, Evelyn, Li Liu, Bingxin Li, Zifeng Feng, Xin Li, and Gangqing Hu. "Empowering beginners in bioinformatics with chatgpt." bioRxiv (2023): 2023-03.

药物开发中的 ChatGPT

一组研究人员展示了 ChatGPT 在预测和解释常见药物相互作用 (DDI) 方面的有效性。他们从以前发表的文献中准备了总共 40 个 DDI 列表。他们的研究表明，ChatGPT 在预测和解释 DDI 方面部分有效。

无法立即访问医疗机构的患者可以从 ChatGPT 获得帮助以获取有关 DDI 的信息。但是，有时，该模型可能会提供不完整的指导。因此，需要进一步改进，以便患者潜在使用以获得有关 DDI 的想法。

Juhi, Ayesha, Neha Pipil, Soumya Santra, Shaikat Mondal, Joshil Kumar Behera, Himel Mondal, Neha Pipil Sr, Soumya Santra Sr, and Joshil K. Behera IV. "The capability of ChatGPT in predicting and explaining common drug-drug interactions." Cureus 15, no. 3 (2023).

药理学中的 ChatGPT

以下是 ChatGPT 在药理学中的用例：

ChatGPT 可以从科学文献中准确获取典型的 PK 参数。
该模型可以在R中生成群体PK模型。
ChatGPT 能够开发用于可视化的交互式 Shiny 应用程序。
使用 ChatGPT，可以用最少的编码知识开发 R 代码。此外，使用它可以很容易地调试错误。

Cloesmeijer, Michael, Alexander Janssen, Sjoerd Koopman, Marjon Cnossen, Ron Mathot, Amsterdam UMC Locatie AMC, and U. M. C. Amsterdam. "ChatGPT in pharmacometrics? Potential opportunities and limitations." (2023).

基因GPT

GeneGPT 是一种新颖的方法，用于教授 LLM 使用国家生物技术信息中心 (NCBI) Web API 来回答基因组学问题。GeneGPT 在 GeneTuring 数据集中 75% 的单次任务和 80% 的零次任务上取得了最先进的结果。GeneGPT 可以使用领域工具来增强 LLM，以改善对生物医学信息的访问。

Jin, Qiao, Yifan Yang, Qingyu Chen, and Zhiyong Lu. "GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information." ArXiv (2023).

癌症GPT

CancerGPT 是同类首创的少样本学习模型，它利用 LLM 来预测缺乏结构化数据和特征的稀有组织中的药物对协同作用。它包含大约 124M 个参数，甚至可以与具有 175B 个参数的更大的微调 GPT-3 模型相媲美。CancerGPT 展示了 LLM 为生物推理提供替代方法的潜力。

Li, Tianhao, Sandesh Shetty, Advaith Kamath, Ajay Jaiswal, Xianqian Jiang, Ying Ding, and Yejin Kim. "CancerGPT: Few-shot Drug Pair Synergy Prediction using Large Pre-trained Language Models." arXiv preprint arXiv:2304.10946 (2023).

医学研究中的 ChatGPT

ChatGPT 可以分析大量数据，包括科学文章、医学报告和患者报告。所有这些分析都可以为骨科疾病的症状和治疗方案提供新的见解。

ChatGPT 可以从文本中提取相关信息，并以结构化的形式呈现。ChatGPT 还可以帮助研究人员创建新的假设。此外，ChatGPT 通过分析患者记录和识别常见模式，可用于开发临床决策和支持系统。

Dahmen, Jari, M. Kayaalp, Matthieu Ollivier, Ayoosh Pareek, Michael T. Hirschmann, Jon Karlsson, and Philipp W. Winkler. "Artificial intelligence bot ChatGPT in medical research: the potential game changer as a double-edged sword." Knee Surgery, Sports Traumatology, Arthroscopy (2023): 1-3.

医学中的 ChatGPT

ChatGPT 可以让研究人员了解特定领域的最新文献。它可以为手术后的患者写一份出院小结。该模型可以帮助处理患者出院记录、总结最近的试验、提供有关伦理准则的信息等。

Waisberg, Ethan, Joshua Ong, Mouayad Masalkhi, Sharif Amit Kamran, Nasif Zaman, Prithul Sarker, Andrew G. Lee, and Alireza Tavakkoli. "GPT-4: a new era of artificial intelligence in medicine." Irish Journal of Medical Science (1971-) (2023): 1-4.

参考资料

https://www.nature.com/articles/s41587-022-01618-2
https://arxiv.org/abs/2304.05376
https://chemrxiv.org/engage/chemrxiv/article-details/63d56c13ae221ab9b240932f
https://arxiv.org/abs/2303.16429
https://www.biorxiv.org/content/10.1101/2023.03.07.531414v1.abstract
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10105894/
https://europepmc.org/article/ppr/ppr650004
https://arxiv.org/abs/2304.09667
https://arxiv.org/abs/2304.10946
https://link.springer.com/article/10.1007/s00167-023-07355-6
https://link.springer.com/article/10.1007/s11845-023-03377-8

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。