a16z整理了AI大模型领域的经典阅读资料

Andreessen Horowitz（称为 “a16z”）是 2009 年成立的一家风险投资公司，曾经投资了包括 Skype、Facebook、Twitter、Instagram、Groupon、Zynga、Foursquare 等在内的多家知名互联网公司。最近 a16z 汇总了一份关于 AI 大模型的经典资料，内容涉及论文、博客、课程、视频等。本文是对这份资料的翻译。

人工智能的研究正在以指数级的速度增长。人工智能专家很难跟上所有新发布的内容，初学者更难知道从哪里开始。

在这篇文章中，我们分享了一份精选的资源清单，这些资源能帮助我们更深入地了解现代人工智能。我们称之为 “AI 经典文集”，因为这些论文、博客、课程和指南在过去几年对该领域产生了重要影响。

我们首先简要介绍正在推动当前 AI 浪潮的 Transformer 和潜在扩散模型。接下来，我们深入探讨了技术学习资源，以及使用大语言模型（LLM）进行构建的实践指南和对 AI 市场的分析。最后，我们还提供了一个里程碑式研究成果的参考列表，其中包括谷歌于 2017 年发布的《Attention is All You Need》一文，该论文引入了 Transformer 模型，并开启了生成式 AI 的时代。

#01

简单介绍

这些文章不需要专业背景，可以帮助你快速了解现代 AI 浪潮中最重要的部分。

《Software 2.0》：Andrej Karpathy 在 2017 年首次清晰地解释了为什么新的 AI 浪潮非常重要。他认为 AI 是一种全新而强大的编程方式。随着大语言模型（LLM）的快速改进，这个论点得到了证实，并为我们对 AI 市场的发展提供了良好的思维模型。

文章链接：https://karpathy.medium.com/software-2-0-a64152b37c35

《GPT 现状》：同样来自 Karpathy，这是一篇非常易懂的介绍性文章，介绍了 ChatGPT / GPT 模型的工作原理，如何使用它们以及研发可能的方向。

文章链接：https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2

《ChatGPT 在做什么…… 以及它是如何工作的？》：计算机科学家兼企业家 Stephen Wolfram 从基本原理出发，以长篇且高度可读的方式解释了现代 AI 模型的工作原理。他从早期的神经网络一直追溯到如今的 LLM 和 ChatGPT。

文章链接：https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/

《Transformer 的解释》：这篇文章由 Dale Markowitz 撰写，直接回答了 “什么是 LLM，以及它是如何工作的？” 这是一个很好的方式，让你逐渐了解这个主题，并培养对这项技术的感觉。这篇文章是关于 GPT-3 的，但仍然适用于更新的模型。

文章链接：https://daleonai.com/transformers-explained

《稳定扩散的工作原理》：这是对上一篇文章的计算机视觉类比。Chris McCormick 以非专业人士可以理解的方式解释了稳定扩散的工作原理，并为文本到图像模型提供了一般性的直觉。如果需要更简单的介绍，可以查看 r/StableDiffusion 上的这个漫画。

文章链接：https://mccormickml.com/2022/12/21/how-stable-diffusion-works/

漫画链接：https://www.reddit.com/r/StableDiffusion/comments/zs5dk5/i_made_an_infographic_to_explain_how_stable/

#02

基础学习：神经网络、反向传播和 Embedding

这些资源提供了对机器学习和人工智能基本概念的基础理解，从深度学习的基础知识到来自人工智能专家的大学级课程。

解释类资源

《深度学习概述：核心概念》：这是 Nvidia 的一个系列文章，一共四篇，介绍了 2015 年的深度学习基础知识，适合刚开始学习 AI 的人。

文章链接：https://developer.nvidia.com/blog/deep-learning-nutshell-core-concepts/

《面向开发者的实用深度学习》：这是一门全面而且免费的课程，通过实际示例和代码解释了 AI 的基础知识。

课程链接：https://course.fast.ai/

《Word2vec 解释》：简单介绍了 Embedding 和 Token，它们是 LLM（大语言模型）和所有语言模型的构建基块。

文章链接：https://towardsdatascience.com/word2vec-explained-49c52b4ccb71

《你确实应该了解反向传播》：如果你想详细了解反向传播的细节，这篇文章会很适合你。如果你想了解更多内容，可以尝试观看斯坦福大学 CS231n 在 YouTube 上的讲座。

文章链接：https://karpathy.medium.com/yes-you-should-understand-backprop-e2f06eab496b

YouTube 链接：https://www.youtube.com/watch?v=i94OvYb6noo

课程类资源

斯坦福大学 CS229：由 Andrew Ng 主讲的机器学习导论，涵盖了机器学习的基础知识。

课程链接：https://www.youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU

斯坦福大学 CS224N：由 Chris Manning 主讲的深度学习自然语言处理课程，从自然语言处理的基础知识讲起，介绍了第一代 LLM。

课程链接：https://www.youtube.com/playlist?list=PLoROMvodv4rOSH4v6133s9LFPRHjEmbmJ

#03

深入研究：理解 Transformer 和大模型

这些资源提供了深入理解 Transformer 和大模型的技术细节。

解释类资源

《图解 Transformer》：Jay Alammar 撰写的更为技术性的 Transformer 架构概述。

文章链接：https://jalammar.github.io/illustrated-transformer/

《注释版 Transformer》：如果你想在源码级别理解 Transformer。需要对 PyTorch 有一定了解。

文章链接：http://nlp.seas.harvard.edu/annotated-transformer/

《让我们构建 GPT》：从头开始，使用代码详细讲解如何构建 GPT 模型。

视频链接：https://www.youtube.com/watch?v=kCc8FmEb1nY

《图解稳定扩散》：介绍了潜在扩散模型，这是图像生成 AI 模型中最常见的类型。

文章链接：https://jalammar.github.io/illustrated-stable-diffusion/

《RLHF：从人类反馈中进行强化学习》：Chip Huyen 解释了 RLHF，它可以使 LLM 的行为更加可预测和人性化。这是类似 ChatGPT 系统中最重要但最不为人所知的方面之一。

文章链接：https://huyenchip.com/2023/05/02/rlhf.html

《从人类反馈中进行强化学习》：计算机科学家和 OpenAI 联合创始人 John Shulman 在这个精彩的演讲中更深入地讨论了使用 RLHF 的 LLM 的现状、进展和限制。

演讲链接：https://www.youtube.com/watch?v=hhiLw5Q_UFg

课程类资源

斯坦福大学 CS25：Transformer United，关于 Transformer 的在线研讨会。

课程链接：https://www.youtube.com/watch?v=P127jhj-8-Y

斯坦福大学 CS324：大型语言模型，由 Percy Liang、Tatsu Hashimoto 和 Chris Re 讲授，涵盖了 LLM 的各种技术和非技术方面。

课程链接：https://stanford-cs324.github.io/winter2022/

参考和评论

《预测性学习，NIPS 2016》：Yann LeCun 在这个早期演讲中强烈主张无监督学习作为大规模 AI 模型架构的关键要素。跳到 19:20 处，可以找到著名的蛋糕类比，这仍然是现代 AI 最好的思维模型之一。

演讲链接：https://www.youtube.com/watch?v=Ount2Y4qxQo&t=1072s

《特斯拉全自动驾驶中的 AI》：这是 Karpathy 的另一个经典演讲，这次涵盖了特斯拉的数据收集引擎。从 8:35 开始，他精彩地解释了为什么长尾问题（在这种情况下是停止标志检测）如此困难。

演讲链接：https://www.youtube.com/watch?v=hx7BXih7zx8

《扩展假设》：LLM 中最令人惊讶的一个方面是，扩展 - 增加数据和计算资源 - 可以不断提高准确性。GPT-3 是第一个清楚展示这一点的模型，Gwern 的文章很好地解释了其中的直觉。

文章链接：https://gwern.net/scaling-hypothesis

《Chinchilla 的巨大影响》：虽然表面上是对重要的 Chinchilla 论文的解释（见下文），但这篇文章深入探讨了 LLM 扩展中一个重要问题：我们是否在耗尽数据？它在前面的文章基础上构建，并对扩展规律提供了新的视角。

文章链接：https://www.lesswrong.com/posts/6Fpvch8RR29qLEWNH/chinchilla-s-wild-implications

《大语言模型综述》：对当前 LLM 的全面分析，包括开发时间线、规模、训练策略、训练数据、硬件等方面。

文章链接：https://arxiv.org/pdf/2303.18223v4.pdf

《通用人工智能的花火 ——GPT-4》：微软研究的早期分析，对比 GPT-4 这一目前最先进的 LLM 与人类智能的能力。

文章链接：https://arxiv.org/abs/2303.12712

《AI 革命：Auto-GPT 如何引发自动化和创造力的新时代》：对 Auto-GPT 和 AI 代理的介绍。虽然这项技术还处于早期阶段，但了解它非常重要 —— 它利用互联网访问和自动生成的子任务来解决特定、复杂的问题或目标。

文章链接：https://pub.towardsai.net/the-ai-revolution-how-auto-gpt-unleashes-a-new-era-of-automation-and-creativity-2008aa2ca6ae

《Waluigi Effect（瓦路易吉效应）》：虽然名义上是解释 “Waluigi Effect”（即为什么 LLM 行为中会出现 “替身”），但更有趣的是它对 LLM 提示理论进行了深入探讨。

文章链接：https://www.lesswrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post

#04

使用 LLM 构建实用指南

以 LLM 为核心的新应用程序堆栈正在出现。尽管目前还没有很多正式的教育资源涉及这个主题，我们还是整理了一些我们认为最有用的资源。

参考资料

《使用 GPT3、LangChain 和 Python 构建 GitHub 支持机器人》：这是最早公开解释现代 LLM 应用程序堆栈的资源之一。其中的一些建议可能有些过时，但它在很大程度上推动了广泛采用和对新型 AI 应用程序的实验。

文章链接：https://dagster.io/blog/chatgpt-langchain

《构建用于生产的 LLM 应用程序》：Chip Huyen 讨论了构建 LLM 应用程序时的关键挑战，以及如何解决这些挑战和哪些用例最合适。

文章链接：https://huyenchip.com/2023/04/11/llm-engineering.html

《提示工程指南》：对于撰写 LLM 提示的人，包括应用程序开发者，这是最全面的指南，其中包含了一些流行模型的具体示例。如果你希望更轻松、更有对话性的处理方式，请尝试 Brex 的提示工程指南。

文章链接：https://www.promptingguide.ai/

《提示注入：最坏的情况是什么？》：提示注入是潜在的严重安全漏洞，对 LLM 应用程序而言，目前还没有完美的解决方案。Simon Willison 在这篇文章中详细描述了这个问题。Simon 在 AI 领域的文章几乎都非常出色。

文章链接：https://simonwillison.net/2023/Apr/14/worst-that-can-happen/

《OpenAI 菜单》：对于开发人员来说，这是使用 OpenAI API 的权威指南和代码示例集合。它会持续不断地更新，提供新的代码示例。

文章链接：https://github.com/openai/openai-cookbook/tree/main

《Pinecone 学习中心》：许多 LLM 应用程序基于向量搜索范式。尽管 Pinecone 的学习中心是品牌内容，但它提供了一些关于如何构建这种模式的最有用的指导。

文章链接：https://www.pinecone.io/learn/

《LangChain 文档》：作为 LLM 应用程序的默认编排层，LangChain 连接了堆栈中的几乎所有其他部分。因此，它们的文档是了解整个堆栈及其各个部分如何配合的重要参考。

文章链接：https://python.langchain.com/en/latest/index.html

课程

《LLM 训练营》：由 Charles Frye、Sergey Karayev 和 Josh Tobin 提供的实践课程，旨在构建基于 LLM 的应用程序。

课程链接：https://fullstackdeeplearning.com/llm-bootcamp/

《Hugging Face Transformers》：使用 Hugging Face Transformers 库中的开源 LLM 的指南。

课程链接：https://huggingface.co/learn/nlp-course/chapter1/1

LLM 基准测试

《Chatbot Arena》：加州大学伯克利分校的团队领导的流行 LLM 的 Elo 排名系统。用户还可以通过模型之间的比较参与其中。

文章链接：https://lmsys.org/blog/2023-05-03-arena/

Open LLM Leaderboard：Hugging Face 提供的排名，比较了一系列标准基准和任务中的开源 LLM 模型。

文章链接：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

#05

市场分析

我们都对生成式 AI 能够产生的作品感到惊叹，但还有许多问题存在。哪些产品和公司将会生存下去并且蓬勃发展？艺术家们会面临什么情况？公司应该如何利用它？它将如何影响就业和整个社会？以下内容试图尝试回答这些问题。

16z 的思考

《谁拥有生成式 AI 平台？》：我们对生成式人工智能基础设施、模型和应用层的价值积累及可能积累的旗舰评估。

文章链接：https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/

《应对 AI 计算的高成本》：详细分析了为什么生成式 AI 模型需要如此多的计算资源，以及如何在需求旺盛的市场中考虑获取这些资源（即以合适的成本获得适量、合适的 GPU）。

文章链接：https://a16z.com/2023/04/27/navigating-the-high-cost-of-ai-compute/

《艺术并未消亡，而是由机器生成》：探讨了 AI 模型如何比如软件开发等领域更快地改变创意领域，这些领域通常被认为是抵抗自动化的最后一块阵地。

文章链接：https://a16z.com/2022/11/16/creativity-as-an-app/

《游戏中的生成式 AI 革命》：我们的游戏团队深入分析了轻松创建高度详细图形将如何改变游戏设计师、工作室和整个市场的能力。我们的游戏团队还专门讨论了 AI 生成内容与用户生成内容的兴起。

文章链接：https://a16z.com/2022/11/17/the-generative-ai-revolution-in-games/

《对于 B2B 生成式 AI 应用来说，少即是多吗？》：预测 LLM 将如何在 B2B 企业应用领域发展，核心观点是总结信息将比生成文本更具价值。

文章链接：https://a16z.com/2023/03/30/b2b-generative-ai-synthai/

《金融服务行业将比你想象中更快地采用生成式 AI》：论述了金融服务行业有望利用生成式 AI 实现个性化的消费体验、高效运营、更好的合规性、改进的风险管理以及动态预测和报告。

文章链接：https://a16z.com/2023/04/19/financial-services-will-embrace-generative-ai-faster-than-you-think/

《生成式 AI：下一代消费者平台》：探讨了生成式人工智能在从疗法到电子商务等各个领域对消费者市场产生影响的机会。

文章链接：https://a16z.com/2023/02/07/everyday-ai-consumer/

《要在医疗保健领域产生真正的影响，AI 需要像我们一样学习》：AI 有望彻底改变我们预防和治疗疾病的方式。然而，要真正改变从药物发现到护理交付的过程，我们应该投资于创建一个 “专家” AI 的生态系统，让其像我们最优秀的医生和药物研发人员一样进行学习。

文章链接：https://time.com/6274752/ai-health-care/

《新的工业革命：生物与 AI》：下一个人类历史上的工业革命将是由 AI 驱动的生物学革命。

文章链接：https://a16z.com/2023/05/17/the-new-industrial-revolution-bio-x-ai/

其他观点

《关于基础模型的机会和风险》：斯坦福大学的基础模型综述论文。这篇论文具有明确的观点，对术语的形成产生了影响。

文章链接：https://arxiv.org/abs/2108.07258

《AI 报告》：关于 AI 领域的年度综述，包括技术突破、行业发展、政治 / 监管、经济影响、安全性以及对未来的预测。

文章链接：https://www.stateof.ai/

《GPTs 就是 GPTs：对大语言模型对劳动力市场影响潜力的早期研究》：这篇来自 OpenAI、OpenResearch 和宾夕法尼亚大学研究人员的论文预测，“约 80% 的美国劳动力可能至少有 10% 的工作任务受到 LLM 的引入影响，而大约 19% 的工人可能至少有 50% 的工作任务受到影响。”

文章链接：https://arxiv.org/abs/2303.10130

《深度医学：AI 如何使医疗保健重新回归人性》：Eric Topol 博士展示了 AI 如何有潜力解放医生，使其摆脱耗时任务对人际关系的干扰。医患关系得以恢复。

文章链接：https://www.amazon.com/Deep-Medicine-Eric-Topol-audiobook/dp/B07PJ21V5N/

#06

里程碑式的研究成果

今天我们看到的许多令人惊叹的 AI 产品，都是由大公司和领先的大学内的专家进行的同样令人惊叹的研究成果。最近，我们还看到了个人和开源社区的令人印象深刻的工作，他们将流行项目带入了新的方向，例如创建自动化代理或将模型移植到更小的硬件平台。

以下是这些论文和项目的集合，供那些真正想深入了解生成式 AI 的人使用。（对于研究论文和项目，我们还包含了相关博客或网站的链接，可以以更高层次的方式解释内容。同时，我们也包含了原始发表年份，以便你可以追踪基础研究的发展。）

大语言模型

1、新模型

《Attention is all you need（2017 年）》：Google Brain 的原始 Transformer 工作和研究论文，开启了这一领域。

论文链接：https://arxiv.org/abs/1706.03762

博文链接：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

《BERT：深度双向转换器的预训练语言理解（2018 年）》：首批公开可用的大语言模型之一，至今仍有许多变型模式在使用中。

论文链接：https://arxiv.org/abs/1810.04805

博文链接：https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

《通过生成预训练提高语言理解（2018 年）》：OpenAI 的首篇论文，介绍了 GPT 架构，该架构已成为大型语言模型发展的主要路径。

论文链接：https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

博文链接：https://openai.com/research/language-unsupervised

《Language models are few-shot learners（2020 年）》：OpenAI 的论文，描述了 GPT-3 和现代大语言模型的仅解码器架构。

论文链接：https://arxiv.org/abs/2005.14165

《使用人类反馈训练语言模型遵循指令（2022 年）》：OpenAI 的论文，解释了 InstructGPT，通过人类反馈训练模型以更好地遵循提示中的指令，使大型语言模型可用于消费者（例如通过 ChatGPT）。

论文链接：https://arxiv.org/abs/2203.02155

博文链接：https://openai.com/research/instruction-following

《LaMDA：用于对话应用的语言模型（2022 年）》：谷歌推出的模型，专门设计用于人机对话，涵盖广泛的话题。（博客文章）

论文链接：https://arxiv.org/abs/2201.08239

博文链接：https://blog.google/technology/ai/lamda/

《PaLM：通过路径扩展语言建模（2022 年）》：谷歌的 PaLM 利用新系统在数千个芯片上训练大语言模型，并在模型规模扩大时展现了超出预期的改进。

论文链接：https://arxiv.org/abs/2204.02311

博文链接：https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

PaLM-2 技术报告：https://arxiv.org/abs/2305.10403

《OPT：开放预训练 Transformer 语言模型（2022 年）》：OPT 是一种性能优秀的完全开源的大语言模型。这个拥有 1750 亿参数的模型附带代码，并且是使用公开可用的数据集进行训练的。

论文链接：https://arxiv.org/abs/2205.01068

博文链接：https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

《训练计算最优的大语言模型（2022 年）》：Chinchilla 论文。该论文提出大多数模型受数据限制而非计算限制，并改变了对大语言模型扩展的共识。

论文链接：https://arxiv.org/abs/2203.15556

博文链接：https://www.deepmind.com/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training

《GPT-4 技术报告（2023 年）》：OpenAI 的最新、最伟大的论文，因为其所揭示的内容相对较少而闻名！。GPT-4 系统卡片为我们揭示了 OpenAI 在处理幻觉、隐私、安全等问题方面的一些信息。

论文链接：https://arxiv.org/abs/2303.08774

博文链接：https://openai.com/research/gpt-4

《LLaMA：开放且高效的基础语言模型（2023 年）》：来自 Meta 的模型，（几乎）引发了开源大语言模型的革命。它与许多最优秀的闭源模型竞争，但只向研究人员提供受限的许可证。

论文链接：https://arxiv.org/abs/2302.13971

博文链接：https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

《Alpaca：一个强大、可复现的指令跟随模型（2023 年）》：来自斯坦福大学的模型，与纯规模相比，该模型展示了指令调优的能力，尤其是在较小的开源模型中。

论文链接：https://crfm.stanford.edu/2023/03/13/alpaca.html

2、模型改进

《从人类偏好中进行深度强化学习（2017 年）》：关于在游戏和机器人领域中进行强化学习的研究，这证明对于 LLM 来说是一种绝妙的工具。

论文链接：https://proceedings.neurips.cc/paper_files/paper/2017/file/d5e2c0adad503c91f91df240d0cd4e49-Paper.pdf

《用于知识密集型自然语言处理任务的检索增强生成（2020 年）》：由 Facebook 开发的 RAG 是通过信息检索改进 LLM 准确性的两个主要研究路径之一。

论文链接：https://arxiv.org/abs/2005.11401

博文链接：https://ai.facebook.com/blog/retrieval-augmented-generation-streamlining-the-creation-of-intelligent-natural-language-processing-models/

《通过从数万亿 Token 中检索来改进语言模型（2021 年）》：RETRO，即 “检索增强变换器”，是 DeepMind 提出的另一种方法，通过访问其训练数据中未包含的信息来提高 LLM 的准确性。

论文链接：https://arxiv.org/abs/2112.04426

博文链接：https://www.deepmind.com/blog/improving-language-models-by-retrieving-from-trillions-of-tokens

《LoRA：大语言模型的低秩适应（2021 年）》：这项来自微软的研究提出了一种更高效的微调替代方案，用于在新数据上训练 LLM。现在已成为社区微调的标准，尤其适用于图像模型。

论文链接：https://arxiv.org/abs/2106.09685

《Constitutional AI（2022 年）》：Anthropic 团队提出了从 AI 反馈（RLAIF）进行强化学习的概念。其主要思想是通过其他 AI 的监督来开发一个无害的 AI 助手。

论文链接：https://arxiv.org/abs/2212.08073

《FlashAttention：具有 IO 意识的快速且节约内存的 exact attention（2022 年）》：这项来自斯坦福大学的研究为最先进的模型在不需要昂贵的训练时间和成本的情况下理解更长的文本序列（和更高分辨率的图像）打开了大门。

论文链接：https://arxiv.org/abs/2205.14135

博文链接：https://ai.stanford.edu/blog/longer-sequences-next-leap-ai/

《Hungry hungry hippos：：朝着基于状态空间模型的语言建模（2022 年）》：又一篇来自斯坦福大学的论文，这篇论文描述了在语言建模中替代注意力的主要替代方案之一。这是一条有希望实现更好的扩展和训练效率的路径。

论文链接：https://arxiv.org/abs/2212.14052

博文链接：https://hazyresearch.stanford.edu/blog/2023-01-20-h3

图像生成模型

《学习可迁移的视觉模型的自然语言监督（2021 年）》：这篇论文介绍了一个基础模型 CLIP，它能够将文本描述与图像联系起来。这是计算机视觉领域中最早有效、大规模使用基础模型的案例。

论文链接：https://arxiv.org/abs/2103.00020

博文链接：https://openai.com/research/clip

《零样本文本到图像生成（2021 年）》：这篇论文介绍了 DALL-E，它结合了前述的 CLIP 和 GPT-3，能够根据文本提示自动生成图像。它的后继模型 DALL-E 2 在 2022 年掀起了基于图像的生成 AI 的热潮。

论文链接：https://arxiv.org/abs/2102.12092

博文链接：https://openai.com/research/dall-e

《利用潜在扩散模型进行高分辨率图像合成（2021 年）》：这篇论文描述了稳定扩散（发布后引起了广泛的开源关注和增长）。

论文链接：https://arxiv.org/abs/2112.10752

《具有深度语言理解的逼真文本到图像扩散模型（2022 年）》：Imagen 是谷歌进军 AI 图像生成领域的项目。虽然在本文发布时尚未公开发布该模型，但已有一年多的时间过去了。

论文链接：https://arxiv.org/abs/2205.11487

网站链接：https://imagen.research.google/

《DreamBooth：为主题驱动的生成微调文本到图像扩散模型（2022 年）》：DreamBooth 是由谷歌开发的一个系统，用于训练模型识别用户提交的主题，并将其应用到提示的上下文中（例如 [用户] 在埃菲尔铁塔微笑）。

论文链接：https://arxiv.org/abs/2208.12242

网站链接：https://dreambooth.github.io/

《为文本到图像扩散模型添加条件控制（2023 年）》：这篇来自斯坦福大学的论文介绍了 ControlNet，这是一种现在非常流行的工具，可在潜在扩散模型的图像生成中实现细粒度控制。

论文链接：https://arxiv.org/abs/2302.05543

Agent

《迈向自主机器智能的路径（2022 年）》：这是 Meta AI 负责人兼纽约大学教授 Yann LeCun 提出的一个关于如何构建真正理解周围世界的自主智能代理的提议。

论文链接：https://openreview.net/pdf?id=BZ5a1r-kVsf

《ReAct：在语言模型中协同推理和行动（2022 年）》：这是普林斯顿大学和谷歌的一个项目，旨在测试和改进 LLM 的推理和规划能力。

论文链接：https://arxiv.org/abs/2210.03629

博文链接：https://ai.googleblog.com/2022/11/react-synergizing-reasoning-and-acting.html

《生成型代理：人类行为的交互模拟（2023 年）》：斯坦福大学和谷歌的研究人员利用 LLM 为代理提供动力，在类似于《模拟人生》的环境中实现了新颖的交互行为，而非预先编程的行为。

论文链接：https://arxiv.org/abs/2304.03442

《Reflexion：具有动态记忆和自我反思的自主代理（2023 年）》：这项工作来自东北大学和麻省理工学院的研究人员，通过让 LLM 从错误和过去经验中学习，使其能够更可靠地解决问题。

论文链接：https://arxiv.org/abs/2303.11366

《Toolformer：语言模型可以自主学习使用工具（2023 年）》：这个来自 Meta 的项目通过训练 LLM 使用外部工具（例如搜索引擎和计算器的 API）来提高准确性，而无需增加模型的大小。

论文链接：https://arxiv.org/abs/2302.04761

《Auto-GPT：一个自主的 GPT-4 实验》：这是一个开源实验，通过为 GPT-4 提供一系列工具（例如互联网访问、文件存储等），并选择使用哪些工具来解决特定任务，从而拓展了 GPT-4 的能力。

GitHub 链接：https://github.com/Significant-Gravitas/Auto-GPT

《BabyAGI》：这个 Python 脚本利用 GPT-4 和向量数据库（用于存储上下文）来规划和执行一系列解决更广泛目标的任务。

GitHub 链接：https://github.com/yoheinakajima/babyagi

其他数据模态

1、代码生成

《评估基于代码训练的大语言模型（2021 年）》：这篇论文介绍了 Codex，即 GitHub Copilot 产品背后的代码生成模型。这是 OpenAI 的研究成果。

论文链接：https://arxiv.org/abs/2107.03374

博文链接：https://openai.com/blog/openai-codex

《使用 AlphaCode 进行竞赛级别的代码生成（2021 年）》：DeepMind 的这项研究展示了一个能够比人类程序员编写更好代码的模型。

论文链接：https://www.science.org/stoken/author-tokens/ST-905/full

博文链接：https://www.deepmind.com/blog/competitive-programming-with-alphacode

《CodeGen：用于代码的开放式大语言模型，具有多轮程序合成（2022 年）》：CodeGen 是 Salesforce 人工智能研究部门的项目，目前支持 Replit Ghostwriter 代码生成产品。

论文链接：https://arxiv.org/abs/2203.13474

博文链接：https://blog.salesforceairesearch.com/codegen/

2、视频生成

《Make-A-Video：无需文本 - 视频数据的文本到视频生成（2022 年）》：这是 Meta 的一个模型，根据文本提示创建短视频，还能给静态照片添加动态效果或创建现有视频的变体。

论文链接：https://arxiv.org/abs/2209.14792

博文链接：https://makeavideo.studio/

《Imagen Video：使用扩散模型生成高清视频（2022 年）》：这是谷歌的基于图像的 Imagen 模型的一个版本，专门用于根据文本提示生成短视频。

论文链接：https://arxiv.org/abs/2210.02303

网站链接：https://imagen.research.google/video/

3、人体生物学和医学数据

《策略预训练图神经网络（2020 年）》：这篇论文为有效的预训练方法奠定了基础，可应用于药物发现等领域，如分子属性预测和蛋白质功能预测。

论文链接：https://arxiv.org/pdf/1905.12265.pdf

博文链接：https://snap.stanford.edu/gnn-pretrain/

《利用深度学习改进蛋白质结构预测（2020 年）》：DeepMind 的蛋白质中心 Transformer 模型 AlphaFold 实现了从序列预测蛋白质结构，这是一项重大突破，已经在理解生物过程和开发新的疾病治疗方法方面产生了深远影响。

论文链接：https://www.nature.com/articles/s41586-019-1923-7

博文链接：https://www.deepmind.com/blog/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

《大型语言模型编码临床知识（2022 年）》：Med-PaLM 是一种能够正确回答美国医学执照考试样式问题的 LLM。该团队随后发布了 Med-PaLM2 的性能结果，该模型在分数上与 “专家” 考生持平。其他团队还使用 ChatGPT 和 GPT-4 进行了类似的实验。

论文链接：https://arxiv.org/abs/2212.13138

视频链接：https://www.youtube.com/watch?v=saWEFDRuNJc

4、音频生成

《Jukebox：音乐的生成模型（2020 年）》：OpenAI 使用 Transformer 技术进行音乐生成的尝试，能够在经过少量训练的情况下生成音乐、人声和歌词。

论文链接：https://arxiv.org/abs/2005.00341

博文链接：https://openai.com/research/jukebox

《AudioLM：一种基于语言建模的音频生成方法（2022 年）》：AudioLM 是 Google 的一个项目，用于生成多种类型的音频，包括语音和乐器声音。

论文链接：https://arxiv.org/pdf/2209.03143.pdf

博文链接：https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html

《MusicLM：从文本生成音乐（2023 年）》：这是目前人工智能音乐生成领域的最新技术，展示了比以往尝试更高质量和连贯性的结果。

论文链接：https://arxiv.org/abs/2301.11325

博文链接：https://google-research.github.io/seanet/musiclm/examples/

5、多维图像生成

《NeRF：用神经辐射场表示场景进行视图合成（2020 年）》：由加州大学伯克利分校领导的团队进行的研究，利用 5D 坐标 “合成复杂场景的新视角”。

论文链接：https://arxiv.org/abs/2003.08934

网站链接：https://www.matthewtancik.com/nerf

《DreamFusion：使用 2D 扩散从文本生成 3D 图像（2022 年）》：来自谷歌和加州大学伯克利分校的研究人员在 NeRF 的基础上进行了工作，能够从 2D 输入生成 3D 图像。

论文链接：https://arxiv.org/pdf/2209.14988.pdf

网站链接：https://dreamfusion3d.github.io/

分布式实验室最近在策划一期Kubernetes进阶线上课程，欢迎感兴趣的同学扫码进群，一起聊聊你的需求和关注点。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。