ChatGPT已进入课堂:LLMs如何改变教育

新闻特写 2023年11月15日 ChatGPT已进入课堂:LLMs如何改变教育研究人员、教育工作者和公司正在尝试各种方法，将有缺陷但著名的大型语言模型转变为值得信赖、准确的学习“思维伙伴”。

现存的安迪

尽管存在风险，但一些教育工作者看到了使用人工智能聊天机器人来加强教学和学习的巨大潜力。信用:里卡多·文丘里/Contrasto/eyevine

上个月，教育心理学家Ronald Beghetto让一群研究生和教师以一种不同寻常的方式讨论他们的工作。除了相互交谈，他们还与Beghetto设计的一系列专注于创造力的聊天机器人进行了对话，这些机器人将很快在他的研究所亚利桑那州立大学(ASU)运营的平台上运行。这些机器人基于相同的人工智能(AI)技术，该技术为著名的、交谈流利的ChatGPT提供了动力。Beghetto提示机器人扮演各种角色来鼓励创造力——例如，通过故意挑战某人的假设。一名学生与聊天机器人讨论了各种论文主题。讲师们谈论如何设计课堂。反馈非常积极。一名参与者表示，他们之前曾试图使用ChatGPT来支持学习，但没有发现它有什么用处——不像Beghetto的聊天机器人。另一个人问:“这些东西什么时候可以买到？”机器人帮助参与者创造了更多的可能性，这是他们原本无法想象的。

许多教育工作者担心ChatGPT的兴起会让学生更容易在作业中作弊。然而，Tempe的Beghetto和其他人正在探索大型语言模型(LLM)的潜力，如ChatGPT，作为加强教育的工具。使用LLM阅读和总结大篇幅的文本可以节省学生和教师的时间，并帮助他们专注于讨论和学习。ChatGPT清晰地讨论几乎任何话题的能力提高了使用LLM创建个性化、对话式教育体验的前景。一些教育工作者将它们视为潜在的“思想伙伴”，可能比人类导师花费更少，而且不像人类，它们总是可用的。伊利诺伊州尚佩恩市科技公司Wolfram Research的联合创始人西奥多·格雷(Theodore Gray)表示:“一对一辅导是最有效的教学干预措施，但它非常昂贵，而且不可扩展。”“人们已经尝试了软件，它一般不会很好地工作。现在，人们真的有可能制造出有用的教育软件。”格雷告诉《自然》, Wolfram Research目前正在研究一位基于LLM的导师，但没有透露太多细节。这种人工智能伙伴可以用来引导学生一步一步地解决问题，激发批判性思维，或者——就像Beghetto的实验一样——增强用户的创造力，拓宽正在考虑的可能性。田纳西州纳什维尔范德比尔特大学未来学习和生殖人工智能项目主任朱尔斯·怀特称ChatGPT为“大脑的外骨骼”。

风险是真实存在的

自从加州公司OpenAI在2022年11月推出ChatGPT以来，关于它在教育中的使用的很多关注都是负面的。LLM的工作原理是从包含数十亿个例子的训练数据中学习单词和短语之间的关系。为了回应用户的提示，他们会造出句子，包括作业问题的答案，甚至整篇文章。与以前的人工智能系统不同，ChatGPT的答案往往写得很好，看起来也很有研究。这引起了人们的担忧，学生们可能会简单地让ChatGPT为他们做作业，或者至少他们可能会依赖聊天机器人来快速获得答案，而不理解其中的原理。 ChatGPT也可能把学生引入歧途。尽管在一系列商业、法律和学术考试中表现出色，但该机器人是出了名的脆弱，如果问题的措辞稍有不同，它就会出错，甚至会捏造事实，这种问题被称为幻觉。加州大学洛杉机分校的计算机科学家王巍发现，支持免费版ChatGPT的GPT-3.5及其继任者GPT-4在测试大学教科书和考试中的物理、化学、计算机科学和数学问题时，出现了很多错误。王和她的同事试验了不同的方法来询问这两个机器人。他们发现，最好的方法是使用GPT-4，它的机器人可以正确回答大约三分之一的教科书问题(见“艾的教科书错误”)，尽管它在一次考试中获得了80%的分数。

资料来源:参考文献1和2

隐私是另一个障碍:一旦学生意识到他们输入的所有内容都被OpenAI存储起来，并可能被用来训练模型，他们可能会推迟定期与LLM合作。

拥抱LLM

但是尽管面临挑战，一些研究人员、教育工作者和公司在ChatGPT及其底层LLM技术中看到了巨大的潜力。像Beghetto和Wolfram研究一样，他们现在正在试验如何最好地在教育中使用LLM。一些人使用ChatGPT的替代方法，一些人找到了减少不准确性和幻觉的方法，还有一些人提高了LLM的特定学科知识。 “有积极的用途吗？”罗利市北卡罗来纳州立大学专门研究教育系统的计算机科学家科林·林奇问道。“绝对可以。有风险吗？存在巨大的风险和担忧。但我认为有办法减轻这些影响。” 位于巴黎的联合国教育机构联合国教科文组织(UNESCO)的未来学习与创新主任索比·塔威尔(Sobhi Tawil)表示，社会需要帮助学生了解LLM的优势和风险，而不仅仅是禁止他们使用这种技术。9月，联合国教科文组织发表了一份题为《教育和研究中的生殖人工智能指南》的报告。其主要建议之一是，教育机构在使用ChatGPT等工具支持学习之前，应对其进行验证3。一些公司正在营销商业助手，如MagicSchool和Eduaide，它们基于OpenAI的LLM技术，帮助学校教师计划课程活动和评估学生的工作。学者们还开发了其他工具，比如计算机科学家Rebecca Passonneau的团队在宾夕法尼亚州立大学创造的PyrEval4，用来阅读文章和提取关键思想。

一些大学可能会很快实现一种人工智能工具，整合教科书和科学论文中的知识。鸣谢:泰·赖特/彭博via Getty

在威斯康星大学麦迪逊分校教育心理学家Sadhana Puntambekar的帮助下，PyrEval在过去三年里每年给大约2000名中学生在科学课上写的物理作文打分。Puntambekar说，论文不按常规评分，但PyrEval使教师能够快速检查作业是否包含关键主题，并在课堂上提供反馈，否则这是不可能的。 PyrEval的分数也有助于学生反思他们的工作:她说，如果人工智能没有检测到学生认为他们已经包括的主题，这可能表明这个想法需要更清楚地解释，或者他们犯了一些小的概念或语法错误。该团队现在要求ChatGPT和其他LLM做同样的任务，并比较结果。介绍人工智能导师其他组织使用人工智能直接帮助学生。这可能是除ChatGPT本身之外最广泛使用的基于LLM的教育工具；AI导师兼助教Khanmigo。该工具是OpenAI与加州山景城的教育非营利组织Khan Academy合作的结果。使用GPT-4，Khanmigo在学生做练习时为他们提供提示，节省教师的时间。 Khanmigo的工作方式与ChatGPT不同。它以弹出式聊天机器人的形式出现在学生的电脑屏幕上。学生可以讨论他们正在处理的问题。该工具在将学生的问题发送到GPT-4之前会自动添加一个提示，指示机器人不要给出答案，而是提出许多问题。

该学院的首席学习官克里斯汀·迪克博称这一过程为“富有成效的斗争”。但她承认，Khanmigo仍处于试点阶段，有助于学习的问题和太难以至于让学生放弃的问题之间存在细微差别。“关键是要弄清楚这条线在哪里，”她说。 Khanmigo于3月份首次推出，根据Khan Academy的数据，本学年有超过28，000名美国教师和11-18岁的学生正在试用人工智能助手。用户包括私人订户以及30多个学区。个人每年支付99美元来支付LLM的计算费用，学区每年为每个学生支付60美元。为了保护学生隐私，OpenAI已经同意不使用Khanmigo的数据进行训练。但坎米戈是否能真正实现教育革命仍不明朗。LLM被训练成只包含句子中下一个最可能的单词，而不是检查事实。因此，他们有时会弄错。DiCerbo说，为了提高准确性，Khanmigo发送给GPT-4的提示现在包括正确的指导答案。然而，它仍然会出错，Khan Academy要求用户在出错时让组织知道。林奇说，坎米戈似乎做得很好。但他警告说:“我还没有看到明确的验证。” 更广泛地说，林奇强调，在教育中使用的任何聊天机器人都必须仔细检查其语气和准确性，这一点至关重要，而且它不能侮辱或贬低学生，或让他们感到失落。“情感是学习的关键。林奇说:“你可以通过不正当的方式帮助某人来摧毁他们的学习兴趣。 DiCerbo指出，在每种情况下，Khanmigo对每个学生的反应都不同，她希望这种机器人比以前的辅导系统更有吸引力。Khan Academy预计在2024年底或2025年初分享其关于Khanmigo功效的研究。其他辅导公司正在提供法学硕士作为学生的助手，或者正在进行实验。加州圣克拉拉的教育技术公司Chegg在4月推出了一款基于GPT-4的助手。总部位于北京的中国辅导公司TAL Education Group创建了一个名为MathGPT的LLM，据称在回答数学问题时比GPT 4更准确。MathGPT还旨在通过解释如何解决问题来帮助学生。

扩充检索创建人工智能学习伙伴的另一种方法是将LLM与经过严格验证的外部、集中的知识库(如教科书或一组科学论文)集成在一起。这种检索增强生成(RAG)方法的目标是回避验证数十亿文本来源的不可能性，这些来源赋予LLM对话能力。纽约市的人工智能公司Merlyn Mind正在其开源Corpus-qa LLM中使用RAG，该公司的目标是教育。像ChatGPT一样，Merlyn Mind的LLM最初是在一大堆与教育无关的文本上训练的——这赋予了它对话的能力。但与ChatGPT不同的是，当LLM回答一个问题时，它不仅仅依赖于它在训练中所学到的东西。该公司首席执行官萨提亚·尼塔(Satya Nitta)表示，相反，它还指的是特定的信息语料库，这可以最大限度地减少幻觉和其他错误。尼塔说，Merlyn Mind还微调其LLM，如果它们没有高质量的响应，就会“坦白”，并努力产生更好的答案，从而在许多情况下抵制幻觉。

纽约市教育科技公司投资者GSV风险投资公司的副总裁Claire Zau说，亚利桑那州立大学也在使用RAG，这是采用LLM最先进的大学之一。经过最初的小范围测试后，亚利桑那州立大学于10月推出了一个工具箱，使其教职员工能够通过网络界面在教育中实验LLMs。这包括访问六个LLM，包括GPT-3.5，GPT-4和谷歌的Bard，以及RAG功能。这些工具将允许更多的研究人员，如Beghetto，构建聊天机器人供他们的学生互动。在最初的研讨会之后，Beghetto计划在他正在开发的课程中使用机器人。ASU在其私有云中托管LLMs的安全版本，以最大限度地减少隐私问题，ASU人工智能加速执行董事Elizabeth Reilley说，她在凤凰城工作。雷利说，机器人已经对亚利桑那州立大学的教育产生了积极的影响。她举例说，一个为亚利桑那州立大学化学入门课程开发的机器人使用RAG将GPT 3.5与PDF和PowerPoint课程材料结合起来。她举了一个测试的例子，想象一个热爱棒球的学生要求LLM解释基于这项运动的分子中的偶极-偶极相互作用。她说，这个回答是一个准确的解释，融入了“一个棒球隐喻，让它更有意义一点”。位于坦佩的亚利桑那州立大学学习工程研究所执行主任Danielle McNamara表示，使用通用LLM结合RAG不同于以前的机器学习方法，以前的方法试图训练人工智能系统来模拟科学专家。这些工具缺乏通用的能力，例如将棒球融入化学概念的能力，而这种能力可以帮助学生。麦克纳马拉和她的同事们现在计划研究ASU使用的聊天机器人和LLM工具有多有效。其他机构也在接受LLM，包括田纳西州纳什维尔的范德比尔特大学，该大学为某些课程的学生提供了ChatGPT的付费版本，包括使用专门的插件工具。上海华东师范大学的研究人员创建了一个名为EduChat的专门教育LLM，它将论文评估、基于对话的辅导和情感支持结合在一个聊天机器人6中。该团队将该工具作为开源代码共享。虽然EduChat仍处于早期阶段，但它是一个专门的教育LLM，而不是现有的通用模型的改编，如ChatGPT或Bard。它会流行吗？围绕AI在教育中的使用的一个重要问题是谁将有机会使用它，以及Khanmigo等付费服务是否会加剧现有的教育资源不平等。DiCerbo说，Khan Academy现在正在寻找慈善家和赠款，以帮助支付计算能力，并为资源不足的学校提供接入，在试点阶段优先考虑这些学校。“我们正在努力确保数字鸿沟不会发生，”她说。 ChatGPT如何改变博士后的体验另一个挑战是如何确保LLM提供的信息没有偏见，并且模型考虑了来自代表性不足的群体的知识和观点。这类信息在许多培训硕士的教材中是没有的。ASU负责研究技术的副总裁Sean Dudley说，RAG允许ASU的LLM平台向用户提供答案的来源。这并没有消除偏见的问题，但他希望这至少会提供透明度，并为学生提供一个批判性地考虑信息来源的机会。“我们任务的一部分是询问谁被遗漏了，”达德利说。 LLMs对教育的承诺最终是否会超过风险还不清楚。林奇承认它们是强有力的工具，但也寻求关注它们的缺点。“我们不是一夜之间学会飞行的，”他说。他将他们吸引的注意力比作以前大量在线开放课程和被称为元宇宙的3D虚拟世界的教育用途。两者都没有一些人曾经预测的变革力量，但两者都有其用途。“从某种意义上说，这将是一样的。还不错。它并不完美。这不是一切。这是一个新事物，”他说。在联合国教科文组织从事教育工作超过二十年的塔威尔说，理解人工智能的局限性是至关重要的。与此同时，法学硕士如今与人类的努力如此紧密地联系在一起，以至于他表示，有必要重新思考如何教授和评估学习。“它重新定义了什么让我们成为人类，我们的智力有何独特之处。” 自然623，474-477 (2023)doi:https://doi.org/10.1038/d41

参考OpenAI。https://arxiv.org/abs/2303.08774大学预印本(2023)。王，谢等，(2023)预印本。教科文组织。教育和研究中的生成性人工智能指南(UNESCO，2023)。谷歌学术高，孙，陈和帕松瑙，R. J .第23次会议计算机。自然语言学习404–418(2019)。Singh，p .等，正在进行中。里面的糖膏剂学习科学1521–1524(2022)。Dan，y .等人，https://arxiv.org/abs/2308.02773大学预印本(2023年)。586-023-03507-3

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。