微软亚研院：实现大模型价值对齐的BaseAlign算法丨大模型安全与对齐读书会·周六直播

导语

随着人工智能技术的快速发展，大模型已经逐步应用于人们的日常生活，但这同时也带来了很多潜在风险，进一步凸显了大模型与人类价值观对齐问题的紧迫性。然而，人工智能应该与哪些价值观进行对齐？又该如何有效地对齐？这些问题至今还没有明确的答案。

大模型安全与对齐读书会的第十一期我们邀请到微软亚洲研究院研究员姚菁，她将介绍实现大模型价值对齐的基于施瓦茨人类基本价值理论的BaseAlign对齐算法。本次分享免费公开给大众，回放可免费获取！

内容简介

为了解决上述挑战，微软亚洲研究院提出了价值观罗盘（Value Compass）项目，从交叉学科的角度切入，充分借鉴道德学和社会科学中的理论，以解决对价值观的定义、评测和对齐问题。本次报告将回顾大模型价值观的对齐现状，并介绍我们在这一领域取得的最新研究成果——基于施瓦茨人类基本价值理论的BaseAlign对齐算法。

分享内容大纲

大模型价值观对齐的研究现况
BaseAlign算法：在基本价值空间中实现大模型对齐

基本价值观空间搭建
基本价值观数据集构建
BaseAlign对齐算法介绍

主要涉及到的前置知识

大模型价值对齐
施瓦茨人类基本价值理论

主讲人介绍

姚菁，微软亚洲研究院社会计算组（MSRA, Social Computing Group）研究员。感兴趣从跨学科的角度出发来讨论大模型价值观对齐的目标和方法。在SIGIR, WWW, CIKM 等顶尖国际会议发表过多篇文章。

研究方向：负责任的人工智能和大模型价值观对齐。

圆桌嘉宾介绍

沈田浩，天津大学自然语言处理实验室（TJUNLP）三年级博士生，导师为熊德意教授，曾获得第九届对话技术挑战赛 (DSTC9) “端到端多领域任务型对话”赛道第一名，在ACL、EMNLP等国际会议上发表多篇学术论文，撰写了大规模语言模型对齐技术的综述（https://arxiv.org/abs/2309.15025），并担任ACL, EMNLP, AACL等会议的审稿人。

研究方向：对话系统、检索式问答和大规模语言模型等。

主持人介绍

任麒冰，上海交通大学二年级博士生，吴文俊人工智能荣誉博士班班长，导师是马利庄教授，安远AI安全与对齐学者。他参与的研究项目曾在CVPR、NeurIPS、KDD、ICLR等ML/CS会议上发表。

研究方向：基础语言模型的安全和对齐等。

涉及到的参考文献

From Instruction to Basic Human Values: A Survey of Alignment Goals for Big Models https://arxiv.org/pdf/2308.12014.pdf
On the Essence and Prospect: An Investigation of Alignment Approachhttps://arxiv.org/pdf/2403.04204.pdf
Value FULCRA：Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values https://arxiv.org/pdf/2311.10766.pdf

直播信息

时间：

2024年4月28日（周日）晚上20:00-21:00

参与方式：

本次分享免费面向大众，用户可从集智斑图下大模型安全与对齐读书会主页免费观看本次分享的回放。

若感兴趣大模型安全与对齐读书会系列分享，可扫码参与大模型安全与对齐读书会，加入群聊，可获取系列读书会回看权限，成为大模型安全与对齐读书会社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动大模型安全与对齐读书会社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。具体见系列读书会详情：2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线。

大模型安全与对齐读书会

大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬，也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下，AI安全与对齐得到广泛关注，这是一个致力于让AI造福人类，避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。

详情请见：

2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线

特别鸣谢安远AI对本次读书会的内容贡献。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。