随着人工智能技术的快速发展,大模型已经逐步应用于人们的日常生活,但这同时也带来了很多潜在风险,进一步凸显了大模型与人类价值观对齐问题的紧迫性。然而,人工智能应该与哪些价值观进行对齐?又该如何有效地对齐?这些问题至今还没有明确的答案。大模型安全与对齐读书会的第十一期我们邀请到微软亚洲研究院研究员姚菁,她将介绍实现大模型价值对齐的基于施瓦茨人类基本价值理论的BaseAlign对齐算法。本次分享免费公开给大众,回放可免费获取!为了解决上述挑战,微软亚洲研究院提出了价值观罗盘(Value Compass)项目,从交叉学科的角度切入,充分借鉴道德学和社会科学中的理论,以解决对价值观的定义、评测和对齐问题。本次报告将回顾大模型价值观的对齐现状,并介绍我们在这一领域取得的最新研究成果——基于施瓦茨人类基本价值理论的BaseAlign对齐算法。
姚菁,微软亚洲研究院社会计算组(MSRA, Social Computing Group)研究员。感兴趣从跨学科的角度出发来讨论大模型价值观对齐的目标和方法。在SIGIR, WWW, CIKM 等顶尖国际会议发表过多篇文章。
沈田浩,天津大学自然语言处理实验室(TJUNLP)三年级博士生,导师为熊德意教授,曾获得第九届对话技术挑战赛 (DSTC9) “端到端多领域任务型对话”赛道第一名,在ACL、EMNLP等国际会议上发表多篇学术论文,撰写了大规模语言模型对齐技术的综述(https://arxiv.org/abs/2309.15025),并担任ACL, EMNLP, AACL等会议的审稿人。研究方向:对话系统、检索式问答和大规模语言模型等。任麒冰,上海交通大学二年级博士生,吴文俊人工智能荣誉博士班班长,导师是马利庄教授,安远AI安全与对齐学者。他参与的研究项目曾在CVPR、NeurIPS、KDD、ICLR等ML/CS会议上发表。From Instruction to Basic Human Values: A Survey of Alignment Goals for Big Models
https://arxiv.org/pdf/2308.12014.pdf
On the Essence and Prospect: An Investigation of Alignment Approachhttps://arxiv.org/pdf/2403.04204.pdf
- Value FULCRA:Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values https://arxiv.org/pdf/2311.10766.pdf
2024年4月28日(周日)晚上20:00-21:00本次分享免费面向大众,用户可从集智斑图下大模型安全与对齐读书会主页免费观看本次分享的回放。若感兴趣大模型安全与对齐读书会系列分享,可扫码参与大模型安全与对齐读书会,加入群聊,可获取系列读书会回看权限,成为大模型安全与对齐读书会社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动大模型安全与对齐读书会社区的发展。大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬,也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下,AI安全与对齐得到广泛关注,这是一个致力于让AI造福人类,避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会,由多位海内外一线研究者联合发起,旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。