从自动驾驶到医疗诊断,再到金融分析与客户服务,AI 系统的能力在不断提升,使得它们能够处理更加复杂和高风险的任务。但一些 AI 系统展现出的不良行为,引发了对 AI 系统潜在危害的担忧,一个关键问题也随之而来:如何确保 AI 系统的行为与人类的意图和价值观保持一致?
AI 系统与人类价值观一致性的重要性不仅体现在避免系统做出有悖于人类意愿的行为上,更关乎于社会的长期稳定和发展。因此,研究和开发能够理解并尊重人类价值观的 AI 系统,已经成为 AI 领域的一个重要议题。
近期,来自北大的研究团队整理了一份详尽的 AI 对齐最新综述,本文概述了当前人工智能对齐研究的全貌,依据四个关键原则,将其分解为两个关键组成部分:前向对齐和后向对齐,从而进行更全面的讨论。当前的研究和实践将这些目标纳入了反馈学习、分布偏移学习、保证和治理等四个领域。AI 对齐的目标不仅仅是为了避免 AI 系统的不良行为,更重要的是确保其在执行任务时符合人类的意图和价值观。
论文题目: AI Alignment: A Comprehensive Survey
论文链接: https://arxiv.org/abs/2310.19852
博客地址: http://www.alignmentsurvey.com
GitHub 地址: https://github.com/PKU-Alignment
近年来研究人员对大型语言模型(LLM)和强化学习(RL)的深入探索,重新点燃了人们对先进 AI 系统潜力的兴趣。作者整合并综述了 AI 对齐相关的研究,并在博客中展示了下面这些对齐的示例:
▲AI 对齐的示例
背景阐述
RICE 原则:AI 对齐的四大支柱
如何构建符合人类意图和价值观的 AI 系统?AI 对齐的核心目标可以概括为四个关键原则:鲁棒性(Robustness)、可解释性(Interpretability)、可控性(Controllability)和道德性(Ethicality)简称为 RICE。这四个原则指导着 AI 系统与人类意图和价值观的一致性。
鲁棒性:指 AI 系统在各种环境下可靠运行,并能抵御意外干扰的能力。
可解释性:要求我们能够理解 AI 系统内部的推理过程,特别是不透明的神经网络。通过解释性工具,使决策过程对用户和利益相关者开放和可理解,从而确保系统的安全性和可操作性。
可控性:确保 AI 系统的行为和决策过程受到人类的监督和干预。这意味着人类可以及时纠正系统行为中的偏差,确保系统在部署过程中保持对齐。
本文对 AI 对齐领域进行综述,包括前向对齐和后向对齐的研究方向,以及保证方法和治理实践。AI 对齐领域的多样性带来了创新和挑战,要求我们采取开放式探索和多角度考虑,以确保 AI 系统的安全、可解释性和人类价值观契合性。
AI 对齐的研究需要结合前瞻性和面向当下的视角,未来的研究需要持续更新,以反映机器学习的最新发展,并强调政策相关性和社会复杂性在 AI 对齐中的重要程度。
随着 AI 系统越来越多地融入社会,对齐将不再仅是单纯的智能体问题,而是一个社会问题。这要求 AI 系统不仅要与人类意图对齐,还要考虑社会复杂性和道德价值。
参考资料
[1]CHRISTIANO P F, LEIKE J, BROWN T, et al. Deep reinforcement learning from human preferences[J]. Advances in neural information processing systems, 2017, 30.
[2]BAI Y, JONES A, NDOUSSE K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[A]. 2022.
[3]AKROUR R, SCHOENAUER M, SEBAG M. Preference-based policy learning[C]//Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2011, Athens, Greece, September 5-9, 2011. Proceedings, Part I 11. Springer, 2011: 12-27.
[4]WIRTH C, AKROUR R, NEUMANN G, et al. A survey of preference-based reinforcement learning methods[J]. Journal of Machine Learning Research, 2017, 18(136): 1-46.
[5]SILVER D, SINGH S, PRECUP D, et al. Reward is enough[J]. Artificial Intelligence, 2021, 299: 103535
[6]HUSSEIN A, GABER M M, ELYAN E, et al. Imitation learning: A survey of learning methods[J]. ACM Computing Surveys (CSUR), 2017, 50(2): 1-35.
[7]KRUEGER D, MAHARAJ T, LEIKE J. Hidden incentives for auto-induced distributional shift[A]. 2020.
[8]THULASIDASAN S, THAPA S, DHAUBHADEL S, et al. An effective baseline for robustness to distributional shift[C]//2021 20th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE, 2021: 278-285.
[9]SHAH R, VARMA V, KUMAR R, et al. Goal misgeneralization: Why correct specifications aren’t enough for correct goals[A]. 2022.
[10]VAPNIK V. Principles of risk minimization for learning theory[J]. Advances in neural information processing systems, 1991, 4.
[11]KRUEGER D, CABALLERO E, JACOBSEN J H, et al. Out-of-distribution generalization via risk extrapolation (rex)[C]//International Conference on Machine Learning. PMLR, 2021: 5815-5826.
[12]LUBANA E S, BIGELOW E J, DICK R P, et al. Mechanistic mode connectivity[C]//International Conference on Machine Learning. PMLR, 2023: 22965-23004.
[13]SONG Y, SHU R, KUSHMAN N, et al. Constructing unrestricted adversarial examples with generative models[J]. Advances in Neural Information Processing Systems, 2018, 31.
[14]YOO J Y, QI Y. Towards improving adversarial training of NLP models[C/OL]//Findings of the Association for Computational Linguistics: EMNLP 2021. Punta Cana, Dominican Republic: Association for Computational Linguistics, 2021: 945-956. https://aclanthology.org/2021.findings-emnlp.81. DOI: 10.18653/v1/2021.findings-emnlp.81.
[15]DAFOE A, HUGHES E, BACHRACH Y, et al. Open problems in cooperative ai[A]. 2020.
[16]RÄUKER T, HO A, CASPER S, et al. Toward transparent ai: A survey on interpreting the inner structures of deep neural networks[C]//2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML). IEEE, 2023: 464-483.
[17]FORBES M, HWANG J D, SHWARTZ V, et al. Social chemistry 101: Learning to reason about social and moral norms[C/OL]//WEBBER B, COHN T, HE Y, et al. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, November 16-20, 2020. Association for Computational Linguistics, 2020: 653-670. https://doi.org/10.18653/v1/2020.emnlp-main.48. DOI: 10.18653/V1/2020.EMNLP-MAIN.48.