“人机共生”时代拉开序幕？ —— 杨小康教授在中共上海市委党校的演讲

。

来源：解放日报作者：杨小康日期：2024-03-12

思想者小传

杨小康上海交通大学人工智能研究院常务副院长、教授，人工智能教育部重点实验室主任，曾获国家科技进步二等奖、上海市科技进步一等奖、国家研究生教育成果二等奖。

前些日子，OpenAI公司发布文生视频大模型Sora，人工智能技术又一次有了突破。有观点提出，生成式人工智能代表人工智能的发展方向，将重塑人类未来。

以电影产业为例，在传统电影创作流程中，往往存在一个“绝望的深渊”：电影从创意到初稿通常会有一段特别痛苦的时候，初稿很难制作出来，从而导致创作拖延。现在，利用Sora可以快速推出创意初稿，后续的改进和迭代得以加速。这一技术还有望帮助生成流体、烟雾、毛发等高度复杂、具有真实感的动态效果，减少特效艺术家的人工干预，特效制作和后期制作的时间也能得以显著缩短。

回顾历史，人工智能发轫于1956年，是一种模拟人类智能的技术。它通过机器学习、深度学习、自然语言处理等技术，实现在数据处理、模式识别、决策推理等方面的自动化和智能化。2013年，深度学习技术在语音识别、视觉识别等任务上取得重要突破。之后，人工智能场景融合能力不断提升，人工智能技术逐渐得到广泛应用和发展。

通常来说，人工智能可以分为判别式人工智能和生成式人工智能两大类模型。其中，判别式人工智能在视频监控、语音识别等领域已经取得很大的成功。但它的不足也日益显现，主要问题在于难以保证通用性。2022年以来，以ChatGPT、Sora等为代表的生成式人工智能通过综合运用大数据、大算力、大模型，逐渐展现出引人关注的创造能力、通用能力、涌现能力。

大模型是人工智能时代“操作系统”

有望全方位融入人类工作生活学习科研

Sora模型的特点可以总结为“真、灵、动”。所谓“真”，是指Sora生成的视频真实感强，能够很好地表现提示词的内容语义，视频细节呈现得恰到好处；“灵”是指生成的视频有一定的灵性和艺术性；“动”指的是视频中的运动场景、物体结构性和时空关联性较好。

Sora主要通过扩散模型来实现“真”和“灵”。扩散模型是一种借鉴物理热力学中扩散原理的生成模型，通过加噪、去噪等，实现由文本驱动图像生成的目的。大数据对于扩散模型的训练非常重要。Sora“看”过大量高质量的图像，“阅图无数”让扩散模型能够学到很精细的特征，进而根据提示词生成细节精细的图像。

Sora的“动”则有赖于Transformer（中文通常翻译为“变形金刚”或“变压器”）。Transformer就是GPT里面的T，本质上是具备“自注意”和“自监督”学习能力的新型神经网络。比如，输入“东方明珠是上海的标志性建筑之一”这样一句话，Transformer可以通过“自注意”机制捕捉到“东方明珠”和“上海”之间的关系；在一篇文章中随机遮掉一定比例的单词或者句子，让Transformer自己监督自己，学会做完形填空（填上“东方明珠”这个名字）、句子接龙（接上“东方明珠是上海的标志性建筑之一”），甚至更复杂的任务。

OpenAI公司把人工智能的数据、模型、算力的规模和性能，在如此短的时间内提升到眼下的程度是令人惊讶的。这反映了人工智能技术的一个趋势——“迭代速度越来越快”，其背后可能有一个“AI摩尔定律”在驱动，即“宇宙中的智能数量每18个月翻一倍”。有理由相信，“AI摩尔定律”在相当长的时期内可以得到延续。

与之相伴，生成式人工智能作为新质生产力，正从广度和深度上影响人类社会发展。

在广度上，生成式人工智能正在成为“人机共生”时代的新型生产力。在办公方面，微软公司借助大模型打通了办公生态，帮助用户解锁生产力、释放创造力以及升级各种技能；在编程领域，人工智能代码提示工具可以提供约46%的代码提示与自动补全，程序开发效率得以提升55%；在工业领域，大模型可应用于机器人控制领域，人们有望直接利用自然语言操控无人机、机械臂等。

生成式人工智能还在引发搜索引擎的变革。New Bing试用版集成了ChatGPT，新增连续聊天功能，从具有事实来源的网页中总结归纳出答案，并且反馈用户可能进一步关心的问题。

可以说，大模型是人工智能时代的“操作系统”，连接现实世界和智能机器人，优化产品设计、工业物流、制造流程、市场营销、组织管理等，从而显著提高生产效率，有望全方位融入人类的工作、生活、学习、科研。我们不得不认真探讨：一个“人机共生”的时代是不是正在拉开序幕？

一个更新的应用例子是，生成式人工智能正在成为开拓元宇宙、构建世界模型和生产数字人的强大工具，促进虚实融合，实现效率和体验的提升。尽管Sora还不具备真正理解内在物理规律的能力，但它可以被视为对现实世界的某种广义模拟。最新的生成式人工智能技术已经可以制作高拟真、规模化的三维虚拟数字人，简化三维建模流程，提升渲染真实感。未来的生成式人工智能技术有望进一步结合科学规律，使得物理世界的模拟更逼真，数字人更丰富、更立体，数字人与世界模型能够有效交互。

在深度上，生成式人工智能正在加速科学发现。在生物、化学、医药等领域，大模型可以将分子式、基因序列、蛋白质结构视为一种形式化的语言，并已取得多项颠覆性成果。与前四种范式（经验、理论、计算和数据）不同，AI for Science（利用人工智能加速科学发现的新方法）不仅可以充分运用已有的经验、理论和数据，还能够生成全新的科学假设、逼真的自然现象，进而助力推导出未知的结论，提高科学研究的速度和准确性，探索更广阔的可能性空间。

相对于日常生活领域的AIGC（人工智能生成的内容），科学领域的生成式人工智能模型对于人类进步的意义更为深远。从微观的分子及物质结构生成，到中观的流场和反应过程建模，再到宏观的大气、行星、黑洞等物理天文现象推演，一系列新发现将从本质上推动科技发展。

守住底线、提升基线、打开天际线

应对生成式人工智能发展带来的新挑战

生成式人工智能技术在带来机遇和变革的同时，也带来了潜在的风险和挑战。对此，我们可以采取“三条线”的应对策略，即守住底线、提升基线、打开天际线。

一是守住监管的底线。

目前的生成式人工智能及大模型，大体是基于概率统计模型的神经网络结构和试错迭代的强化学习机制。从技术的角度来看，要做到完全不犯错误几乎是不太可能的。我们有必要营造“宽严相济”的环境：“宽”是指在模型训练和研发阶段要有一个相对宽松的、可以容错的技术创新环境，“严”是指在实战应用的环节要有严格的警示和监管手段。

比如，严格防范深度造假等违法行为。以短视频传播假新闻为例，之前造假者可能还得具备撰写新闻的基本知识、拍摄视频的专业设备，现在则可以轻易利用大语言模型生成新闻文本，用文生视频大模型输出短视频。

还要警惕的是，目前的生成式人工智能技术在本质上是一个“黑箱”模型，尚不具备完全的可信性，某些中性甚至是善意的信息都存在被生成式人工智能技术意外歪曲的风险。相较于恶意行为，这类风险的涉及面更广，也更难被定义、更难防范。

应对这些新问题、新挑战，需要进一步完善综合治理体系，结合技术发展趋势形成更为有效、更加系统的规范体系。当务之急，可有针对性地丰富监测工具箱，包括对伪造的文字、语音、视频等进行有效甄别，对涉及AIGC的短视频和文字新闻进行追溯并予以标示。

二是提升普及的基线。

生成式人工智能是新型生产力、创造力，有助于提升工作效率、引发行业变革。应对这一新趋势，有必要提升全民运用生成式人工智能的基线。

比如，通过知识普及消除对人工智能的偏见、误解以及“神化”“妖魔化”，让民众无须花费大量的时间和金钱就可以利用人工智能工具提升学习、工作、生产、生活的效率；培养一批人工智能数据工程师、AIGC工程师、元宇宙设计师、数字建造师等，从而大规模地释放新质生产力效应。

三是打开创新的天际线。

面对日新月异的变革，我们不能只满足于做追随者、使用者，而要努力成为人工智能技术的全球创新引领者。产业精英、科研机构和高校等要在底线和基线之上，积极开拓产业前沿和科学前沿。

人工智能技术有三个核心要素：大算力、大数据、大模型。这三个要素在本质上都契合于新型举国体制的优势。通过顶层设计、相容激励、有序引导，国产大模型一定可以“大力出奇迹”。

生成式人工智能带来的不只是技术迭代，而是一场深刻变革。在国家层面，有必要进一步构筑完善智能化科学设施，形成自发假设生成、自动规律推演、自主无人实验、自驱可信协作等创新功能，加速重大科学发现、变革性物质合成以及重大工程技术应用。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。