作为 AI 大厂,Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术,在 AI 视频生成上更是独领风骚。Meta 在 9 月率先推出了 Make-A-Video,言简意赅地表达了它的作用:做视频。更具体地说,Make-A-Video 可以通过文本、图片或者视频来生成一个全新的视频内容,尤其是文本直接生成视频,直接让视频创作的门槛大大降低,比如输入「机器人在时代广场跳舞」:图/Meta仅仅一周后,Google 也发布了自己的 AI 视频扩散模型 Imagen Video。与 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768,帧率也能到 24 fps 了。不过,两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题,而且与之前推出文本生成图像程序一样,谷歌和 Meta 都没有选择对外开放,这也是为什么相比 AI 画画的流行,AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像。字节也看好 AI 视频模型的未来,在抖音内就支持了「图文成片」功能,输入一段文字,软件智能匹配图片素材、添加字幕、旁白和音乐,自动生成视频。从一些创作者的反馈来看,目前「图文成片」的实现还很初级,智能匹配和生成视频两个环节都很难真正在视频生产环节中使用。当下 AI 生成视频在技术上显然还不够成熟,但最近几年 AI 进化速度在肉眼可见地加快,很难想象今年 AI 视频模型又会发生什么样的质变。不管 AI 视频模型是否能在今年再度质变,就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说,「未来十年,AIGC 将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。」
可以预期,AIGC 将是 UGC 用户生成内容出现之后,又一个内容生产的大变革,最直接的应用就是大大降低视频制作的成本和门槛,这也意味着为视频内容在供给侧的大爆发提供了技术基础。那场万象大会上,百度就推出了基于文心 AI 大模型的「创作者 AI 助理团」,由 AI 文案、AI 画师和 AI 视频制作人组成。理想状态下,借助「创作者 AI 助理团」,一个人就可以是一支视频团队。但显然,现实是 AI 视频生成还需要一些时间。
过去十年,可以说互联网和智能手机彻底改变了内容的分发和消费环节,但在内容生产领域本质上没有过多的变化。而在过去一年,AIGC 已经带来了太多的变化,Stable Diffusion、Imagen Video 和 ChatGPT 分别对应了最主要的内容形式——图像、视频和文本。当然,AIGC 还在面对很多挑战,包括版权、生成质量不稳定、创作主体争论等,甚至 AI 生成视频还没有经过大众使用验证。但现如今 AIGC 开始「飞入寻常百姓家」,已经具备了成为一项大众化技术的基础,未来很可能极大地提高内容的生产效率和丰富度。从《太空歌剧院》获得艺术大奖到今天,AI 的争论依然没有停止,但就如 Jason Allen 为自己的事件所做的总结:AI 作画程序已经诞生,人们能做的只有承认并接受这件事。题图来自 StabilityAI