CoDi是一种可组合扩散式人工智能模型,可以与多模态信息交互并生成多模态内容。这种可组合扩散模型能够同时处理和生成多模态内容,包括文本、图像、视频和音频。此外,它与传统的生成式人工智能系统不同,传统的生成式人工智能系统通常仅限于特定的输入模式。微软公司还发布了新的“世界-2”模型,将多模态大语言模型提升到了前所未有的高度。“世界-2”大模型功能强大,超越了传统的文本式交互,扩展到了图像层分析和语义级解析领域,进一步推进了当前技术发展。