昆仑万维的AI大模型又双叒叕升级了。
还记得一年前发布的“天工1.0”吗?当时双千亿级参数就已经让业界震惊了。没想到,仅仅一年过去,“天工3.0”的参数量就直接翻了一倍,高达4000亿!
我的天,4000个亿啊!这是人类的脑子吗?
别慌别慌!咱先来看看4000亿参数到底有多厉害?用一个形象的比喻,如果把“天工1.0”比作一个尖子生,那“天工3.0”就是名校博士生导师级别的。它不仅有更广博的知识,更具备更深入的理解和更强大的处理能力。
当然,数量只是第一步,质量的提升同样惊人。这次的“天工3.0”采用了更时髦的MoE(Mixture of Expert)架构,是全球最大规模的开源MOE大模型。通过混合多个专家模型,实现了性能的大幅跃升。
其中最令人惊喜的,是全新的AI音乐功能“天工 SkyMusic”,它基于昆仑万维“天工3.0”超级大模型打造,是国内首款、同时也是目前国内唯一公开可用的AI音乐生成大模型。集歌词、曲调、编曲、演唱,直接一条龙服务,是中国首个音乐 AIGC SOTA,下载APP首页就能体验到。
不过对咱们普通用户来说,关心的无非就是AI助手够不够智能,够不够好用,体验感如何。咱们测过那么多产品了,今儿就来验验它成效如何?
(PS:目前“天工3.0”和“天工SkyMusic”开放公测了!下载APP即可体验。)
说到天工 SkyMusic,有必要说说它的原理:
「天工SkyMusic」采用音乐音频领域类Sora模型架构,Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得「天工SkyMusic」能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。
别急别急,咱用一个例子让你秒懂天工 SkyMusic 是怎么实现的:
你可以把天工 SkyMusic 想象成一个超级厉害的“作曲机器人”。它由三部分组成:编码器(Encoder)、神经网络(DiT)和解码器(Decoder)。
编码器就像是这个神器的“耳朵”,专门听遍全球的歌曲,学习里面的音符、节奏和音色。
然后,你只需一句歌词,它的神经网络就像灵感全开,迅速从记忆库里找到最匹配的音乐元素,再巧妙地创作成曲。
最后,解码器将这些信息转换成音频,一首新歌就这样诞生了!
天工 SkyMusic 并不是简单的拼凑,而是真正意义上的用 AI 进行音乐创作。目前,它还在起步阶段,未来随着算法升级、训练数据的丰富,创作能力必将越来越强大。我们有理由期待,AI 会为音乐创作带来一次革命性的突破!
天工 SkyMusic 能根据输入的歌词,自动生成包括旋律、和声编曲在内的完整歌曲,整个过程仅需几分钟。
我们尝试用天工 SkyMusic 改编了一些经典神曲和古诗词,不仅歌词韵味十足,连整体旋律都洋溢着浓浓的中国风。
中国风音乐:以古诗词为词,用传统乐器为曲,看看效果如何:
音乐魔改:儿时回忆快乐星球片尾曲《月亮船》
上周暴雪国服回归,很想创作一首暴雪版《月亮船》,这不来了!
这首歌开头有点儿那味儿了,不过歌词和旋律需要再打磨打磨。真真儿是降低音乐创作门槛,有手就会啊!真是给所有暴雪游戏粉丝带来了一波怀旧风。
歌词里点到了《魔兽世界》、《炉石传说》等经典,一听就勾起了无数回忆。不过,旋律和编曲方面还能再火一些,让人更有热血沸腾的感觉。AI演唱的部分也确实需要再逼真点,特别是在情感的表达上。
儿童音乐
在教育领域,儿歌可谓是是担当了让娃们“乐呵呵”的利器。这不,系统刚给我推荐一首儿歌,我就赶紧跑来天工 SkyMusic 试试看。特别适合满身艺术细胞的爸妈们,赶紧给娃做一曲!
这《小雨点》这首儿童歌曲真的太朗朗上口了!!旋律简单易学,孩子们一听就能跟着哼唱。而且歌词里用了很多生动的自然画面和拟声词,非常有趣,能吸引孩子们的注意力。(PS:封面也特别的应景。)
除了以上几种类型,天工 SkyMusic 还能用于广告歌制作等商业领域,我们生成了几首由它创作的品牌主题曲,不得不说AI在这方面的发挥已经十分出色。
天工3.0 专属音乐
歌词用粤语唱出来更有感觉,这首歌参考的是张靓颖的《我的梦》,也是作为一首宣传曲,在音色旋律上是有借鉴到。需要加强的是在保持人声自然流畅的同时,还要能够传达出歌词中的深度和力量。
天工 SkyMusic 专属音乐
以传统广告音乐为参考,整体还是不错的!
天工SkyMusic的出现,无疑极大地拓宽了音乐创作的边界。有了它的加持,无论你是音乐爱好者、音乐从业者,还是广告、教育等领域的从业者,都能轻松创作出令人耳目一新的音乐作品。可以说,天工SkyMusic为全民音乐创作时代铺平了道路。
不过,我们也要看到,尽管天工 SkyMusic 展现了惊人的音乐创作潜力,但它终究只是一个工具。在音乐创作这件事情上,人的主观能动性和创造力仍然是不可或缺的。天工 SkyMusic 提供的更多是灵感和素材,真正将其塑造成打动人心的作品,还需要人的二次创作。
因此,与其担心AI会取代人类音乐人,倒不如思考如何让人机协作、相得益彰。AI负责提供想象力,而人负责赋予情感和温度,这样的“AI+人”组合,也许会碰撞出前所未有的音乐火花。
第一,用天工3.0来进行一次'童年回忆杀'。
首先利用它强大的中文理解和创作能力,让天工3.0给数学公式编写顺口溜,做文言文阅读理解,然后再做几幅水墨画,看看是否全能!
我用天工学数学!
从中文理解和生成效果来看,天工3.0对中文语言节奏、韵律的掌握还不错,生成的顺口溜儿我都想背了!
我用天工做文言文阅读理解!
为了更全面、系统地测试“天工3.0”的中文理解和创作能力,咱也提升点儿难度,我们选取初中课本中常见的2篇文言文,考察天工学对文言文字词句理解、文章主旨把握、修辞手法分析、作者情感体悟等方面的能力。
结果令人惊喜,天工3.0不仅准确领会了诗词背后的深意,还能用生动的现代语言进行阐释,展现出对人类语言细微差别的把控能力。
我用天工让古诗学画画!
再来看看它的文生图能力如何,首先是让它根据古诗作画,对于给到的词中理解到位,第一句的效果画的很不错。
然后点开图拍之后发现还有扩图和二次重绘的功能,功能上有点儿MJ那味儿了。
咱们再升级一下,作为一款与时俱进的AI,天工3.0当然也要经受中文高质量语料'弱智吧'的洗礼。
对于弱智吧的提问,天工3.0中规中矩,逻辑清晰,没出什么大错。
再来看看AI识图功能,这部分就只能识别出里面文字了,似乎它的功能并不在于此。
看看天工怎么说的:
再来一张试试:
看这回答,AI识图对梗图不太友好,只能理解到字面意思。
相反对于摄影赏析、古诗创作等功能属性较强的图片更加友好,看来是术业有专攻!
接下来我们我们让天工3.0为一个假想的地震救援行动出谋划策,通过三问三答让它快速生成了一套覆盖资源调配、路径规划等全流程的救援方案。
这三问三答展示了模型在处理复杂问题(如地震救援行动)时的强大逻辑推理和全面规划能力,能详尽分解任务并考虑多维度因素。优点在于能详细覆盖救援的关键环节和多方面的技术应用,缺点则是在某些情况下可能过于详细,导致信息过载,不够简洁。
再来一些高难度的,让它做一个股票价格监控应用:
这段代码实现了一个基本的股票价格监控应用,能够让用户通过一个简单的界面输入股票代码,查看实时价格。它的好处在于界面直观易用,而且加入了错误处理机制,确保在遇到问题时能给出提示,避免程序崩溃。
天工AI搜索,不仅在在原本的基础上做了加强,搜索的更佳精准,而且平时还能推送热点,最快接触到当下的时事新闻,这一点对于2G网络的伙伴非常友好。
以搜索“贪吃蛇的游戏代码”为例,
先来看第一种:传统模式
它的回答提供了一个基本的贪吃蛇游戏代码实现,使用Python的curses库。虽然代码涵盖了游戏的基础功能,包括初始化、输入处理和游戏逻辑,但存在一些语法和逻辑错误,这影响了代码的准确性和可执行性。信息来源相对单一,主要是一个直接的代码示例,缺乏深入探讨或优化的部分。
再看第二种:增强模式
效果确实比传统模式好上不少:
这个模式在内容丰富度和准确性方面表现较好,详细介绍了使用Python和C++实现贪吃蛇游戏的方法。它涵盖了环境初始化、游戏逻辑、渲染显示以及用户输入处理,提供了全面的信息,适合初学者和有经验的开发者。同时,使用pygame库增强了图形处理和事件管理的能力,使得实现更加高效和可靠。
最后来看第三种:研究模式。
这个模式在前两种的基础上在信息源、信息丰富度上有着不小提升。
详细来看,研究模式搜索最为全面和深入,不仅提供了多种编程语言的基础代码示例,还深入探讨了性能优化、算法改进和跨平台实现等高级技术。这种模式的信息来源非常丰富,适合那些希望深入了解和扩展游戏功能的开发者。性能优化的讨论尤其有助于提高游戏的响应速度和流畅度,使其更适合现代游戏开发需求。
同时还有大纲和思维导图的生成,对于信息来源也是一目了然,缺点是因为生成内容长,所以生成速度也会相应拉长。
不得不说搜索这块儿,天工3.0还是有几把刷子的!
这部分是老生常谈了,不过天工3.0APP里面有个标签儿吸引了我的注意,就是元宇宙,打开一看原来是“角色扮演”游戏,那基本上也跟智能体是一家人了。
在天工3.0中,有两种方式来创建智能体,对话式和表单式:
对话式创建有“智能体创建小助手”在手,更适合目前对智能体不太了解的朋友们;
而表单式创建则更加自定义,我做了一个国风音乐生成助手,效果如下:
整个测试下来,“天工3.0”确实比“天工2.0”强了不少!看来是下了硬功夫的。
天工3.0不仅数学题信手拈来,文言文读懂吟诵,还能化身“才子佳人”,作诗作画,简直是万能的“小才子”。面对复杂的地震救援任务,它也能全盘托出,制定详尽的行动方案。
当然,天工3.0并非全能,比如对于梗图的理解,它可能还需要再“多上几次网”。但瑕不掩瑜,作为一个正在成长的AI少年,天工展现出的智慧和潜力已经足够亮眼。
当然,作为一个客观理性的吃瓜群众,我也要提醒一下,“天工”虽然很全能,但距离通用人工智能(AGI)还有很长的路要走。毕竟,现在的AI再厉害,也还只是在特定领域发挥专长,离人类思维的全面模拟还差得远呢。
“天工3.0”给我们带来的,不仅仅是一款强大的AI模型,更是对未来科技生活的一次预演。正如马斯克所言:“我们要么选择拥抱人工智能,要么被人工智能拥抱。”与其坐等变革的到来,不如现在就开始拥抱变革。
各位看官,咱们这期的“天工秀”就到这里。如果你也被“天工3.0”圈粉了,就赶紧去APP下载体验一番,咱们下期再见!
联系客服