▲青花瓷版富士山下(来源:智东西)
如此逼真的人声“以假乱真”能力,以及高度还原音乐风格等各种环节的可控性,天工SkyMusic是如何做到的?
据了解,现有AI音乐大模型企业普遍没有公开自己的技术路径,因此没有可借鉴和参考的开源音乐大模型。昆仑万维在技术路径探索上做了非常多的尝试,花费了大量研发资源,最终摸索出下图这条路:
▲天工SkyMusic技术原理图(图源:昆仑万维)
在AI音乐生成领域,有两大技术路径 ,符号派与大模型派。天工SkyMusic选择了难度更大、效果更好的大模型音乐音频生成路线 。
在音频生成路径上,又有三个细分领域 :Song、BGM、Speech。过去很多AI音乐研究都集中在无人声的BGM领域,有人声的Song赛道几乎没有好的解决方案。而天工SkyMusic,就是在Song 领域 取得了极大突破,大幅提高了AI音乐生成技术在Song领域的模型表现,开创了音频生成大模型的成功案例。
具体来说,天工SkyMusic采用与Sora类似的模型架构,包含三大核心模块——Encoder 、DiT (Diffusion Transformer)和Decoder 。其中,Large-scale Transformer负责谱曲,学习Music Patches的上下文依赖关系,同时完成音乐可控性;DiT负责演唱,通过LDM(Latent Diffusion Model)让Music Patches被还原成高质量音频。
从上述案例及跟Suno V3的横评中可以看出,相比海外其他AI音乐大模型,天工SkyMusic在AI人声合成的细腻度、可识别度上表现优秀,咬字发音,并且支持粤语、成都话等方言语种。
虽然尚处于起步阶段,但天工SkyMusic已经让很多用户感受到了音乐创作的乐趣。同时,昆仑万维选择将宝贵的技术架构公开,也体现了其对开源社区生态、产业共同发展的重视。
三、构建六大 AI 业务矩阵,国内首推 AI 搜索、 AI 音乐产品
大模型狂飙500天,如何将其能力落地到应用产品仍是困扰众多AI厂商的难题。大模型杀手级应用何时出现?
昆仑万维董事长兼CEO方汉告诉智东西,C端+免费可能成为大模型落地的主要路径。在互联网时代,美国的谷歌、微软,国内的百度、阿里等都是靠这个逻辑成为互联网巨头,同样的道理也将延伸到大模型时代。
一方面,C端用户上限高达80亿;另一方面,订阅模式门槛高,用户接受程度相对较低。而要做到免费,AI UGC(用户生产内容)平台是一个好的商业模式。
根据风投机构a16z上月发布的生成式AI产品Top 100报告,ChatGPT、Gemini等通用内容生产应用仍占据消费级AI应用大头。与6个月前的排名相比,有两个新类别首次进入排行:音乐 和生产力 。
Suno是唯一进入排行的音乐生成产品,这表明音乐生产工具逐渐闯入消费者视野,成为下一个有潜力的C端应用落地路径。而生产力类别上榜7款产品,包括写作、视频摘要、搜索引擎、文章总结等领域。
这与昆仑万维的产品布局路径不谋而合。
2023年4月,昆仑万维提出“All in AGI和AIGC”战略,不局限于单一的产品或技术,而是构建一个完整的AI生态系统,逐步了形成AI 大模型、 AI 搜索、 AI 音乐、 AI 社交、 AI 游戏、 AI 视频 六大业务矩阵。
其中,AI大模型和AI搜索作为底座,是所有AIGC能力的基础,音乐、视频、社交、游戏等方向则是昆仑万维在AGI道路上的探索,体现了其AI UGC平台商业模式。
2023年8月,昆仑万维推出国内第一款 AI 搜索产品 ——“天工AI搜索”,深度融合AI大模型能力,通过人性化、智能化的方式,为用户提供快速、可靠的交互式搜索服务,助推传统搜索跨越式迈入AI时代。
本月初,昆仑万维推出国内第一款 AI 音乐生成产品 ——“天工SkyMusic”,采用音乐音频领域类Sora模型架构,支持生成80秒44100Hz采样率双声道立体声歌曲,降低了音乐创作门槛,人人都可以用音乐来表达情感。
昆仑万维为何能够在国内市场两次首发国内第一款AI细分应用创意新品?
这离不开其前瞻性的战略布局、深厚的技术积累、强大的研发实力以及对市场需求的敏锐洞察。
昆仑万维从2020年开始布局AIGC和大模型领域,至今已积累近四年的相关工程研发经验,且研发投入巨大。据其2023年第三季度报告,公司前三季度研发费用达到6.2 亿元 ,同比增长28.18% 。同时,公司十分重视开源生态 ,天工大模型在开发过程中也得到了开源社区上百位AI科学家的助力。
此外,昆仑万维对市场需求 有着敏锐的洞察力,看到了AI技术在搜索引擎、音乐创作等场景的巨大潜力。自2023年4月发布天工大模型之后,团队就开始了大模型与搜索引擎的融合尝试,并于同年8月推出中国首款AI搜索产品——天工AI搜索。天工SkyMusic则体现了昆仑天工探索研究的一个重要方向——情感AGI。
结语: All in AGI 与 AIGC ,昆仑万维交出最新答卷
随着天工3.0大模型的开源公测,我们见证了昆仑万维AI技术的又一里程碑。
天工3.0以其4000亿参数的MoE架构,不仅在逻辑推理、语义理解等核心能力上实现了飞跃,更在多模态领域展现了其强大的应用潜力。天工SkyMusic的成功推出,更是将音乐创作的门槛降至新的低点,让每个人都能轻松玩音乐。
昆仑万维“All in AGI与AIGC”的战略布局,在展现了对未来技术趋势前瞻性的同时,彰显了其在AI领域的雄心壮志。我们期待看到更多优秀的国产大模型及AIGC产品,通过在迈向AGI的道路上各种创新探索,为更多行业及人们日常生活带来改变。
https://zhidx.com/p/421097.html