AI导读:

百度发布并上线原生全模态大模型文心5.0正式版,该模型参数达2.4万亿,具备全模态理解与生成能力。应用模型的价值在于实际应用场景中,百度数字人生成技术已广泛应用于直播带货等场景。文心5.0将AI应用带入真实行业与复杂场景,提供高效解决方案。

拒绝“拼接” 告别转译原生全模态理解输出

据百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍,与业界多数采用“后期融合”的多模态方案不同,文心5.0的技术路线采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练,使得多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成。

应用模型的价值不在模型里而在应用里

基于声音Token的端到端合成大模型由满帧语音token的离散表示来定义token,以MoE大语言模型来建模韵律,基于flow的后处理来描述声音的谱分布,基于Unet的自重构特征的vocoder来描述刻画声音。

百度的数字人生成技术,此前已广泛应用于直播带货等场景,2025年罗永浩数字人直播就曾打破行业纪录。

基于强大的原生全模态统一建模技术,与2.4万亿参数的海量算力,“文心5.0”已具备让AI应用走进真实行业与复杂场景,提供更高效解决方案的能力。