AI导读:

即梦AI发布全新多模态视频生成模型OmniHuman,用户仅需提供图片和音频即可生成生动AI视频,有望大幅提升AI短片制作效率和质量。该技术由字节跳动自研,目前以小范围内测形式调优调整,并逐步开放。

中证报中证网讯(记者 杨梓岩)近期,即梦AI在其官方社交媒体平台上震撼发布了全新多模态视频生成模型OmniHuman的上线预告。这一创新技术使用户仅需提供一张图片及一段音频,便能轻松生成一段栩栩如生、活灵活现的AI视频,这一突破有望极大加速AI短片的生产流程,并显著提升其制作质量与观赏性。

深入探索OmniHuman的技术主页,我们了解到,这款由字节跳动倾力自研的闭源模型,展现出了对肖像、半身及全身图片输入的全面支持。它能够根据输入的音频内容,为视频中的人物自动匹配相应的动作,无论是激情澎湃的演讲、悠扬动听的歌唱、技艺高超的乐器演奏,还是自然的移动步伐,都得以生动呈现。尤为值得一提的是,OmniHuman在解决人物视频生成中常见的手势崩坏问题上取得了显著进展,相较于现有技术有了质的飞跃。同时,该模型对于动漫、3D卡通等非真人图片输入的处理同样出色,生成的视频能够完美保留原作的独特风格与运动特征。

从OmniHuman技术主页展示的演示效果来看,其生成的视频已经具备了相当高的自然度,令人赞叹不已。为防止这一先进技术被误用或滥用,字节跳动技术团队在主页中明确声明,OmniHuman将不会对外提供下载服务,以确保技术的合规与安全使用。

即梦AI的相关负责人透露,尽管OmniHuman在当前的测试中已经展现出了令人瞩目的表现,但在生成影视级别的真实视频方面,仍有进一步提升的空间。因此,该模型支持的多模态视频生成功能将首先在即梦平台上以小规模内测的形式进行迭代优化,并逐步扩大开放范围。同时,即梦AI还承诺将对这一功能实施严格的安全审核机制,并对输出的视频添加水印以作警示,旨在确保AI技术的正面应用,助力视频创作者更好地发挥想象力,实现创意的自由表达。

(文章来源:中国证券报·中证网)相关图片描述