AI视频天生领域迎来了又一重大里程碑事宜。
9月24日,火山引擎AI创新巡展在深圳举行。
会上,火山引擎发布豆包视频天生-PixelDance、豆包视频天生-Seaweed两款视频天生大模型,面向企业市场开启邀测。

除了视频天生大模型,火山引擎还发布了音乐模型以及同声传译模型,并对通用措辞模型、文生图模型、语音模型进行了全面升级,豆包全模态大模型家族整洁亮相。

会上,火山引擎总裁谭待表示,“视频天生有很多难关亟待打破。
豆包两款模型会持续演进,在办理关键问题上探索更多可能性,加速拓展AI视频的创作空间和运用落地。

火山引擎总裁谭待

字节宣告视频生成大年夜模型从价格竞争迈向机能打破

字节发布豆包视频天生模型

在当天的巡展中,字节跳动发布的豆包视频天生模型无疑是全场焦点。
其视频天生质量不仅达到了业界领先水平,更是在多个维度上实现了对传统视频天生技能的全面超越。

豆包视频天生模型的一大亮点在于其精准的语义理解能力。
比较市情上大多数只能完成大略指令、单一动作的视频天生模型,豆包视频天生模型能够屈服更繁芜的prompt,解锁时序性多拍动作指令与多个主体间的交互能力。

为了占领多镜头切换时难以保持同等性的难题,豆包视频天生模型采取了全新的扩散模型演习方法。
该技能成功实现了在一个prompt的多个镜头切换时,保持主体、风格、氛围和逻辑的同等性,使得用户能够在短短10秒内讲述一个起承转合的故事。

针对高动态的繁芜场景视频和多样化表达的文本指令,豆包视频天生模型基于高效的DiT领悟打算单元,实现了更充分的压缩编码视频与文本。
这使得天生的视频动作更加灵动,镜头措辞更加丰富多样,表情和细节也更加丰满。

在视觉效果上,豆包视频天生模型同样表现出色。
它支持影视级视频天生,细节层次丰富,逼真度极高。
同时,该模型还具备专业级色彩调和和光影布局能力,大幅提升了画面的视觉审美。

此外,豆包视频天生模型还深度优化了Transformer构造,提升了视频天生的泛化能力。
它支持包括黑白、3D动画、2D动画、国画、厚涂等多种风格以及多种视频尺寸比例,知足用户多样化的创作需求。

字节跳动在推出豆包视频天生模型时,遵照了其一向的大模型发展路径:即先通过面向消费者的产品打磨模型能力,待模型具备竞争上风后再向企业市场拓展。

这一策略在豆包措辞模型上已得到验证——该模型于2023年8月在海内首批通过备案,经由近一年的低调打磨后于2024年5月正式发布。
同样地,豆包视频天生模型的早期版本也已在即梦(Dreamina)等平台上进行了永劫光的运用与迭代优化,终极才正式推向企业市场。

此外,字节跳动之以是能够在视频天生模型领域取得如此成果,离不开其丰富的业务场景积累。

据理解,字节跳动的业务场景涵盖了短视频、社交媒体、在线教诲、电商等浩瀚领域。
这些多元化的业务场景为视频天生模型的研发和演习供应了海量的数据和丰富的运用处景,使其能够更好地理解和知足用户的多样化需求。

同时,字节在算法领域积累深厚,拥有一支强大的研发团队,不断推动算法的创新和优化,为豆包视频天生模型的卓越性能供应了坚实的技能支撑。

豆包全模态大模型家族亮相

豆包大模型自今年5月发布以来,措辞模型日均tokens利用量猛增10倍,图片、语音等多模态数据处理量也大幅增加。
据QuestMobile数据,截至7月,豆包月活用户规模达到3042万,是海内用户量最大的AI原生运用之一。

除了视频天生模型外,火山引擎还发布了豆包音乐模型。
用户只需通过大略的描述或上传一张图片,就能轻松天生一首包含旋律、歌词和演唱的1分钟高品质音乐作品。

豆包音乐模型的高品质音乐天生能力得益于其前辈的算法和丰富的音乐库。
模型能够精准地理解用户输入的歌词内容或图片情绪,并天生与之高度契合的旋律和节奏。
同时,模型还支持10余种不同的音乐风格和感情表现,如民谣、盛行、摇滚、国风等,知足不同用户的多样化需求。

在演唱方面,豆包音乐模型同样表现出色。
它能够根据歌曲风格匹共同适的音色进行演唱,真实呈现气口和真假音转换等细节,让用户仿佛置身于专业的录音棚之中。
此外,模型还支持高质量音质的听感体验,让用户在创作过程中就能享受到音乐的魅力。

在环球化日益加深的本日,跨措辞沟通的主要性不言而喻。
火山引擎发布的豆包同声传译模型正是为理解决这一难题而出身的。
该模型具有超低延时、边说边译的特点,能够在实时翻译的过程中保持流畅自然、准确率高的上风。
据测评显示,在办公、法律、教诲等场景下,豆包同声传译模型的翻译水平靠近乃至超越人类同传水平。

值得一提的是,豆包同声传译模型还支持音色克隆功能。
这意味着在跨措辞翻译的过程中,模型能够保持原始声音的音色和表现力,从而冲破沟通壁垒,为跨国会议、国际论坛、线上直播等场景下的沟通供应便利。

除了上述视频天生模型、音乐模型、同声传译模型三款新发布的模型外,火山引擎还对通用措辞模型、文生图模型、语音模型进行了全面升级。

通用措辞模型在综合能力、数学、代码、专业知识等维度上均有不同幅度的提升。
文生图模型2.0在推理效率和性能上实现了大幅提升,能够更精确地呈现繁芜场景并极速出图。

语音模型的升级则引入了超强混音功能,用户可以自由组合不同的音色来打造独特的音效体验。
这一功能不仅为音频创作领域带来了更多的可能性,也为语音交互、智能家居等场景下的用户体验带来了质的飞跃。

从“价格战”到“性能战”

当前,大模型为云做事带来主要变革和发展机遇。
火山引擎正成为AI时期云做事的一股主要力量:引领了大模型贬价,并且发起智能终端、汽车、零售大模型同盟,推动行业AI运用创新。

在产品能力日益完善的同时,豆包大模型的利用量也在极速增长。

据火山引擎表露,截至9月,豆包措辞模型的日均tokens利用量超过1.3万亿,比较5月首次发布时猛增十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

大模型发展的初期,价格竞争是市场关注的焦点之一。
此前,豆包大模型公布低于行业99%的定价,引领海内大模型开启贬价潮。

谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模运用,大模型支持更大的并发流量正在成为行业发展的关键成分。

据谭待先容,业内多家大模型目前最高仅支持300K乃至100K的TPM(每分钟token数),难以承载企业生产环境流量。
例如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教诲公司的TPM峰值更是达到630K。
为此,豆包大模型默认支持800K的初始TPM,远超行业均匀水平,客户还可根据需求灵巧扩容。

“在我们的努力下,大模型的运用本钱已经得到很好办理。
大模型要从卷价格走向卷性能,卷更好的模型能力和做事。
”谭待表示。

更多内容请下载21财经APP