近日,深圳迎来了一场科技盛宴——火山引擎AI创新巡展,此次展会中最引人注目的莫过于豆包大模型家族的全新成员亮相。火山引擎宣布,其豆包大模型系列再添强劲新成员,包括豆包・视频生成模型、豆包音乐模型以及同声传译模型,并对通用语言模型、文生图模型、语音模型进行了全面升级,以“更强模型、更低价格、更易落地”为核心理念,持续推动AI技术的创新与应用。
在众多新成员中,豆包・视频生成模型无疑成为了全场焦点。该模型以其卓越的影视级视觉效果和创新的AIGC应用能力,彻底颠覆了传统AI视频生成技术的局限。相较于市面上其他AI生成视频产品普遍存在的“AI痕迹”问题,豆包视频生成模型在内容逻辑、画面自然度以及语义指令理解等方面实现了质的飞跃。
豆包视频生成模型的核心优势在于其精准的语义理解能力和复杂场景下的多动作多主体交互能力。它不仅能够遵循复杂的prompt指令,还能解锁时序性多拍动作与多主体间的自然交互,为视频创作提供了无限可能。从展示的视频片段中可以看到,无论是人物表情的细腻刻画,还是动态场景的流畅切换,都达到了令人惊叹的真实度。
此外,豆包视频生成模型还引入了强大的动态运镜技术,彻底告别了传统AI视频生成中的PPT动画质感。基于高效的DiT融合计算单元,该模型能够生成动作灵动、镜头多样、表情丰富的视频内容,同时支持变焦、环绕、平摇等多种镜头语言,让视频更具视觉冲击力。
在内容逻辑方面,豆包视频生成模型同样表现出色。它采用全新设计的扩散模型训练方法,成功解决了多镜头切换时的一致性问题,能够在不同的镜头间保持主体、风格、氛围和逻辑的高度统一,实现导演级别的自由创作。例如,一段由三个镜头组成的动画视频,通过流畅的剪辑和丰富的表情特写,生动讲述了一个完整的故事情节。
火山引擎总裁谭待在巡展上透露,豆包大模型自发布以来已取得了显著的市场成绩。截至目前,豆包大模型的日均tokens使用量已超过1.3万亿,多模态能力也得到了充分验证。其中,豆包・文生图模型日均生成图片达到5000万张,语音处理能力同样强大,日均处理语音时长高达85万小时。
谭待表示,豆包大模型的成功离不开字节跳动在视频和AI领域的深厚积累。作为抖音等头部应用的计算服务提供方,火山引擎在视频处理方面拥有独到的技术优势和丰富的实战经验。这些优势为豆包大模型的发展提供了强有力的支撑。
随着豆包视频生成模型的正式推出,其应用场景也将进一步拓展。在电商营销、动画教育、城市文旅等多个领域,豆包视频生成模型都将发挥重要作用,助力企业实现降本提效和创意合规。未来,豆包大模型家族将继续深耕AI技术,为各行各业带来更多创新解决方案。