网站名称-游戏站6M端

字节跳动在近期的一次重大技术发布会上，正式推出了其全新的豆包视觉理解模型，标志着视觉理解技术也步入了“厘时代”的崭新阶段。这一创新举措，无疑为企业用户提供了前所未有的高性价比多模态大模型服务。

在火山引擎Force大会上，豆包视觉理解模型惊艳亮相，其每千个tokens的输入费用仅为3厘，这一价格优势意味着企业仅需一元钱便能处理多达284张720P分辨率的图片，相较于市面上的同类服务，成本降低了85%。这一突破性定价，无疑将极大地推动AI技术的普及与应用发展。

豆包视觉理解模型不仅具备精准的视觉内容识别能力，更在理解和推理方面展现出卓越实力。它能够根据图像信息进行复杂的逻辑运算，无论是分析图表、处理代码，还是解答学科问题，都游刃有余。该模型还拥有细腻的视觉描述和创作能力，为用户带来了更加丰富多样的使用体验。

豆包视觉理解模型演示图

据了解，豆包视觉理解模型已顺利接入豆包App及PC端产品，其便捷性和高效性得到了用户的广泛好评。豆包战略研究负责人周昊表示，豆包团队一直致力于提升用户的输入体验，通过不断优化多模态输入功能，包括语音、视觉等，使得用户能够更加快速、方便地使用豆包产品。这些先进的模型技术，现已通过火山引擎平台向企业客户全面开放。

在发布会上，豆包3D生成模型也首次公开亮相。该模型与火山引擎的数字孪生平台veOmniverse强强联合，能够高效完成智能训练、数据合成以及数字资产制作等任务，为AIGC创作提供了一套强大的物理世界仿真模拟器。

豆包大模型的多款产品也迎来了重要更新。豆包通用模型pro已全面对标GPT-4，但使用价格仅为后者的八分之一。音乐模型从原先只能生成60秒的简单结构，升级到了能够创作3分钟的完整音乐作品。而文生图模型2.1版本，更是首次在业界实现了精准生成汉字和一句话P图的产品化能力，并已成功接入即梦AI和豆包App。

豆包3D生成模型演示图

火山引擎总裁谭待在会上透露，豆包视频生成模型1.5版将于2025年春季推出，具备更强的长视频生成能力。同时，豆包端到端实时语音模型也将很快上线，为用户带来多角色演绎、方言转换等全新功能。谭待强调，尽管豆包大模型发布时间相对较晚，但其凭借快速的迭代和进化，已成为国内技术最领先、功能最全面的大模型之一。

数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较首次发布时增长了33倍。豆包大模型已广泛应用于各行各业，与八成主流汽车品牌建立了合作关系，并接入了多家手机、PC等智能终端，覆盖终端设备约3亿台。在智能终端上，豆包大模型的调用量在半年内增长了100倍。

在企业生产力相关的场景中，豆包大模型同样备受青睐。近三个月来，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长了16倍，硬件终端场景增长了13倍，AI工具场景增长了9倍，学习教育等场景也实现了大幅增长。谭待认为，豆包大模型市场份额的快速增长，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让AI真正成为每家企业都能轻松使用的高效科技。

豆包大模型应用场景图

火山引擎在发布会上还升级了火山方舟、扣子和HiAgent三款平台产品，助力企业构建自身的AI能力中心，高效开发AI应用。火山方舟推出了大模型记忆方案，并引入了prefix cache和session cache API，以降低延迟和成本。同时，火山方舟还推出了全域AI搜索服务，提供场景化搜索推荐一体化和企业私域信息整合等功能。

火山方舟平台界面图

云原生作为过去十年最重要的计算范式，如今正迎来大模型时代的变革。火山引擎认为，下一个十年的计算范式将从云原生迈入AI云原生的新时代。为此，火山引擎推出了新一代计算、网络、存储和安全产品，以满足大模型时代的需求。在计算层面，火山引擎GPU实例通过vRDMA网络，支持大规模并行计算和P/D分离推理架构，显著提升训练和推理效率，降低成本。在存储方面，新推出的EIC弹性极速缓存能够实现GPU直连，使大模型推理时延降低至原来的五十分之一，成本降低20%。在安全层面，火山引擎将推出PCC私密云服务，构建大模型的可信应用体系，实现用户数据在云上推理的端到端加密，且性能优异，推理时延与明文模式相比差异在5%以内。

相关评测

最新评测

热门产品