智能体元年，火山引擎发布Agent全栈解决方案

4 月 17 日，火山引擎面向企业市场发布豆包 1.5・深度思考模型，同步升级文生图模型 3.0、视觉理解模型，并推出 OS Agent 解决方案及 AI 云原生推理套件，帮助企业更快、更省地构建和部署 Agent 应用。

据火山引擎披露，截至 2025 年 3 月底，豆包大模型日均 tokens 调用量已达到 12.7 万亿，较去年 5 月发布时增长上百倍。火山引擎总裁谭待表示，Agent 智能体应用发展将带动大模型进一步普及。谭待说：" 深度思考模型是构建 Agent 的基础，模型要有能力做好思考、计划和反思，并且一定要支持多模态，就像人类具备视觉和听觉一样，Agent 才能更好地处理复杂任务。"

豆包深度思考模型开放 API，具备视觉推理能力

据谭待介绍，豆包 1.5・深度思考模型在专业领域的推理任务中表现出色，数学推理 AIME 2024 测试得分追平 OpenAI o3-mini-high，编程竞赛和科学推理测试成绩也接近 o1。在创意写作、人文知识问答等通用任务上，模型也展示出优秀的泛化能力，能胜任更广泛的使用场景。

技术报告显示，豆包深度思考模型采用 MoE 架构，总参数为 200B，激活参数仅 20B，以较小参数实现媲美顶尖模型的效果。基于高效算法和高性能推理系统，豆包模型 API 服务在保障高并发的同时，延迟低至 20 毫秒。

豆包深度思考模型还具备视觉推理能力，能像人类一样对看到的事物进行联想和思考，极大拓展了智能推理的应用边界。谭待举例说明，" 模型可以看懂复杂的企业项目管理流程图表，快速定位到关键信息，并以强大的指令遵循能力，严格按照流程图，回答客户的问题；分析航拍图时，能结合地貌特征判断区域开发可行性。有多模态能力的加持，豆包深度思考模型可以助力企业在更多场景实现智能化升级。"

此外，豆包文生图模型 Seedream3.0 也正式向企业开放。该模型已在即梦 AI、豆包产品上线，并在近期登上权威竞技场 Artificial Analysis 文生图榜单第一梯队。Seedream3.0 支持 2K 分辨率直出，生图结构准确性、小字生成与排版、美感、真实度等方面具有优势。

火山引擎为 Agent 装上 " 助推器 "

2025 年被业界视为 "Agent 智能体元年 "。谭待认为，在多模态深度思考模型的基础上，Agent 需要良好的架构和工具，去操作数字世界和物理世界。同时，模型的推理成本和延迟要持续降低，才能推动应用普惠。

为此，火山引擎宣布推出 OS Agent 解决方案，并演示了由 Agent 操作浏览器，搜索商品页，实现 iPhone 比价的任务，甚至由 Agent 在远程计算机上用剪映进行视频编辑、配乐。

雷峰网了解到，OS Agent 解决方案包含豆包 UI-TARS 模型，以及 veFaaS 函数服务、云服务器、云手机等产品，实现对代码、浏览器、电脑、手机以及其他 Agent 的操作。其中，豆包 UI-TARS 模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起，突破传统自动化工具依赖预设规则的局限性，为 Agent 的智能交互提供了更接近人类操作的模型基础。

好的模型和工具能够加速 Agent 的落地，但 Agent 也会带来更大量的模型推理消耗。面对大规模推理需求，火山引擎专门打造了 AI 云原生 ServingKit 推理套件，让模型部署更快、推理成本更低，GPU 消耗相比传统方案降低 80%。

IDC 发布的《中国公有云大模型服务市场格局分析，1Q25》显示，火山引擎以 46.4% 的市场份额位居第一。凭借高性价比、灵活易用的工具链，以及覆盖全场景的解决方案，火山引擎成为企业落地大模型的首选平台。