豆包的新模型,想给“豆包电脑”打个样?


今天你王炸登场,明天它新帝登基。。。

到了 2025 年年末这个时候,世超其实对各类大模型的轮番轰炸有些麻了。

想要真让大家眼前一亮,要么是实力碾压,断层领先其他模型,要么是能整出一些人们之前没见过的新活。

就比如前段时间发布的豆包手机助手。


啥活都能干,这些活都还干得敞亮,其实是满足了不少人,对曾经幻想的“ AI 手机” 的期待的。


今天,豆包则是趁热打铁,在火山引擎的 FORCE 大会上,发布了全新的基础模型: 豆包大模型 1.8。


这个新模型的优化 ,几乎可以说全部是为一个目标服务的:

它不仅仅是要做一个更强的聊天模型。

而是做Generalized Real-World Agency,想要做一个通用的,面向真实世界的 Agent 代理。


首先,必须得夸一句豆包团队的坦诚。

在技术报告的各类基础跑分环节,豆包表现得非常实事求是:跑不过就是跑不过,不硬吹。

在纯粹的编程(LiveCodeBench)、高难数学(AIME)或者硬核科学推理这些项目上,Google 的 Gemini 3-Pro 依然是目前的行业天花板。

豆包大模型 1.8 在这些项目中确实略逊一筹。

但是,这个“略逊”还是很有含金量的。


在 Agent 能力的测试里,豆包甚至完成了对 Gemini 的逆袭。

在干活(GAIA测试),网上搜集资料(BrowseComp测试)这些测试上,豆包的新模型都取得了挺不错的成绩。

甚至它豆包、作为一个中国公司推出的大模型,在搜集英文资料(BrowseComp-en)的能力上,还要领先 GPT、Gemini、Claude 这些外国公司一大截。


倒反天罡了属于是。

咱们也简单的测试了一下真拿这玩意干活的效果。

当然,常规的测试可能没啥意思,于是我们决定试一下,复刻一个“豆包电脑”出来看看。

众所周知,字节今年开源过一个好玩意 —— Agent TARS,有了这么个程序框架之后,你就可以让大模型来直接控制我们的电脑了。


于是,我给这个 Agent TARS 接入了一下豆包 1.8 新模型的 API,然后让它先跑起一个简单的任务看看。

比如说,让豆包来帮我们完成一下多邻国的打卡。

咱们简单描述一下需求,豆包就能自己在浏览器里找到多邻国的网址,在我手动登陆了账号之后,它就能自己开始识别屏幕,一步一步的思考,完成我们要求的打卡任务。


在任务执行的过程中,咱们还能随时看到豆包它是怎么思考的。

比如在点击了“袜子”完成了选择之后,就会自动思考,找到任务下一步的按钮在哪。


它甚至还会试图做听力题。


最终,在差不多花了 16 分钟后,豆包成功的帮我完成了今天的多邻国打卡任务。


虽然确实有些慢是吧。。。

但是毕竟人家是在后台运行的,不影响我在前面继续干活,所以其实慢点也没太所谓。

再比如我可以让它帮我自动总结今天和具身智能有关的新闻,然后把这些新闻给保存到本地。


甚至可以直接问它我这台电脑的型号是什么,问问我电脑的存储空间还剩多少。

它都能稳健的通过命令行查询基础信息,然后再总结成人话回来告诉我们。



当然,现在这个“豆包电脑” 只是世超自己花了十几分钟,拿着开源代码跑出来的简单 demo,在成熟度,稳定性上肯定和成熟的商业方案没法比。

但至少,豆包展现出来的一整个屏幕信息理解,关键问题拆解的能力,还是挺让人有信心的。

在这个框架上再打磨打磨,可能再过个半年,咱们真能看到“豆包电脑”问世了。

所以,豆包怎么突然这么会干活了?

要搞明白这个问题,咱就得回到开头的技术报告上来看。


一方面,豆包在不断强化模型对图像的理解能力。

报告里写得很清楚,Seed1.8 在同一套接口里同时支持搜索、代码生成与执行、以及 GUI 交互;检索到的信息、代码跑出来的结果、界面里点出来的状态,都会回到下一步决策里,形成闭环。

他们非常在意真实环境的重要性。


因为这些 Agent 在真的来帮我们干活的时候,能看到的信息里根本没有什么API

有的只有各种各样的截图,各种各样的文字,各种各样的图标和各种各样的按钮。

可以说是模型有多能理解屏幕,那就有多能把活给干完。


另一方面,他们同步增强了豆包的“记性”。

加强了模型的视觉理解能力,让模型一次性能理解帧数翻倍,假设,让豆包每隔六秒截一次屏幕的话,那么它可以一口气理解整整一个小时内,咱们拿电脑做了什么事情。

而且人家还能一边看视频,一边调用工具,来回看视频。

在官网上就展示了一个例子,模型可以先量子速读整个视频,然后再通过 VIDEOCUT 这类工具仔细的回看一些片段,加倍理解整个视频。


世超自己也试了一下,丢了一个高速上到处都是车的视频上去,让豆包帮我数数看有几辆黄色的车。

这条视频可能是因为有点短的缘故,没触发刚刚说的 VIDEOCUT 功能,但人家依旧可以稳定的找到黄车。还把黄车出现的时间也给顺便标记了出来。


另外,他们还特别注意模型 “听人话” 的能力。

不知道大家平时用 AI 的时候,会不会感觉有时候 AI 有时候会变的非常弱智,听不懂一点指挥。

这是因为现在的大模型是靠海量人类数据“喂”出来的,对于很多经典问题,它们已经形成了极强的肌肉记忆。

比如让他画一个人用左手写字的图片,模型可能会因为没见过用左手写字的数据集,然后直接画成了用右手写字。


在论文里也提到,豆包他们特意测试了一个叫做 Inverse IFEval 的测试集。


这个测试很有意思,有点像之前流行的弱智吧题集,它会设计一些非常“反直觉” 的题目来让大模型做答,我从它的题库里随便找了一个题来给大家看看:

笼子里同时有鸭和兔子, 一共有5个头, 18个脚, 请用最简单的方法求出笼子里有几种动物?直接给出答案,不要包含推理和计算过程。


注意审题,这个题目看起来很像一个咱们小学奥数都学过的鸡兔同笼的问题。

但其实只是在问你有几种动物而已,所以只要回答两种就行了。

但是,就是这么个小学生认真读题都能搞定的问题,就让 GPT 都翻了车。


而豆包则在一系列叽里咕噜的思考过程后,成功看透了问题的关键,搞明白了答案。


还有个好玩的是,豆包 1.8 的模型兼容性做的也很出色。

这两年,大家也听过了不少能通过命令行来直接控制你的电脑的 AI 工具。

这些工具好不好用,往往取决于两个方面,一个是工具本身的任务拆解,项目分析,顺序执行的工程能力,另一个则是这个工具背后调用的模型本身的硬实力。

两者同步率高,那就是 100% best match,发挥出 1 + 1 > 2 的实力,两者要是配合的不好,那就开始拖后腿了。

而豆包这边,对不同 Agent 框架的适应性都不错。在报告中可以看到,它在 Trae、Claude Code、OpenHands 这些完全不同的框架下,代码通过率都能稳定在 64.8% 到 72.9% 之间 ,这说明豆包这边不挑工作环境,在哪都猛猛能干活。


最后,世超感觉在未来,随着模型基础能力的越来越强,各家 AI 大厂在研究 AI 道路上的不断深入。

顶级模型之间的差异,也可能越来越明显,各个都偏那么一点点科。

每家公司对AI开发的理解不同,会让他们做出来的模型也各有各的风味。

比如 Anthropic,认为代码即智能,只要让 AI 写出足够强的代码,那就能达到 AGI。

DeepSeek 则是认为数学即智能,只要让 AI 能解出复杂的数学题,那就能达到 AGI。

谷歌则是认为理解即智能,只要让 AI 能够理解各种图片和文字之间的位置关系,画出好看的界面,那就可以达到 AGI。

而豆包解题思路,现在看起来很明确了。


Agent 即智能。

模型能力越强,模型越能帮我们操纵现实世界中的互联网,就越能接近 AGI。

另外今天在豆包大模型的发布会上,世超还看到个离谱的数据。

现在豆包大模型的日均使用量,都能给干到 50 万亿tokens了,对比去年刚发布的时候,翻了整整 417 倍。


有点离谱,只能说这两年来,AI 发展的实在是太快了。

各行业各业多少都要沾点 AI 的边。

大家对 AI 的需求也越来越大,还真的蛮需要一个能好好干活的 AI 的。

条条大路通罗马。未来究竟是谁定义的路径能率先触碰 AGI 的圣杯?

咱们只能说,拭目以待。

撰文:早起

编辑:江江 & 面线

美编:焕妍

图片、资料来源

AI画不出左手,是因为我们给了它一个偏科的童年 - 数字生命卡兹克

Seed1.8 Model Card: Towards Generalized Real-World Agency

https://github.com/bytedance/UI-TARS-desktop




nginx