2026.05.28

深度评测了下小米目前的性价比。

表现上来看价格和DeepSeek在同一挡,TokenPlan的价格还要更低一些,凌晨的时候8折,就更便宜一些了。

正好张李辉要我把软件的多语言模式下,英语模式下要看不到中文。他催的急,加上小米送的Token Plan 刷新了,我就要了他的Key 来跑公司的任务。

事情不复杂,没有技术含量,就是把界面UI上显示的中文,增加多语言的支持。项目规模大概在400K行。需要翻译的内容大概在几千条。按照传统方案,需要一行一行找到相关位置,然后手动翻译,翻译好了之后把多语言的内容填到指定位置。 一个人大概一个小时能处理60条左右。工作量异常巨大。去年的时候,我是把事情打包出去,让着急的人来改。一般改过也就不说话了。

前几天我也拿腾讯的WorkBuddy处理过这个事情,很贵。要是没有这个小米的Key ,我自费来搞这些,我断然是不同意的。

完整的跑了一天,大概跑了50% 99元的Token Plan ,其实也不便宜了,如果每天这个用量,也就一千多了。按照之前的价格,走国内的。怕不是略略的贵,要是走GPT5.5 差不多能填好几个我进去。


目前的使用量大概在10分钟1元钱,2个小时10元左右。也就是99元的套餐,3个小时用掉16%。按照降价之前,4个小时,99元基本就用完了。

所以我当时的评价是几乎不可用。

使用体感上确实有6倍左右的增强。而在实际的过程中体感会更强。

因为任务的分配不是一直存在的,也就是说他其实不会一直做下去。如果只能完成一次任务的,那么体感就只有一次任务的使用量。

但是如果是一次用不完。那么一次 goal 跑完之后,人还需要花很长时间验证、测试、理解改动,并决定下一步怎么推进。这个过程有时候甚至会远远超过 Agent 实际运行的时间。

也就是虽然只是增强了几倍的使用量,但使用体感上,基本可以满足5天的开发需求,也就是一周的工作量其实很难用完 一个月的额度。


小米的Token Plan 比较良心的是把Cache 摆在了台面上。而他上一个版本不是这个样子的。缓存命中率只要大于83%,使用体验上就要比旧的好。而常规的放在 Claude Code 中开发,缓存命中率通常能做到98%。也就是说的5倍的体验,如果是99%的缓存命中,则是10倍。


Codex的使用体验依旧高于目前情况下的小米。远远小于白嫖的小米。所以我现在是拿Codex 制定任务和验收任务。实现由小米完成。


既然聊到这里,腾讯的WorkBuddy,能力一般。处在一个和OpenClaw差不多的水平。感觉是拿开源代码改的,内部计价是黑箱,和之前被钉在耻辱柱上的小米一个水平。甚至更差。赠送的会员能跑2个小时。

至于说另一个腾讯的Marvis 。UI设计上还行。但技术很差,还不如WorkBuddy,甚至不如开源的OpenClaw 。只能用内置的混元模型,但好在Token 送的还比较多1000万。

因为走的混元模型,效果很差,但同样的消耗很低。很难用完这1000万。

Marvis的代码结构我看了一下,很有趣的设计。QT做壳调度CEF , 开了两个Python后台,一个Knowledgebase 一个MarvisAgent 。 MarvisAgent太难用了。

知识图谱还挺好玩的。但把Python环境打包到产品里,还是很激进的。

尤其是控制软件需要先下载 腾讯应用宝。拉完了


国外的滚动计价,比如ClaudeCode和 GPT ,体感上很好,虽然不透明,但能拉满的话,体验上比DeepSeek强。缺陷是高强度任务。5个小时的窗口基本只能跑2个小时。

5x是很好的,但价格太贵。20X价格很好,可以用高速1.5。体感上要更强。

就是同一个任务,GPT 5.5 和 Claude Opus ,用时更短。