2026.05.28

深度评测了下小米目前的性价比。 和DeepSeek在同一挡。尤其是前段时间送的Token Plan 刷新了。

我问同事要了他的Key来跑公司的项目。

是没有技术含量,但超级复杂的的多语言替换任务。因为是全项目的索引,所以工作量异常巨大。

要是没有这个小米的这个Key,要我自费的话,我断然是不肯把我宝贵的使用点给这些没啥用的事情的。

就和之前我把这个事情,直接打包出去,谁着急谁来做。


目前的使用量大概在10分钟1元钱,2个小时10元左右。也就是99元的套餐,3个小时用掉16%。按照降价之前,4个小时,99元基本就用完了。

所以我当时的评价是几乎不可用。

使用体感上确实有6倍左右的增强。而在实际的过程中体感会更强。

因为任务的分配不是一直存在的,也就是说他其实不会一直做下去。如果只能完成一次任务的,那么体感就只有一次任务的使用量。

但是如果是一次用不完。那么一次 goal 跑完之后,人还需要花很长时间验证、测试、理解改动,并决定下一步怎么推进。这个过程有时候甚至会远远超过 Agent 实际运行的时间。

也就是虽然只是增强了几倍的使用量,但使用体感上,基本可以满足5天的开发需求,也就是一周的工作量其实很难用完 一个月的额度。


小米的Token Plan 比较良心的是把Cache 摆在了台面上。而他上一个版本不是这个样子的。缓存命中率只要大于83%,使用体验上就要比旧的好。而常规的放在 Claude Code 中开发,缓存命中率通常能做到98%。也就是说的5倍的体验,如果是99%的缓存命中,则是10倍。


Codex的使用体验依旧高于目前情况下的小米。远远小于白嫖的小米。所以我现在是拿Codex 制定任务和验收任务。实现由小米完成。


既然聊到这里,腾讯的WorkBuddy,能力一般。处在一个和OpenClaw差不多的水平。感觉是拿开源代码改的,内部计价是黑箱,和之前被钉在耻辱柱上的小米一个水平。甚至更差。赠送的会员能跑2个小时。

至于说另一个腾讯的Marvis 。UI设计上还行。但技术很差,还不如WorkBuddy,甚至不如开源的OpenClaw 。只能用内置的混元模型,但好在Token 送的还比较多1000万。

因为走的混元模型,效果很差,但同样的消耗很低。很难用完这1000万。

Marvis的代码结构我看了一下,很有趣的设计。QT做壳调度CEF , 开了两个Python后台,一个Knowledgebase 一个MarvisAgent 。 MarvisAgent太难用了。

知识图谱还挺好玩的。但把Python环境打包到产品里,还是很激进的。

尤其是控制软件需要先下载 腾讯应用宝。拉完了


国外的滚动计价,比如ClaudeCode和 GPT ,体感上很好,虽然不透明,但能拉满的话,体验上比DeepSeek强。缺陷是高强度任务。5个小时的窗口基本只能跑2个小时。

5x是很好的,但价格太贵。20X价格很好,可以用高速1.5。体感上要更强。

就是同一个任务,GPT 5.5 和 Claude Opus ,用时更短。