2026.05.28 · xincheng 的文档花园

2026.05.28

深度评测了下小米目前的性价比。和DeepSeek在同一挡。尤其是前段时间送的Token Plan 刷新了。

我问同事要了他的Key来跑公司的项目。

是没有技术含量，但超级复杂的的多语言替换任务。因为是全项目的索引，所以工作量异常巨大。

要是没有这个小米的这个Key，要我自费的话，我断然是不肯把我宝贵的使用点给这些没啥用的事情的。

就和之前我把这个事情，直接打包出去，谁着急谁来做。

目前的使用量大概在10分钟1元钱，2个小时10元左右。也就是99元的套餐，3个小时用掉16%。按照降价之前，4个小时，99元基本就用完了。

所以我当时的评价是几乎不可用。

使用体感上确实有6倍左右的增强。而在实际的过程中体感会更强。

因为任务的分配不是一直存在的，也就是说他其实不会一直做下去。如果只能完成一次任务的，那么体感就只有一次任务的使用量。

但是如果是一次用不完。那么一次 goal 跑完之后，人还需要花很长时间验证、测试、理解改动，并决定下一步怎么推进。这个过程有时候甚至会远远超过 Agent 实际运行的时间。

也就是虽然只是增强了几倍的使用量，但使用体感上，基本可以满足5天的开发需求，也就是一周的工作量其实很难用完一个月的额度。

小米的Token Plan 比较良心的是把Cache 摆在了台面上。而他上一个版本不是这个样子的。缓存命中率只要大于83%，使用体验上就要比旧的好。而常规的放在 Claude Code 中开发，缓存命中率通常能做到98%。也就是说的5倍的体验，如果是99%的缓存命中，则是10倍。

Codex的使用体验依旧高于目前情况下的小米。远远小于白嫖的小米。所以我现在是拿Codex 制定任务和验收任务。实现由小米完成。

既然聊到这里，腾讯的WorkBuddy，能力一般。处在一个和OpenClaw差不多的水平。感觉是拿开源代码改的，内部计价是黑箱，和之前被钉在耻辱柱上的小米一个水平。甚至更差。赠送的会员能跑2个小时。

至于说另一个腾讯的Marvis 。UI设计上还行。但技术很差，还不如WorkBuddy,甚至不如开源的OpenClaw 。只能用内置的混元模型，但好在Token 送的还比较多1000万。

因为走的混元模型，效果很差，但同样的消耗很低。很难用完这1000万。

Marvis的代码结构我看了一下，很有趣的设计。QT做壳调度CEF ，开了两个Python后台，一个Knowledgebase 一个MarvisAgent 。 MarvisAgent太难用了。

知识图谱还挺好玩的。但把Python环境打包到产品里，还是很激进的。

尤其是控制软件需要先下载腾讯应用宝。拉完了

国外的滚动计价，比如ClaudeCode和 GPT ，体感上很好，虽然不透明，但能拉满的话，体验上比DeepSeek强。缺陷是高强度任务。5个小时的窗口基本只能跑2个小时。

5x是很好的，但价格太贵。20X价格很好，可以用高速1.5。体感上要更强。

就是同一个任务，GPT 5.5 和 Claude Opus ,用时更短。