2026.05.28 

深度评测了下小米目前的性价比。 

表现上来看价格和DeepSeek在同一挡，TokenPlan的价格还要更低一些，凌晨的时候8折，就更便宜一些了。

正好张李辉要我把软件的多语言模式下，英语模式下要看不到中文。他催的急，加上小米送的Token Plan 刷新了，我就要了他的Key 来跑公司的任务。

事情不复杂，没有技术含量，就是把界面UI上显示的中文，增加多语言的支持。项目规模大概在400K行。需要翻译的内容大概在几千条。按照传统方案，需要一行一行找到相关位置，然后手动翻译，翻译好了之后把多语言的内容填到指定位置。 一个人大概一个小时能处理60条左右。工作量异常巨大。去年的时候，我是把事情打包出去，让着急的人来改。一般改过也就不说话了。

前几天我也拿腾讯的WorkBuddy处理过这个事情，很贵。要是没有这个小米的Key ，我自费来搞这些，我断然是不同意的。

完整的跑了一天，大概跑了50% 99元的Token Plan ，其实也不便宜了，如果每天这个用量，也就一千多了。按照之前的价格，走国内的。怕不是略略的贵，要是走GPT5.5 差不多能填好几个我进去。

---

目前的使用量大概在10分钟1元钱，2个小时10元左右。也就是99元的套餐，3个小时用掉16%。按照降价之前，4个小时，99元基本就用完了。

所以我当时的评价是几乎不可用。

使用体感上确实有6倍左右的增强。而在实际的过程中体感会更强。

因为任务的分配不是一直存在的，也就是说他其实不会一直做下去。如果只能完成一次任务的，那么体感就只有一次任务的使用量。

但是如果是一次用不完。那么一次 goal 跑完之后，人还需要花很长时间验证、测试、理解改动，并决定下一步怎么推进。这个过程有时候甚至会远远超过 Agent 实际运行的时间。

也就是虽然只是增强了几倍的使用量，但使用体感上，基本可以满足5天的开发需求，也就是一周的工作量其实很难用完 一个月的额度。

---

小米的Token Plan 比较良心的是把Cache 摆在了台面上。而他上一个版本不是这个样子的。缓存命中率只要大于83%，使用体验上就要比旧的好。而常规的放在 Claude Code 中开发，缓存命中率通常能做到98%。也就是说的5倍的体验，如果是99%的缓存命中，则是10倍。

----

Codex的使用体验依旧高于目前情况下的小米。远远小于白嫖的小米。所以我现在是拿Codex 制定任务和验收任务。实现由小米完成。

---

既然聊到这里，腾讯的WorkBuddy，能力一般。处在一个和OpenClaw差不多的水平。感觉是拿开源代码改的，内部计价是黑箱，和之前被钉在耻辱柱上的小米一个水平。甚至更差。赠送的会员能跑2个小时。

至于说另一个腾讯的Marvis 。UI设计上还行。但技术很差，还不如WorkBuddy,甚至不如开源的OpenClaw 。只能用内置的混元模型，但好在Token 送的还比较多1000万。

因为走的混元模型，效果很差，但同样的消耗很低。很难用完这1000万。

Marvis的代码结构我看了一下，很有趣的设计。QT做壳调度CEF ， 开了两个Python后台，一个Knowledgebase  一个MarvisAgent 。 MarvisAgent太难用了。

知识图谱还挺好玩的。但把Python环境打包到产品里，还是很激进的。

尤其是控制软件需要先下载 腾讯应用宝。拉完了

----

国外的滚动计价，比如ClaudeCode和 GPT ，体感上很好，虽然不透明，但能拉满的话，体验上比DeepSeek强。缺陷是高强度任务。5个小时的窗口基本只能跑2个小时。

5x是很好的，但价格太贵。20X价格很好，可以用高速1.5。体感上要更强。

就是同一个任务，GPT 5.5 和 Claude Opus ,用时更短。