2026.04.10 AGI · xincheng 的文档花园

2026.04.10 AGI ?

最近几天睡的很少。

大量的时间在体验不同的AI，不同的调用工具，带来的结果的差异。

结论是，可以节约大量的时间。

AGI 并没有到来。但代码开发的银弹，真的有了。

我很难描述他到底有多厉害，也很难说清楚他的边界在什么地方。

我只能描述我的经验是，不要一次性让AI做太多的事情。不要一次性让需求太详细。应该是逐步的，从框架到局部。

宏观和细节是不可兼得的，大方向上的重构，必然丢失细节，细节上的重构，必然缺乏宏观概念。

不同的模型，可以处理的需求级别也不一样。

最好的opus 4.6，可以完成一个比较复杂的需求，但GPT5.3 Codex 只能处理一些比较细节的事情。

但反过来，简单的事情可以让GPT 来做，便宜。当意识到这个问题比较难搞的时候，就必须要opus 来处理。

一个需要完成的事情，代码量在50行-100行左右，不同的模型其实差异不大，任务拆解到位，实现的效果相似。但代码量在200-500行以内的时候，gpt的效果开始和opus 差了一个级别。在之后，opus的效果也不够用了，必须要手动微调，或者是多次执行。

Claude Cli 的效果，我用起来，并没有那么惊艳。同样的Opus ，同样的任务，命令行执行出的效果，虽然也做出来了，但缺乏IDE 中指定的上下文，缺了点东西。

有可能是因为被开源了，导致其他软件的Agent能力有比较大的提高。

写完的代码，必须要去理解他的逻辑，否则在多轮迭代之后，如果代码还混在一起，迭代的效果会越来越差。

当你不知道上下文是什么的时候，让他自己去找上下文，我们的语言描述又很难精确，此刻，使用AI非常容易陷入，我认为我说的很详细了，但AI还是在给我乱改的情况。

这种时候，一般要开始第一轮重构，让他，或者是自己，把结构拆出来，之后的任务，每次只给对映的模型，和任务，效果又上升了。

这意味着一个问题，如果代码全是AI写的，其实从demo之后，迭代几轮，便无法维护了。

真实案例。

我用它快速迭代了一个后台，不包含管理系统，只是提供了一些对外的接口API ，一些界面，还有数据库的部分。

在迭代到10k行左右的时候，用了8个小时左右。因为他写完，你要看过用过，再去提下一轮的需求。

在之后，那种心流的感觉，消失了，我开始频繁的出现，他改了一段之后，效果不满意，再来一遍，来了几遍之后，更乱了，不撤销改的一团糟，撤销了，就白改了，我和它的对话中，频繁出现，我不是这个意思，我希望，但就是越来越差。

这个时候，如果你能意识到，有可能不是AI的问题，而是需求本身就是错的，换一个方向，换一个思路，那么游戏还能延续几个回合。

这种问题，如果不是专业人员的话，会更早的出现。

如果工作过的话，可能很容易理解我说的，并非所有的需求都应该被实现，都需要被实现，都可以被实现。

而这种情况一旦出现一次，就会快速消耗对AI的热情，从极度推崇，转变到另一个极端。

网上的负面案例，几乎是同一情况。

短暂的，我体验过一次，非常富裕的AI使用，最好的模型，一天跑了换算API 得好几千了，那种感觉无与伦比。

我就明白了，确实网上提到了那些事情，理论上是可行的，有钱，且不限速，且最好的模型。

龙虾的问题很多。但思路是对的，有些像是高射炮打蚊子。

不是谁都有不限量，不限速，不降级的token的。

AI真的很贵，尤其是当亲自部署过的的8B模型的时候，就能明白，要做到这个效果，到底成本是多可怕。

目前用户端，所有的厂商，哪怕是 Code Plan 都在抢用户，抢市场，抢用户使用的训练集。

这个场景我们见过不止一次了，百团大战的补贴，打车的补贴，便宜的云盘 ,,,,

这些所有的，我们也会知道。在一切趋于稳定之后，价格都开始上涨。

即使未来科技进步，硬件进步，模型进步，但短期内看，不会有那么便宜的token了。

这也难怪，内存供不应求。存储供不应求，芯片供不应求。

为了维持良好的体验，虽然要支持国产，但还是尽量不要用廉价的模型用于生产。

国产的丢给龙虾玩玩就好了。

会变得不幸。

少睡几觉，死不了人。

窗口期没有那么多，必须要尽量抓住。