2026.04.10 AGI ?
最近几天睡的很少。
大量的时间在体验 不同的AI,不同的调用工具,带来的结果的差异。
结论是,可以节约大量的时间。
AGI 并没有到来。但代码开发的银弹,真的有了。
我很难描述他到底有多厉害,也很难说清楚他的边界在什么地方。
我只能描述我的经验是,不要一次性让AI做太多的事情。不要一次性让需求太详细。应该是逐步的,从框架到局部。
宏观和细节是不可兼得的,大方向上的重构,必然丢失细节,细节上的重构,必然缺乏宏观概念。
不同的模型,可以处理的需求级别也不一样。
最好的opus 4.6,可以完成一个比较复杂的需求,但GPT5.3 Codex 只能处理一些比较细节的事情。
但反过来,简单的事情可以让GPT 来做,便宜。当意识到这个问题比较难搞的时候,就必须要opus 来处理。
一个需要完成的事情,代码量在50行-100行左右, 不同的模型其实差异不大,任务拆解到位,实现的效果相似。但代码量在200-500行以内的时候,gpt的效果开始和opus 差了一个级别。在之后,opus的效果也不够用了,必须要手动微调,或者是多次执行。
Claude Cli 的效果,我用起来,并没有那么惊艳。同样的Opus ,同样的任务,命令行执行出的效果,虽然也做出来了,但缺乏IDE 中指定的上下文,缺了点东西。
有可能是因为被开源了,导致其他软件的Agent能力有比较大的提高。
写完的代码,必须要去理解他的逻辑,否则在多轮迭代之后,如果代码还混在一起,迭代的效果会越来越差。
当你不知道上下文是什么的时候,让他自己去找上下文,我们的语言描述又很难精确,此刻,使用AI非常容易陷入,我认为我说的很详细了,但AI还是在给我乱改的情况。
这种时候,一般要开始第一轮重构,让他,或者是自己,把结构拆出来,之后的任务,每次只给对映的模型,和任务,效果又上升了。
这意味着一个问题,如果代码全是AI写的,其实从demo之后,迭代几轮,便无法维护了。
真实案例。
我用它快速迭代了一个后台,不包含管理系统,只是提供了一些对外的接口API ,一些界面,还有数据库的部分。
在迭代到10k行左右的时候,用了8个小时左右。因为他写完,你要看过用过,再去提下一轮的需求。
在之后,那种心流的感觉,消失了,我开始频繁的出现,他改了一段之后,效果不满意,再来一遍,来了几遍之后,更乱了,不撤销 改的一团糟,撤销了,就白改了,我和它的对话中,频繁出现,我不是这个意思,我希望,但就是越来越差。
这个时候,如果你能意识到,有可能不是AI的问题,而是需求本身就是错的,换一个方向,换一个思路,那么游戏还能延续几个回合。
这种问题,如果不是专业人员的话,会更早的出现。
如果工作过的话,可能很容易理解我说的,并非所有的需求都应该被实现,都需要被实现,都可以被实现。
而这种情况一旦出现一次,就会快速消耗对AI的热情,从极度推崇,转变到另一个极端。
网上的负面案例,几乎是同一情况。
短暂的,我体验过一次,非常富裕的AI使用,最好的模型,一天跑了换算API 得好几千了,那种感觉无与伦比。
我就明白了,确实网上提到了那些事情,理论上是可行的,有钱,且不限速,且最好的模型。
龙虾的问题很多。但思路是对的,有些像是高射炮打蚊子。
不是谁都有不限量,不限速,不降级的token的。
AI真的很贵,尤其是当亲自部署过的的8B模型的时候,就能明白,要做到这个效果,到底成本是多可怕。
目前用户端,所有的厂商,哪怕是 Code Plan 都在抢用户,抢市场,抢用户使用的训练集。
这个场景我们见过不止一次了,百团大战的补贴,打车的补贴,便宜的云盘 ,,,,
这些所有的,我们也会知道。在一切趋于稳定之后,价格都开始上涨。
即使未来科技进步,硬件进步,模型进步,但短期内看,不会有那么便宜的token了。
这也难怪,内存供不应求。存储供不应求,芯片供不应求。
为了维持良好的体验,虽然要支持国产,但还是尽量不要用廉价的模型用于生产。
国产的丢给龙虾玩玩就好了。
会变得不幸。
少睡几觉,死不了人。
窗口期没有那么多,必须要尽量抓住。