2026.04.06 微信数据库分析续
按照目前开源方案的而言,数据解密仅仅需要电脑端微信是开启的。这意味着,只要权限足够,可以把收集用户微信隐私数据做成对用户而言是无感知的。
这也就是为什么有些公司的电脑上,如果使用微信,企业端可以监控到员工的微信隐私的原因,泄露的根源不在微信的服务端,而是在于微信本地存储数据的地方。
企业微信的数据,拿不到至少目前开源的方案是查不到的,但闭源的方案是存在的,只要花一点小钱可以做到和微信相同的效果。
这也就是一个提醒吧,拿到公司电脑的第一时间,先重装个系统,私有产权应当神圣不可侵犯。
最近比较火热的colleague-skill ,在拿到微信的数据之后,我尝试生成了一下。
效果很差。不如直接和AI聊天。虽然可以模拟语气,模拟风格,但从解决问题的来看,不如直接和AI沟通,而不是让AI模拟一份。
我的评价是 文案和营销是顶级的,但也就仅此而已了。
千人千面,根据某个聊天对话是无法确定性的描述一个人的。
想要完成这个,还是需要自己的数据库,比如我这些年写的文档,可以朋友圈的,不可以发的,这些信息的拼凑在足以让AI复杂化。
补足完整的世界观,人生观,价值观。思考模式,行为逻辑,对未来方向的抉择。
拿到的数据依旧是有意义的,微信聊天记录保存问题就和GFW一样。如果你不会,那么这个屏障就是在保护你。
数据主权和数字资产定价权,在AI时代,也应该回归用户本体了。
一个基于个人数据的AI助理。使用这些数据进行提炼,在精确不过了。
突破见知障,以超然的视角对自我的过去进行审视。对未来进行规划和设计。
微信的数据库结构设计上来说,使用独立可加密的多Sqlite数据库的形式来保存数据。对于用户的聊天数据使用了分库分表的结构。
一年就是一个数据库,一个聊天就是一个表。通过用户ID关联在一起。性能上极佳。
搜索表使用FT。
朋友圈的信息使用SNS 库,在解析的问题上,虽然文字和图片都能拿到,目前图像缓存和文字无法串在一起。找不到相关的资料把网络图片和本地缓存关联在一起。理论上应该是MD5,但匹配不上。
聊天记录的图片中,只能转换出来一小部分,有许多的图片是无法转换的,