2024.03.24 · xincheng 的文档花园

2024.03.24

对demo继续优化了下，音频切割那块，划分的并不够好，降噪的部分，我看了一下版本对不上，我不能用cuda加速，太慢了，后续有时间在修改。

切分出来的音频，faster-whisper-large-v3 跑出来的结果还行，勉强对的上，不过因为切分的问题，效果总是差点意思。后续有时间再调整。

修改了下调用 Google翻译的代码，之前是卡5000词，把srt的序号和时间戳过滤了一下，这样就可以一次多传一点。

改了一会发现，这个想法实现起来很麻烦，还要把翻译后的文字和之前的需要做一个对映，如果google 的翻译，把两行搞成了一行，就基本没法写了。

想了想，还是用一行一行的翻译。为了降低api的使用率，用pickle，做了一个缓存，毕竟是翻译常用的对话，经常会先一摸一样的，重复调度，我比较担心接口有时间限制，当然肯定会有的。

跑了几个之前喜欢看的视频，感觉还行，毕竟不是每一个视频都会有人做字幕的，很多的视频就是光秃秃的mp4.

当然效果肯定原生的字幕好，也不知道他们参数是怎么调的，如果知道的话，我自己就可以做字幕组了。

直接种子下载原视频，然后切分，识别，翻译，ffmpeg压制加个片头广告，固定位置加个logo啥的，调用百度网盘的API 上传，写入数据库，更新网站。当然也可以顺便发个微博啥的，或者是脚本发布一个种子链接。

感觉这个逻辑好像不太闭环，每个环节都可以优化一下，做成任务堆栈的方式，对不同耗时的环节分配不同数量的主机去跑。

收费怎么搞呢，字幕组的盈利模式基本依靠免费的志愿者劳动力和贴片广告。开源项目基本依靠自愿赞助。

API 的话，网上多的是，只是他们不开源。

以这个项目做为根据去搜索，看到了很多之前没有注意到的角落，的确已经有人把整合软件做出来的，是基于这个项目的封装。大概跑了一下效果没有我这个demo 好,感觉问题点应该是和我一样，找不到一个比较好的分割声音的参数。

代码正在阅读中，看看差异是什么

再调调看，如果最后的效果我满意，那我就奖励自己一台新的电脑，7950X + 4090 .要是结果像是之前　超分辨一样是个鸡肋，就算了。　投入产出比对不上。　不如等明年新的发布。

明年我一定要整一套好的。