2024.03.24

对demo继续优化了下,音频切割那块,划分的并不够好,降噪的部分,我看了一下版本对不上,我不能用cuda加速,太慢了,后续有时间在修改。

切分出来的音频,faster-whisper-large-v3 跑出来的结果还行,勉强对的上,不过因为切分的问题,效果总是差点意思。后续有时间再调整。

修改了下调用 Google翻译的代码,之前是卡5000词,把srt的 序号和时间戳过滤了一下,这样就可以一次多传一点。

改了一会发现,这个想法实现起来很麻烦,还要把翻译后的文字和之前的需要做一个对映,如果google 的翻译,把两行搞成了一行,就基本没法写了。

想了想,还是用一行一行的翻译。为了降低api的使用率,用pickle,做了一个缓存,毕竟是翻译常用的对话,经常会先一摸一样的,重复调度,我比较担心接口有时间限制,当然肯定会有的。

跑了几个之前喜欢看的视频,感觉还行,毕竟不是每一个视频都会有人做字幕的,很多的视频就是光秃秃的mp4.

当然效果肯定原生的字幕好,也不知道他们参数是怎么调的,如果知道的话,我自己就可以做字幕组了。

直接种子下载原视频,然后切分,识别,翻译,ffmpeg压制 加个片头广告,固定位置加个logo啥的,调用百度网盘的API 上传,写入数据库,更新网站。当然也可以顺便发个微博啥的,或者是脚本发布一个种子链接。

感觉这个逻辑好像不太闭环,每个环节都可以优化一下,做成任务堆栈的方式,对不同耗时的环节分配不同数量的主机去跑。

收费怎么搞呢,字幕组的盈利模式基本依靠 免费的志愿者劳动力和贴片广告。开源项目基本依靠自愿赞助。

API 的话,网上多的是,只是他们不开源。


以这个项目做为根据去搜索,看到了很多之前没有注意到的角落,的确已经有人把整合软件做出来的,是基于这个项目的封装。大概跑了一下效果没有我这个demo 好,感觉问题点应该是和我一样,找不到一个比较好的分割声音的参数。

代码正在阅读中,看看差异是什么


再调调看,如果最后的效果我满意,那我就奖励自己一台新的电脑,7950X + 4090 .要是结果像是之前 超分辨一样是个鸡肋,就算了。 投入产出比对不上。 不如等明年新的发布。

明年我一定要整一套好的。