2024.03.26

给整合的demo写了一个一键脚本。参数调整为尽可能的小,用以减少粘连的情况。 参数少,拆分出来的就多,处理的时间就长。

想了下,逻辑其实也不是很复杂,ffmpeg 切分出时间戳,然后每一个片段都识别就行,最后写一个简单的解析脚本,把识别出来的文字和时间戳粘在一起。 后面再过滤掉一些常规的翻译错误,一些不需要展示的。基本上就算是可以用了。

效率上,3080Ti 2个小时的影片,大概需要40分钟。 和我用的模型是 large3有关,如果用小一点的应该会快很多。

说起来挺一般的,24小时,也就 36部。 效率有点低。

结果的话,自己看一下没什么问题,但是错漏之处有点多,没有办法拿出来用。

剥离人声 试了一下,结果的确会更好,但效率更低了。

如果需要精确解的话,感觉还是需要有人校准,机器只适合生成第一遍的初稿,这么算的话,那些字幕组应该已经用上了才对。