2024.03.26 · xincheng 的文档花园

2024.03.26

给整合的demo写了一个一键脚本。参数调整为尽可能的小，用以减少粘连的情况。参数少，拆分出来的就多，处理的时间就长。

想了下，逻辑其实也不是很复杂，ffmpeg 切分出时间戳，然后每一个片段都识别就行，最后写一个简单的解析脚本，把识别出来的文字和时间戳粘在一起。后面再过滤掉一些常规的翻译错误，一些不需要展示的。基本上就算是可以用了。

效率上，3080Ti 2个小时的影片，大概需要40分钟。和我用的模型是 large3有关，如果用小一点的应该会快很多。

说起来挺一般的，24小时，也就 36部。效率有点低。

结果的话，自己看一下没什么问题，但是错漏之处有点多，没有办法拿出来用。

剥离人声试了一下，结果的确会更好，但效率更低了。

如果需要精确解的话，感觉还是需要有人校准，机器只适合生成第一遍的初稿，这么算的话，那些字幕组应该已经用上了才对。