2024.03.23 给下载的视频生成对映的字幕

GPT-SoVITS https://github.com/RVC-Boss/GPT-SoVITS

静下心,重新运行了下这个项目,的确是我没有之前太过于浮躁了,看了提供的ReadMe,大致了解了项目的构成,重新创建了Venv,就可以用了。

项目比我想的提供的多,我用的远比里面的少。项目是用来实现AI音色克隆的,即TTS(文字转语音)。同类型的项目还有SVC(歌声转换)、SVS(歌声合成)。

我需要的实现的是,把我之前下载的视频,跑出来字幕。

仔细分析了,发现实现我的需求分成几个部分,把视频通过ffmepg切分出干净的音频流, 音频降噪,音频识别成对应的文字,文字转换成汉语,提取形成字幕。

对了下代码,发现音视频切割是使用 audio-slicer https://github.com/openvpi/audio-slicer ,Clone下来, 看了下ReadMe,以及代码,大概了解了代码含义。GPT-SoVITS 使用这个项目主要是用来切分录制的音频流,好用在接下来的训练中。

语音转文字用了两个模型, 一个是Faster Whisper ,一个是达摩中文,我主要使用 Faster Whisper。看了下运行逻辑感觉没什么问题。

然后是提取转换出文字到srt ,因为SRT 需要输入时间,看了下魔改后的代码,发现是以音频帧数作为切分依据的,用gpt写了个python脚本,把这个处理掉了。我试了下,基本对的上。

本来想调用gpt翻译的发现比较麻烦, google 翻译便宜,而且有网页接口,用gpt 生成了调用实例,改了下,勉强能用。

Demo 大概是跑通了,就是效果还差一些,用google翻译的结果,我应该在优化一下,目前我是把srt 一起上传的,中间有些会出现粘连的问题。

切分音频哪里,和时间对的不是很好,前后会出现微小的出入。

还可以再优化一下,最后把这个几个东西重新整合出来一个。


视频超分辨的工具我是有看到的,我看B站也已经用上了这个,把自己家的一些番剧,电视剧做了超分辨的工作。

视频转文字这个,也是基本上每个视频网站都有,还有就是网上那么多的字幕,也不能都是字幕组做的,很多都是机翻。

但是这块,我没有看到过开源的成套的软件。

感觉科大讯飞的翻译的门槛可能比我想象的更低一些。API 还死贵。不看好这家。