2024.03.23 给下载的视频生成对映的字幕

GPT-SoVITS https://github.com/RVC-Boss/GPT-SoVITS

静下心，重新运行了下这个项目，的确是我没有之前太过于浮躁了，看了提供的ReadMe,大致了解了项目的构成，重新创建了Venv，就可以用了。

项目比我想的提供的多，我用的远比里面的少。项目是用来实现AI音色克隆的，即TTS（文字转语音）。同类型的项目还有SVC（歌声转换）、SVS（歌声合成）。

我需要的实现的是，把我之前下载的视频，跑出来字幕。

仔细分析了，发现实现我的需求分成几个部分，把视频通过ffmepg切分出干净的音频流，音频降噪，音频识别成对应的文字，文字转换成汉语，提取形成字幕。

对了下代码，发现音视频切割是使用 audio-slicer https://github.com/openvpi/audio-slicer ，Clone下来，看了下ReadMe，以及代码，大概了解了代码含义。GPT-SoVITS 使用这个项目主要是用来切分录制的音频流，好用在接下来的训练中。

语音转文字用了两个模型，一个是Faster Whisper ，一个是达摩中文，我主要使用 Faster Whisper。看了下运行逻辑感觉没什么问题。

然后是提取转换出文字到srt ，因为SRT 需要输入时间，看了下魔改后的代码，发现是以音频帧数作为切分依据的，用gpt写了个python脚本，把这个处理掉了。我试了下，基本对的上。

本来想调用gpt翻译的发现比较麻烦， google 翻译便宜，而且有网页接口，用gpt 生成了调用实例，改了下，勉强能用。

Demo 大概是跑通了，就是效果还差一些，用google翻译的结果，我应该在优化一下，目前我是把srt 一起上传的，中间有些会出现粘连的问题。

切分音频哪里，和时间对的不是很好，前后会出现微小的出入。

还可以再优化一下，最后把这个几个东西重新整合出来一个。

视频超分辨的工具我是有看到的，我看B站也已经用上了这个，把自己家的一些番剧，电视剧做了超分辨的工作。

视频转文字这个，也是基本上每个视频网站都有，还有就是网上那么多的字幕，也不能都是字幕组做的，很多都是机翻。

但是这块，我没有看到过开源的成套的软件。

感觉科大讯飞的翻译的门槛可能比我想象的更低一些。API 还死贵。不看好这家。