首页 - 媒体软件 - 音频处理

FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版

发布日期：2024-07-03 19:35:37

栏目：音频处理

FasterWhisperGUI是一款带有 PySide6 的 fast_whisper 的 GUI 软件，你可以将音频或视频文件转录为srt/txt/smi/vtt/lrc文件，将在线OpenAI-whisper模型转换为ct2格式，并且提供VAD模型和whisper模型的所有参数，目前支持whisperX，Democs 模型，whisper large-v3模型。

听到Whisper，这个大家可能有点熟悉，这是OpenAI做的一个神经网络模型，可以在本地实时语音转文字，用来翻译和做字幕等，之前给大家介绍过一款叫做Constme-Whisper的软件，可以快速进行离线语音文字识别，还有GPU加速等等。

而faster-whisper-GUI增添了更多的特性，可以快速把音视频文件转成srt/txt/smi/vtt/lrc，支持Demucs、FastWhiper和whisperX、VAD-model这些技术，简单来说，支持的可调整的选项要比之前推荐的工具更多一点。

由于这类工具离线处理的特点，所以体积都比较大，faster-whisper-GUI的本体有1.6个G，安装完之后的占用又是6个多G，而且还不包括后续添加模型的大小，建议大家体验的时候，装在空间富裕的盘里。

如果是分离音频和背景音乐的话，直接把文件丢进来就行，试了一下效果还不错，也可以单独设置输出的内容。

其他的就需要加载一下额外模型了，把模型加载的时候需要注意，有个处理设备的选项，CPU还是CUDA，如果你用的不是英伟达的显卡，选择自动就好了，不然会提示加载失败。

模型也有多重选择，如果上面带有V3标志，记得把这个开关打开。

模型也有多重选择，如果上面带有V3标志，记得把这个开关打开。

来试试语音转文字，如果你觉得自己的设备处理等待时间有点长，在软件执行的时候可以挂在后台和切换到其他界面，在它的详情页面能看到输出的具体信息，它的正确率还是比较高的，中英文混合与首字母大小写这些细节都有。

这类机器识别和人一样，识别率还不能做到100%正确，识别完之后，会有一些错误需要手动调整，在faster-whisper-GUI里，它会自己跳转到字幕制作的界面，可以快速浏览调整，在这里分割不同说话人的文本等等

在设置里面，还有许多细节可以调整，调整音频的默认语言和翻译，以及各种防止幻听的参数。

这个功能在一些视频编辑软件还是需要收费的，或者需要云端处理，识别的准确率也就那样。

更新日志

0.8.0 改动

修复没有赞助渠道的 bug #126

升级 faster-whisper 到 1.02 版本

添加 distil-large-v3 模型在线模式支持 #130

最新的 Distil-Whisper 模型 distil-large-v3 本质上是为与 OpenAI 顺序算法配合使用而设计的。

支持初始化更多 whisper 模型参数

音频分段设置

max_new_tokens: 每个区块生成的新令牌的最大数量。如果未设置，最大值将通过默认的 max_size 设置。

chunk_length: 音频段的长度。如果不是 None，它将覆盖 FeatureExtractor 的默认chunk_size。

clip_timestamps: 逗号分隔的要处理的剪辑的时间戳列表（以秒为单位）开始,结束,开始,结束......。最后一个结束时间戳默认为文件的结束。如果使用 clip_timestamps，将忽略 VAD 设置。

幻听参数

hallucination_silence_threshold: 当 word_timestamps 为 True 时，当检测到可能的幻觉时，跳过长于此阈值（以秒为单位）的静默期。

其他设置

hotwords: 为模型提供的热词/提示短语。如果 prefix 不是 None，则无效。你可以输入提示词，类似于：“the video is about comfyUI”。

常规

language_detection_threshold: 如果语言标记的最大概率高于此值，则会检测为该语言。

language_detection_segments: 语言检测需要考虑的分段数量。

其他新特性：https://github.com/SYSTRAN/faster-whisper/releases/tag/v1.0.2

修复复制字幕功能的 bug

更新一些 UI 文字

停用转写参数页面的保存参数、读取参数功能

起止时间、说话人列居中显示

升级 pytorch 到 2.3.0 , CUDA12

提示

软件需要完全卸载旧版之后安装新版（cache文件夹可不做清理）

需要安装 ffmpeg

使用 V3 模型时，如果频繁出现显存溢出，请尝试更新显卡驱动程序到最新或者回退到上一个稳定版本，当前版本（2024.5.29）测试结果稳定。

下载地址

相关推荐