FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版

发布日期:2024-07-03 19:35:37

栏目:音频处理

FasterWhisperGUI是一款带有 PySide6 的 fast_whisper 的 GUI 软件,你可以将音频或视频文件转录为srt/txt/smi/vtt/lrc文件,将在线OpenAI-whisper模型转换为ct2格式,并且提供VAD模型和whisper模型的所有参数,目前支持whisperX,Democs 模型,whisper large-v3模型。

听到Whisper,这个大家可能有点熟悉,这是OpenAI做的一个神经网络模型,可以在本地实时语音转文字,用来翻译和做字幕等,之前给大家介绍过一款叫做Constme-Whisper的软件,可以快速进行离线语音文字识别,还有GPU加速等等。

而faster-whisper-GUI增添了更多的特性,可以快速把音视频文件转成srt/txt/smi/vtt/lrc,支持Demucs、FastWhiper和whisperX、VAD-model这些技术,简单来说,支持的可调整的选项要比之前推荐的工具更多一点。 

由于这类工具离线处理的特点,所以体积都比较大,faster-whisper-GUI的本体有1.6个G,安装完之后的占用又是6个多G,而且还不包括后续添加模型的大小,建议大家体验的时候,装在空间富裕的盘里。 

如果是分离音频和背景音乐的话,直接把文件丢进来就行,试了一下效果还不错,也可以单独设置输出的内容。 

其他的就需要加载一下额外模型了,把模型加载的时候需要注意,有个处理设备的选项,CPU还是CUDA,如果你用的不是英伟达的显卡,选择自动就好了,不然会提示加载失败。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。

来试试语音转文字,如果你觉得自己的设备处理等待时间有点长,在软件执行的时候可以挂在后台和切换到其他界面,在它的详情页面能看到输出的具体信息,它的正确率还是比较高的,中英文混合与首字母大小写这些细节都有。

这类机器识别和人一样,识别率还不能做到100%正确,识别完之后,会有一些错误需要手动调整,在faster-whisper-GUI里,它会自己跳转到字幕制作的界面,可以快速浏览调整,在这里分割不同说话人的文本等等 

在设置里面,还有许多细节可以调整,调整音频的默认语言和翻译,以及各种防止幻听的参数。 

这个功能在一些视频编辑软件还是需要收费的,或者需要云端处理,识别的准确率也就那样。

更新日志

0.8.0 改动

修复没有赞助渠道的 bug #126

升级 faster-whisper 到 1.02 版本

添加 distil-large-v3 模型在线模式支持 #130

最新的 Distil-Whisper 模型 distil-large-v3 本质上是为与 OpenAI 顺序算法配合使用而设计的。

支持初始化更多 whisper 模型参数

音频分段设置

max_new_tokens: 每个区块生成的新令牌的最大数量。如果未设置,最大值将通过默认的 max_size 设置。

chunk_length: 音频段的长度。如果不是 None,它将覆盖 FeatureExtractor 的默认chunk_size。

clip_timestamps: 逗号分隔的要处理的剪辑的时间戳列表(以秒为单位)开始,结束,开始,结束......。最后一个结束时间戳默认为文件的结束。如果使用 clip_timestamps,将忽略 VAD 设置。

幻听参数

hallucination_silence_threshold: 当 word_timestamps 为 True 时,当检测到可能的幻觉时,跳过长于此阈值(以秒为单位)的静默期。

其他设置

hotwords: 为模型提供的热词/提示短语。如果 prefix 不是 None,则无效。 你可以输入提示词,类似于:“the video is about comfyUI”。

常规

language_detection_threshold: 如果语言标记的最大概率高于此值,则会检测为该语言。

language_detection_segments: 语言检测需要考虑的分段数量。

其他新特性:https://github.com/SYSTRAN/faster-whisper/releases/tag/v1.0.2

修复 复制字幕 功能的 bug

更新一些 UI 文字

停用 转写参数 页面的 保存参数、读取参数 功能

起止时间、说话人 列居中显示

升级 pytorch 到 2.3.0 , CUDA12

提示

软件需要完全卸载旧版之后安装新版(cache文件夹可不做清理)

需要安装 ffmpeg

使用 V3 模型时,如果频繁出现显存溢出,请尝试更新显卡驱动程序到最新或者回退到上一个稳定版本,当前版本(2024.5.29)测试结果稳定。

下载地址