在隔壁小眾軟件看到了一款有意思的工具-“Const-me/Whisper”。
原版Whisper是OpenAI做的一個神經網絡模型,它可以在本地實時語音轉文字,用來翻譯和做字幕等等,而Const-me的版本將Whisper做成了Windows的版本,還添加了GPU加速。
在官方的GitHub頁面上,可以看到這個工具還有不少特點,比如說項目采用純C++實現,除了系統基本組件沒有運行依賴、內存占用低、支持大多數音頻和視頻格式、支持大多數音頻捕獲設備、比OpenAI的實現還快。
主要的使用限制是系統版本,Windows 8.1以下和32位的系統是用不了的。
軟件的使用很簡單,一個用于啟動的界面環境,解壓出來1MB不到,一個用于識別的語言模型,模型有多個版本,想要正常使用得用1G以上的模型,下載文件之后,直接運行啟動器即可。
打開之后就能看見這樸實無華的界面,軟件沒有幾個按鈕,雖然是英文的,但是模型路徑和高級設置一看就明白。
在高級設置里面可以設置要調用的GPU,這個保持默認就行。
之后就能看到軟件的主界面了,點開選擇語言,可以看到支持的語言還是挺多的,這里就先來試試中文。
在測試的時候發現用1.42GB的模型,默認出來的是繁體,用2.88GB模型出來的是簡體,這個也可能是系統環境的原因,大家可以自己測試一下。
測試用的顯卡是GTX1660,轉換速度在可接受范圍之內,上面這種簡短的句子,用大的識別模型,在某些簡單的語境條件下,以及加上最重要的因素——運氣好的話,竟然有100%的準確度。
除了音頻文件,直接放視頻也是可以的,但是只要涉及的內容一廣,這個在本地運行的缺點就暴露出來了,生成的文本一言難盡,在有數字的時候會自己轉換成阿拉伯數字,有英文混雜的時候也會自己嘗試首字母大寫,但是在轉換效果上,一眼望過去有不少同音字錯誤,對于中文的前后文聯想能力比較差。
支持實時錄制音頻。
這個比Windows自帶的語言輸入效果要好一點,同樣的音頻速度,這個工具不會出現丟字的情況。
官方給出的Whisper識別能力圖如下,主要還是用來識別英文。
其他功能上,可以添加時間標記和直接翻譯成英文。
想要控制具體的參數,也可以使用控制臺的版本,還會展示對應數值的置信度。
輸出中文的話會出現一堆問號,這個不是控制臺的編碼顯示問題,但是在輸入轉換指令后,在對應路徑下面的文本生成是沒有問題的。
有了這個,就可以配合像是Quicker一類的快捷工具,做到本地一鍵轉換成文本了。
比較遺憾的是,這個小工具目前只支持將轉換的音頻轉換為英文,要是未來可以轉換成任意語言的話,那可玩性就很高了。