這個起因於老闆研究室的博士生問我能不能幫忙處理看看
因為他在咖啡店進行訪談,結果雙方的交談聲音小小聲
背景的咖啡店環境音大大聲,有時候還有咖啡機的蒸氣聲
我一開始嘗試用GoldenWave,複製一段純背景噪音
試著去除音訊中的相同波型,結果整段錄音都被消除...
於是試著詢問Gemini
題外話,相較於ChatGPT、DeepSeek,個人目前覺得Gemini比較好用
詢問Gemini如何透過程式來去除音訊中的非人聲部份
Gemini建議用python的Noisereduce
在虛擬環境中建立程式來處理,因為有些函示庫會有指定版本
利用虛擬環境可以避免跟作業系統的python環境產生衝突
處理後的聲音還可以接受
由於程式碼幾乎都是Gemini生成的,這邊就不呈現了
備註:Gemini生成的程式碼有時候會有版本更迭的問題,也就是 Gemini用的是舊版本,所以會因此無法正確執行 或者也可以請Gemini在生成程式的時候,直接指定函示庫的版本,這樣應該就可以避免版本問題了
Gemini原本還建議另一個方式,使用Demucs
可以透過GPU加快運算速度,但是目前的版本會跟電腦安裝的顯示卡驅動產生衝突
所以一度放棄使用,後來找到包裝成GUI介面的程式-Demucs GUI
備註:在pypi.org的demucs 頁面其實就有介紹其他方式,這個Demucs GUI就在其中,也有線上版本(不過好像都要錢錢)
這個處理後的聲音更乾淨,機器學習真是厲害
題外話:辦公室桌機的顯卡是我額外加的1050,執行速度跟我的筆電顯卡3050確實有不小差距...
但是辦公室桌機可以直接處理4小時的音檔,但是筆電會在寫出檔案時產生錯誤
Demucs GUI的說明頁面有提到會出錯的可能原因是系統記憶體不足或GPU 記憶體不足
後來把音源分割成1小時的長度之後就能正常處理