有了這個開源項目,説你是老闆都有人信?

大數據技術2019-09-23 11:07:57

來自:開源最前線(ID:OpenSourceTop)

連接:https://towardsdatascience.com/you-can-now-speak-using-someone-elses-voice-with-deep-learning-8be24368fa2b


只要你採集了你Boss的語音,這個項目就可在短短几秒之內,克隆生成與之類似的語言,你想讓它説什麼,它就跟你説什麼。


要實現這樣的功能,首先不得不提文本轉語音(TTS),它是指將文本轉換為音頻,人類只需閲讀即可完成此任務,良好的TTS系統的目標是讓計算機自動完成。


有趣的是有人構建了一個系統,可以選擇你想要的聲音生成音頻,它可以是男聲也可以是女聲,你還可以選擇他的聲音是洪亮的還是低沉的。


在進行深度學習的TTS時,你必須收集文本-語音的數據集,並且錄製這個音頻的演講者必須是固定的。如果你想要創建一個能夠模仿自己/他人聲音的音頻,要做的第一件事就是收集音頻



Real-Time-Voice-Cloning就可以幫你實現,這是一個基於深度學習的語音合成項目,它通過採集分析一段具體的聲音樣本,可在 5 秒內生成與之類似的克隆語音。


那麼它的工作原理是怎樣的呢?


比如,假如我們想讓蝙蝠俠讀“我愛披薩”這句話,那麼我們需要提供兩樣東西給系統:一個”我愛披薩“的文本和一段蝙蝠俠的語言樣本,這樣它才知道蝙蝠俠的聲音是怎樣的,以及他要讀的文本是怎樣的,具體流程如下:



在過去幾年中,文本轉語音系統在深度學習社區中得到了很多研究關注,如果你也想嘗試,首先你需要克隆存儲庫:

git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git


安裝所需的庫。一定要使用Python 3:


pip3 install -r requirements.txt


在README文件中,你還可以下載預先訓練的模型和數據集,嘗試一些樣本。


最後,你可以通過運行以下命令來打開GUI:


python demo_toolbox.py -d datasets_root>


如下圖所示,系統將輸出的語音文本為:“你知道多倫多猛龍隊是籃球冠軍嗎?籃球是一項偉大的運動。



你可以單擊“Random”按鈕隨機化語音輸入,然後單擊“加載”將語音輸入加載到系統中。


你還可以通過以下視頻查看視頻演示:https://www.youtube.com/watch?v=-O_hYhToKoA


如果你感興趣也可以用自己的聲音試一下,或者把Boss的聲音錄下來,然後你想讓他説什麼就説什麼,比如:這個月的Bug都不用找了。所以,躲在音頻背後,説你Boss,都有人信。



目前,這個項目已經在GitHub上獲得 4930 個Star,549 個Fork(GitHub地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning


不過,對於這項技術,有網友評論道:雖然很酷,但也是不道德的,容易造成謠言傳播,使用需謹慎,對此,你怎麼看呢?



●編號888,輸入編號直達本文

●輸入m獲取文章目錄

推薦↓↓↓

開源最前線

https://hk.wxwenku.com/d/201396318