志玲姐姐的語音導航是一句一句錄的嗎?丨語言學午餐

語言學午餐Ling-Lunch羊羊2018-03-25 17:05:30

開車的各位老司機,還記得某德地圖推出的林志玲姐姐給大家語音導航的服務嗎?


語言學午餐與該品牌無合作關係


在你開車累的不行的時候,志玲姐姐忽然提醒你不要疲勞駕駛哦。真是讓人大夢初醒如沐春風。



有一天,我爸曾經嚴肅地跟我説:“你説明星也都不容易哈。”


“老爸你何出此言?”


“你看為了賺點錢,還要一句一句錄那麼多音。”


我陷入了久久的沉思,最終還是沒有説出“其實這些都是合成出來的”來打破我爸的幻想(希望爸爸你現在在看這篇文章)。


不過,説起合成的聲音,還有一個不得不提的,前幾天離世的英國著名科學家史蒂芬.


霍金曾因全身癱瘓時感染肺炎,做了氣管切開,沒有辦法和別人用聲音來交流。看過生活大爆炸,或是聽過霍金的任何演講的各位都對霍金的“奇怪”的聲音很熟悉。



霍金客串美劇生活大爆炸


然而,嚴格意義上來講,霍金的聲音不是霍金本人的原聲。那他的聲音是怎麼來的?


今天小編就帶領大家粗略瞭解一下,探究這些新興聲音背後的祕密!



“語音合成”是個啥?


“語音合成”, 顧名思義,是人造的語音,專業的定義是:


“通過機械的,電子的方法產生人造語音的技術“。


大家自己看關於語音合成的文獻或者介紹的時候,可能遇到下面兩個術語:


自動化語音合成(Automated Speech Synthesis) 和文語轉換系統(Text-To-Speech System)。


其實他們都概括了同一個過程:給一個系統輸入文本信息,系統自動給你生成一個對應的語音。


一般而言,自動化語音識別中,輸入到系統中的僅僅只有書寫體的文本信息。


要想生成一個比較容易理解,並且聽起來不會累的語音,意味着系統要面面俱到:識字、知道單個字如何發音,甚至瞭解這個句子應該有的語音語調等等等等。



“語音合成”的歷史


語音合成其實從1779年就開始發展了,德國的科學家Christian Gottlieb Kratzenstein利用物理模型模擬了聲道和聲帶。




他的物理模型可以模擬人發出的五個元音:/a/ /e/ /i/  /o/  /u/。然而這個時候還沒有計算機的參與。


計算機自動化的語音合成八十年代發展最為迅速,(Parameter Synthesis/Formant Synthesis)到後來的拼接合成(Concatenative Syntesis)趨勢一直持續到現在。


最開始語音合成是依賴於電子工程,聲學和語言學為基礎的,現在更多關注點放在了數學和統計的模型上。


(寫到這裏,小編內心忽然有一絲絲酸楚......)



不過在這篇文章裏,我們主要介紹和語音學更息息相關參數合成和拼接合成。



“語音合成”兩種系統


我們先來介紹一下音素髮聲的基礎理論:聲源濾波理論(Source-Filter Theory)。




氣流從肺中進入聲帶,會變成四種不同的音源或聲源(source),不同的聲源會影響一個音的大分類。


聲帶震動(voicing source)--> 元音和濁輔音


擦音的摩擦源(frication source)--> 擦音或者帶有一些氣流摩擦的輔音


氣聲源(aspiration source) -->  /h/和稍帶些呼吸的氣音


爆破源(transient source) --> 爆破音


同時,聲帶的震動基礎頻率影響了人們對於音調高低的認知。通常情況下,基本頻率越高,音調越高。


進入口腔後,口腔或鼻腔的不同形狀會影響氣流共振,導致一些頻率的振幅被加強,而另一些頻率的振幅被減弱。


(忽然難起來了……)


被加強的頻率被稱為共振峯(formant), 各個共振峯的振幅會有所不同。這個就是我們説的聲道的過濾作用。


最後從聲道中出來的波形就是我們通常見到的一個音素的波狀圖。


簡單地講,一個音素和另一個音素的區分依賴於:


1. 聲源的不同


2. 聲道形狀的不同


聲道形狀的不同具體表現在共振峯的頻率值和振幅的不同。音調的高低受聲帶振動的基礎頻率影響。


參數合成系統就是利用這些語音知識,利用對於不同參數值的設置來構造一個音。比如在非常著名的Klatt Synthesizer 1988版 裏,參數值達到了60個。



        圖片來源:Keating, P. "Klatt Synthesizer." UCLA, lecture powerpoint


如上圖可見,基本頻率決定一個音的音調高低。


av:voicing source; ah:aspiration source; af: frication source....調節這些參數值就可以得到相應的音。(上圖顯示的音為元音[ə]。)


(注:這款軟件叫SynthWorks,小編認為用類似軟件合成語音是一個很好的學習並運用語音學知識的方法,如果大家想知道通過類似軟件合成語音的方法,可以下方留言!)


然而,還記得上回書説到,一個好的語音合成系統需要識字,懂得音調,那參數合成是怎麼實現這些的呢?


下面是Klatt Synthesizer的例子:


圖片來源於:Keating, P. "Klatt Synthesizer." UCLA, lecture powerpoint


可以看到,這種語音合成系統運用了很多其他的語言學知識。


輸入文本信息之後,第一步需要運用句法的知識來分析這個文本(parse)。


接下來系統中已有的詞彙發音法則會告訴系統:這裏需要/p/這個音素!這裏需要/a/這個音素!...


利用音系學的知識來轉錄這些音素;為了讓輸出的語音更像人更自然,機器需要運用這個語言的韻律學進行再優化。


最後就是激動人心的步驟!前面我們提到的利用參數表來改這個音的參數值,優化優化再優化,優化出一個波狀圖,從波狀圖就可以到聲音本身了。


Dennis Klatt創造的這個語音合成系統在八十年代被廣為使用,商業化的DECTalk就基於Klatt Synthesizer這個系統。


DECTalk為很多交流障礙的人士提供了便利,最著名的用户就是我們前文提到的霍金。


揭開謎題!霍金的聲音其實是Dennis Klatt的聲音,而更令人唏噓的,Dr. Klatt本人死於癌症,在患癌症之後逐漸喪失了發聲的能力,他的聲音卻以另一種形式存在在了這個世界上。


Dennis Klatt


開頭提到的志玲姐姐的語音導航,其實是科大訊飛公司開發的Trainable TTS技術,採用波形拼接技術合成不同的語音,林志玲只要錄製不多的語句,就可以達到自然流暢的語音效果。


http://www.199it.com/archives/621550.html


拼接合成的操作流程和參數合成很像,兩種合成系統的不同在於波狀圖的生成方法。


比較參數合成,拼接合成並不是利用理論來憑空造音,而是擁有一個大規模的語料庫。


最開始建立這個系統,需要收集大量的數據存進語料庫,數據庫的涵蓋詞的範圍越廣,最後得到的結果就會越自然。


所以明星語音導航中,並不是他們需要把每一句話都錄好,而是錄了一些特定的句子或者單詞,系統會根據需要來自行拼接。


波狀圖拼接合成也有兩種不同的方法,第一種方法叫雙音子(diphone), 第二種是直接的單元選擇(unit-selection),兩種方法最大的不同在於:語料庫裏存的是什麼。


Diphone,是將我們收到的數據,從一個音素的中間切到另一個音素的中間(因為一個音的中點往往是發音最穩定,最不受其他環境因素影響的點),存貯這兩個音素的中點組合。



在每一次合成一個新詞的時候,系統會分析我們需要哪些組合,從數據庫中抽取最合適的組合,拼接在一起。


例如:我們想合成一個詞叫/#æpəl#/,可以找一個以[æ]開頭的單詞+[æp]+[]+[əl]+[l]結尾的單詞。


蘋果公司最初的一些合成人聲就是通過Diphone系統合成的,比如Bruce (原聲是UCLA語言學系的Bruce Hayes教授 ><)。


單元選擇就簡單很多了,一般情況下,系統會將錄好的句子分成不同的單元,單元的大小不是固定的,有的系統可以到音素,而有的系統可能就是一個單詞或短語,有的系統會將這些結合在一起,在每次合成時,選擇最能匹配的單元然後拼接在一起。


Unit-selection出來的合成音一般會很自然,但是當語料庫中沒有比較好的選擇,或者比如遇到一個新詞,機器措手不及不知道怎麼辦,結果可能就比較難以入耳了。



寫在最後的話


這篇文章中提到的系統並不是現在的科技公司運用的最新的語音合成的方法,只是在講語音合成的發展史中與語言學比較緊密的一些合成系統,希望能讓大家看到語言學、語音的另一種可能性。


兩種系統並不是互不兼容的關係,越來越多的人嘗試將他們結合在一起,或是在模型中增加更多數學、統計和計算機的元素,比如在unit-selection裏面加入隱馬克洛夫模型,希望能夠得到更加自然的合成音。


科學的進步已經解決了合成出來的是人話這個問題,然而一些公司的合成語音,尤其是語調方面很不自然,很容易讓人聽久了覺得很累。大家在日常生活中有想吐槽的可以留言區踴躍發言!説不定就看到一個新的科研趨勢了呢。



參考文獻


Johnson, Keith. (2011). Acoustic and Auditory Phonetics. Hoboken, NJ: Wiley-Blackwell.

語音合成的定義來自百度百科“語音合成”詞條https://baike.baidu.com/item/%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90/9790227?fr=aladdin

https://en.wikipedia.org/wiki/Speech_synthesis#History

Black, A. W. (2002). Perfect synthesis for all of the people all of the time. IEEE TTS Workshop.







閲讀原文

TAGS: