“每當我開除一個語言學家,語音識別系統就更準了!”丨語言學午餐

語言學午餐Ling-Lunch2018-05-13 20:02:14

“每當我開除一個學家,語音識別系統就更準了!”


'Every time I fire a linguist, the performance of the speech recognizer goes up.'

 

説這句話的人,是現代語音識別和自然語言處理研究的先驅Frederick Jelinek,他還是美國工程院院士。


 

如今,我們處在這樣一個智能時代——機器能完成大部分人類能完成的任務,比如下棋、掃地、作詩、翻譯,甚至是跟單身狗對話…… 


 

然而,在與語言相關的開發方面,語言學的影響力卻並不大,甚至是銷聲匿跡。這是為何?

 

如今,我們還處在一個大數據時代,大數據不僅為我們提供了前所未有的生活方式,甚至正在改變我們理解這個世界的方式。不談數據,彷彿可信度就不高。


 

事實是否如此絕對?

 

在這個人工智能盛行的大數據時代,有這麼一羣學者,他們仍堅持做精細的語法研究,不用概率,追求準確性;不為相關,追求因果;不求語料數量,而堅持探索人類語言的最獨特之處。

 

今天,小編要通過與人工智能的對比來介紹一下的研究體系。為何生成語法如今在人工智能中得不到應用,以及生成語法研究在大數據人工智能時代是否會經歷範式更迭?



(以下內容改寫自程工 & 邢富坤. 2018. 生成語法的目標與體系——與人工智能途徑的對比.《現代外語》第3期: 293-305)

 


生成語法與人工智能


 

生成語法(Transformational Generative Grammar)與人工智能(Artificial Intelligence)均誕生於上世紀五十年代,是當代語言研究中有重大影響的兩個範式。


生成語法的發展主要經歷了三個階段:


1. 規則模型(Rule system): 二十世紀五十年代至七十年代

2. 原則與參數模型(Principles and Parameters Model): 二十世紀八十年代至九十年代初

3. 最簡論(Minimalism): 自二十世紀九十年代以來


在起初相當長的一段時間內,人工智能試圖依託生成語法的形式化規則系統,主要是短語結構規則(phrase structure rule),在計算機上實現自然語言處理,但成效有限。從80年代開始,人工智能開始轉向以大規模語料庫為基礎的概率統計路徑。

 

據谷歌研究部主任Peter Norvig的最新材料,在應用領域裏,搜索引擎、語音識別和機器翻譯100%是概率性的,只有答問有少部分是規則和概率混合性的;

 

技術上,詞義消歧、同指消解、詞類標註和結構解析,多數優秀的軟件是基於統計的,規則與統計混用的只佔少數。

 

財富上,採用香農(概率)理論的人每年創造幾萬億美元的收益,而採用Chomsky(規則)理論的人則區區不足十億美元。


 

為何生成語法與人工智能研究從起初的合作走向如今的分道揚鑣?在信息技術迅猛發展的今天,人工智能途徑會不會取代生成語法?下面我們將從幾個方面來進行探討。

 

理論目標及模型



我們先來看下面這組著名的例子:


Colorless green ideas sleep furiously.

*Furiously sleep ideas green colorless.

 

雖然兩句話都沒有意義,但我們卻可以輕鬆地判斷,第一個句子是合乎語法的,而第二句話是不合語法的。


再比如下面這組漢語句子:


他跑步跑得很累。

*他跑步得很累。


去掉後面的“跑”似乎對句子意義影響不大,但卻產生了不合法的句子。

 

從上述例子可以看出,句子是否合乎語法與其意義沒有直接聯繫,也就是説,語法是獨立於其他部門的一個模塊,它不由意義決定,而是有其獨立的來源,這一觀點以“句法自治”而著稱。

 

因此,生成語法的研究主要圍繞“語法性”進行,其核心目標是建立一套明晰的語法體系,以生成語言中所有符合語法的句子,排除所有不合法的句子

 

基於此目標,生成語法的體系必然是龐大的,因為不僅要生成已有的句子,還要生成潛在合法的句子。除此之外,它還必然是有限的,因為語法性僅與句法直接相關。

 

由於對語法性的關注,決定了生成語法的理論模型只能是確定性的,而不能是概率性的。“符合語法”這個概念與“接近統計近似值的等級高”這一概念無論如何無法等同。

 

而對於人工智能來説,其目標就語言研究而言,主要是在機器上實現對語言的理解,比如,機器翻譯,語音識別,自動問答,從輸入文本生成摘要等。

 

從這些目標我們可以看出,單靠語法是不足以實現的。也就是説,語言理解需要多個部門的作用,其中語義甚至比句法更能決定理解水平。



人工智能所應用的語料庫技術正是通過對大量真實文本的分析,獲取了理解語言所需的各種知識。由於語言理解總是不確定的,可能的解讀往往不止一種,因此,人工智能選擇概率模型幾乎是必然的。


小結:


生成語法的理論目標及模型:語法性,確定性

人工智能的理論目標及模型:語言理解,概率性


 

語料來源



為了瞭解生成語法所關注的語言特性,我們先來看一組句子。

 

This is the house.

This is the house that Jack built.

This is the malt that lay in the house that Jack built.

This is the dog that worried the cat that killed the rat that ate the malt that lay in the house that Jack built.

………

 

上述過程演示了語言一個非常重要的特性,即無限性(infinity)語言的基礎是一個有限的、但卻可以遞歸使用的生成程序,可以無上限地產出結構性的表達式。


為了研究人類語言的這一特性,生成語法的研究目標便不能侷限於研究已有句子,而且還必須包括那些合格的潛在句子,如上面的無限長的句子

 

合格的潛在句子還包含另一種:從未出現但卻可能被説出的句子。這體現了語言的另一重要特性:創造性(creativity),即説話人只須根據有限的經驗就能説出並且理解無限數的新句子,説明語言知識得到了某種先天性因素的幫助。


由於生成語法堅持對人類語言特性的研究,因此其語料通常來自於人腦,而不把語料庫當作一種理論上的必須。

 

對於生成語法而言,語料庫的另一缺陷是不包含不合法的句子。正是這些幾乎從不出現、有些古怪的語言現象反而最有意思,因為它們直接指向基本原則。

 

比如語法研究中常常運用“星句分析”法:對句子進行移位、插入、刪除等變換,以此尋找哪些結構、或者哪些操作可能使符合語法的句子變得不合語法。

 

也許他打了你。

他也許打了你。

*他打了也許你。


這樣的分析方法可以使我們發現,V (動詞)與它的Complement(賓語)之間的關係更緊密,中間不允許插入其他成分,從而指向語言的基本原則。


總之,生成語法強調對語料的深度分析,強調對事實覆蓋面的逐漸擴大,不刻意追求語料的數量。

 

人工智能所依賴的語料庫根據大型的真實文本,通常覆蓋面極廣,規模巨大,可以獲取豐富的知識,但卻放棄了對語言重要特徵的描寫,如創造性和無限性。


小結:


生成語法的語料來源:內省法

人工智能的語料來源:語料庫

 


結構分析



説起句子結構,我們再來看一個經典的句子——


Instinctively eagles that fly swim.


在這句話中,不難判斷instinctively修飾線性距離上更遠的swim,而非fly。根據短語結構規則,副詞instinctively與VP(謂語)處在相同的層級上,而“fly”內嵌於主語的一個關係從句之中,在結構上反而距副詞更遠。



因此,生成語法認為,語法過程是建立在層級結構基礎之上的。層級結構反映的是人類心智對語言計算的本質要求。線性關係則是非本質的,甚至可能不是句法內在的特性,而是由發音、感知器官的要求形成的。


此外,由於生成語法對非終端符號,如VP、NP的使用,使其在計算機上的操作變的較為困難。


人工智能基本上是建立在線性序列基礎之上的。它將語料庫當作由基本語言單元(例如字或者詞等)構成的線性符號串看待,語言模型對基本語言單元的鄰接關係進行統計和概率度量。



儘管在人工智能的發展路徑中,也引入了樹庫與一些研究非線性結構的模型,但總體來説,線性序列仍佔據着較為重要的地位。而生成語法則認為,線性順序是外化過程的一部分,不屬於句法核心範圍。

 

小結:


生成語法的結構分析:側重層級結構

人工智能的結構分析:側重線性序列


此外,當代基於大數據的方法倡導以關聯取代因果,這在其他領域有成功的可能,但從目前掌握的情況,從數據中獲取關聯,成功的案例發生在無結構的要素之間,例如檢索中關鍵詞和流行病的關聯。然而,語言成分之間的關聯 是依存於層級結構的,與無內部結構的其他數據類型有質的區別。因此,不進 行深度的結構分析,僅僅依據數據本身,是難以真正認識語言單位之間的關聯關係的。



詞庫與句法


 

無論從傳統語言分析還是自然語言處理,詞都是極為重要的概念和研究對象。與詞相關的概念還有詞庫,即詞的庫藏。從生成能力的角度,語言(L)、語法 (G)和詞庫(Lex)系可用下面的等式描述——


 L=G*Lex

 

也就是説,對任一語言 L,加強語法信息並減少詞庫信息,或反之加強詞庫信息並減少語法信息,生成能力是等值的。在加強語法還是加強詞庫方面,生成語法和 AI 做出了幾乎截然相反的抉擇。

 

生成語法在進入最簡論模型之後,逐步反思以強化詞庫信息來減少語法負擔的方法,典型的代表是分佈式形態學(Distributed Morphology,以下簡稱DM)。DM取消了詞的正式理論地位,認為詞和短語均由句法生成,詞的本質即是短語。

 

如此以來,詞庫變得非常簡單,成為語素(morpheme)的一份列表。任何包含層級結構的表達式,如詞、成語、固定搭配以及程式表達,都被移出了詞庫。也就是説,生成語法選擇的是大語法、小詞庫的研究路徑。

 

而對於人工智能來説,計算機具有極強的記憶能力,但句法計算能力(即正確組合成分的能力)偏弱,所以一般都會選擇把詞庫做大。

 

在語料庫中,某種語言中的大部分詞都會出現,並且有一部分高頻詞具有較多樣例,能夠為統計提供較好支持。因此,為了便於計算機處理,頻率通常被認為是鑑別詞的標準。

 

比如,《信息處理用現代漢語分詞詞表》(孫茂松等主編)裏收錄了“豬肉、豬頭、木梳、左耳、母豬、東門、白雲、笛聲、改為、 一個、第一”等詞。王洪君(2001)解釋,雖然與“第”搭配的結構能產性極強,甚或 是可無限類推建造的,但產成物的使用頻率卻差別極大。因此可以只取頻率高者(如“第一”)入庫,其他的通過其他方式解決。

 

這一方法對於機器而言無疑是有效的,但也存在一定弊端。大詞庫、小句法的做法難以解決詞的鑑別問題,且無法對詞的內部結構進行有效的分析。


小結:


生成語法:小詞庫、大語法

人工智能:大詞庫、小語法


 

總結



生成語法與人工智能在理論目標、模型、語料來源、結構分析和詞法與詞庫方面均存在差異,由於他們理論目標的不同,形成互不適應的局面是在所難免的。

 

兩個理論雖然有尖鋭對立,但卻有各自的優長。生成語法的長處是在分析和解釋語言的內在機制方面,而人工智能則使機器處理語言達到了極高的水平,在工程實現和實際應用方面具有生成語法遠不能比擬的優勢。

 

鑑於生成語法和人工智能這兩種研究各有不可替代的價值,在不同領域,以不同方式,或者深化了對語言本體機理的認識,或者促進了語言信息技術的應用,所以我們更願意相信,它們同時健康地發展不僅是可能的,而且也是必要的。

 


推薦閲讀


Marantz.A. 1997. No escape from syntax: Don’t try morphological analysis in the privacy of your own lexicon. UPenn Working Papers in Linguistics 4.  201-25. 

程工 & 刑富坤. 2018, 生成語法的目標與體系 ——與人工智能途徑的對比.《現代外語》第3期:293-305.

程工. 2018b,層級結構和線性順序之新探.《外語教學》第 2 期:1⁃7.

程工 & 李海. 2016,分佈式形態學的最新進展.《當代語言學》第 1 期:97⁃119.

袁毓林. 2004,基於統計的語言處理模型的侷限性.《語言文字應用》第 2 期:99⁃108.





往期精彩內容

人工智障  志玲姐姐  送命題  計算語言學  翻譯腔  語言學期刊  郭敬明  語碼轉換  婦女  誰是卧底  《降臨》  “在嗎?”   倒裝句  高翻畢業生  希拉里的笑  語言學老師  新概念英語  怪癖  怎樣讓大排不硬  外語口音





閲讀原文

TAGS: