浙大博士 130 頁論文,教你用人工智能挑西瓜

大數據技術2019-08-20 22:30:46

By 超神經


場景描述:要問什麼水果和夏天最搭,答案一定是西瓜。作為西瓜生產與消費大國,中國在 2018 年以全世界 20% 的人口消耗掉全世界 70% 的西瓜,人均 100 斤。如何挑選最甜的瓜,也成了「吃瓜羣眾」十分關心的問題。一位浙江大學的博士,用機器學習的方法判斷西瓜的成熟度,十分接地氣。


關鍵詞:西瓜 聲學特徵檢測 機器學習



大數據表明,今年夏天,是 140 年來最熱的夏天。「熱」已成為全球熱詞,我們經歷了最熱六月,剛送走最熱七月,正在進入最熱八月……


在難熬的酷暑面前,抱着半塊冰涼的西瓜大快朵頤,無疑是最佳解暑選擇了。啃着吃,勺子挖着吃,打成沙冰吃,炒着吃,烤着吃,怎麼吃都好吃……

西瓜對於中國人的意義


世界上,恐怕沒有比中國人更愛吃、更能吃也更會吃西瓜的了。


自從 1000 多年前南北朝時期,西瓜傳入中國,它就慢慢開始登上夏日水果霸主的地位。


有史學家考證,1000 多年前京地區已有西瓜種植,而古人最早的「吃西瓜」場面,是在內蒙古遼代墓葬壁畫上發現的,此墓築於公元 1026~1027 年間。


1000 多年來,西瓜的外貌基本沒什麼變化


剛傳入中國時,西瓜還屬於貴族專享。直到公元 1143 年,南宋官員洪皓出使金國回來之時,帶回了金人種植的西瓜種子,從此江南有了西瓜,老百姓也能吃上西瓜了。


洪皓回到南宋後,將見聞整理成書


洪皓撰寫的《松漠紀聞》中,有一段對西瓜的描述:「西瓜形如匾蒲而圓,色極青翠,經歲則變黃。其瓞類甜瓜,味甘脆,中有汁,尤冷。予攜以歸,今禁圃鄉囿皆有。」


此後,西瓜開始頻現於南宋文人筆端,「年來處處食西瓜」、「西瓜黃處藤如織」、「醉拾西瓜擘」等文字,都表明西瓜已經越來越普及。


湖北恩施發現了北宋鹹淳年間的「西瓜碑」

碑文記載了當地所種植的四種西瓜


西瓜,已經成為了中國文化的一部分。很多成語都和西瓜有關:老王賣瓜,滾瓜爛熟,瓜熟蒂落,順藤摸瓜……


2004 年,位於北京大興區龐各莊鎮的「中國西瓜博物館」正式開館,其外形效果主題為「飛翔的西瓜」,寓意中國西瓜飛出國門。這是國內首家以「西瓜」為主題的博物館。博物館內向人們展示西瓜歷史、西瓜種植、西瓜文化以及科技等內容。


中國西瓜博物館裏到處都是西瓜相關的照片、漫畫、模型


根據聯合國糧農組織 FAO 公佈的數據,當前,我國已成為世界上最大的西瓜生產國和消費國,2018 年我國消化了超過 7000萬噸西瓜,也就是人均消費掉了 100 斤。


所以,在西瓜面前,我們都可以驕傲地説:我終於實現了水果自由!


全球通用挑瓜大法:敲它


不過,吃瓜容易挑瓜難。面對一堆長相相似的西瓜,如何才能選中最好最甜的瓜?全球通用的辦法是:敲它。


西瓜西瓜告訴我,你是不是最甜的瓜


但是,事實上,很多「吃瓜羣眾」最後敲來敲去,也聽不到西瓜的回答。


於是,一位浙江大學的博士寫了一篇 130 頁的論文《西瓜成熟度和內部空心的聲學檢測技術及裝置研究》(論文地址:http://t.cn/AiYcAYei,告訴我們,如何利用人工智能技術,從敲西瓜的聲音來判別最甜的西瓜。


除了這位博士,還有很多碩博士也都在做這方面的研究


當然,他做這項研究的初衷,是為了提高瓜農收入,擴大西瓜的對外出口。也順便造福一下我們廣大「吃瓜羣眾」。


 傳統方法如何判斷西瓜成熟 


我國西瓜產量和種植面積居世界第一,但是出口量卻不到產量的 1%,不僅是因為我們自己消耗的多,還因為西瓜產後檢測和處理的手段落後,導致質量良莠不齊,商品化程度較低。


西瓜是否適時採收對西瓜品質影響極大,過熟或者不熟採摘都會影響西瓜的品質與口感。在我國,採收時機主要還是依賴於瓜農的主觀經驗,他們往往通過生長週期、氣候(主要是氣温)以及觀察瓜皮顏色、紋理來判斷西瓜成熟情況。


當然,還有一個技巧,就是上文提到的,敲瓜皮聽聲音。這是目前瓜農最常用的方法。


從左至右西瓜成熟度分別為:未熟,成熟,過熟


一般來説,未熟西瓜聲音較清脆,敲打時會發出「咚咚咚」的聲音,成熟瓜聲音比較低濁,發聲為「嘭嘭嘭」,而過熟西瓜則會發出「撲撲撲」的聲音。靠人工一個一個去檢測,費時費力且依賴經驗,準確率無法保證。


如今,計算機、圖像處理、傳感器等技術飛速發展,將這些技術廣泛用於農產品品質檢測中,可以大大提高檢測效率與準確率。


 用機器學習判斷,準確又高效 


通過研究,論文作者發現西瓜成熟度的變化,一般與內部成分(如糖度)和結構(如體積質量變大、內部空心)的變化密切相關,而這些變化也會導致聲學特徵參數發生變化,因此他認為利用聲學無損檢測方法,通過不同建模方法與技術,來判斷西瓜熟度比較合適。


而且,對比其他檢測方法,比如激光、核磁共振等技術,聲學特徵檢測具有價格低廉、檢測效率高、準確度高的優點。試驗之後,作者得出結論,LS-SVM 方法在西瓜成熟度分類建模中表現最佳,預測準確率為 73.6%。


聲學檢測裝置實物圖


在聲學檢測裝置結構和材料優化基礎上,並對敲擊信號去噪之後,作者進行了兩種試驗,分別為成熟度分類試驗和空心判定試驗。


試驗中選用了麒麟西瓜作為樣本,為杭州市餘杭區倉前鎮吳山前村五組瓜農於温室瓜棚分批次採摘,採摘後便立刻搬至實驗室。


成熟度分類試驗中,選用 147 個非空心瓜,隨機分為兩組:建模集 75 個,預測集 72 個。


空心判定試驗中,選取 190 個樣本(包含有空心瓜),隨機分為兩組,建模集 97 個,預測集 93 個。


建模集用來建立樣本的分類或空心判定模型,預測集用來測試模型的性能。


試驗採用了四種常見有監督機器學習算法和模式識別算法,分別是線性判別分析法(LDA)、K-最小近鄰法(KNN)、BP 神經網絡技術(ANN)和最小二乘-支持向量機法(LS-SVM),以聲學特徵對未熟、成熟和過熟三種西瓜進行了分類,此外還對空心瓜進行鑑別。


空心瓜樣本中,空心體積位置與形狀都有所不同


為了消除敲擊西瓜聲音頻譜中峯值分裂所造成的不利影響,作者定義了階矩指數 MI1 和二階矩指數 MI2,因為在西瓜穿刺試驗中(判斷果肉堅實度)判定這兩個參數與西瓜成熟度關聯性較高,因此將其作為西瓜成熟度分類的聲學特徵參數。


 最適配辨瓜算法:LS-SVM


試驗結果表明,LS-SVM 算法建模集和預測集的準確率分別為 76% 和 73.6%,均高於其他三種分類器的分類結果。


三種不同成熟度西瓜的 LS-SVM 分類結果


另外,神經網絡建模集和預測集準確率分別 73.3% 和 66.6%,僅次於 LS-SVM。


作者由此得出結論:LS-SVM 採用了線性方程組對 SVM 的二次規劃問題加以簡化,分類效率得到大幅度提高,並且引入懲罰因子使結構風險化最小。該方法更適用於處理小樣本集合不均衡樣本集不均衡西瓜樣本集的分類;


LDA 算法適用於線性分類問題;KNN 算法對不均衡樣本集分類時,易使位置樣本偏向數量多的樣本類,造成分類誤差變大;神經網絡分類器則存在過擬合、易陷入局部極值的缺點。


此外,作者還採用了上述四類方法以及能量比經驗閾值法,以 MI1、MI2 和能量比 Er為特徵參數,對不均衡樣本進行空心瓜判別。


作者採用 Fβ 分數作為分類器的評價指標,其物理含義是通過給予準確率和召回率不同的權重,將二者合併一個分數,綜合評判分類器對樣本總體和某類樣本分類的準確程度。


 Fβ 的定義


定義公式中,TP 為被正確劃分為空心瓜的樣本數,TN 為被正確劃分為好瓜的樣本數,P 為實際的空心瓜樣本數,N 為實際的好瓜樣本數。本文中 β = 2.


這些判別方法中,仍然是 LS-SVM 分類效果最佳,其建模集和預測集的 Fβ 分數分別為 88.1% 和 74.7%。


看來,關於如何挑到最甜的瓜,浙大博士已經幫我們算得清清楚楚了。


吃瓜,我們是最科學的


上千年的積累之下,西瓜已經越來越成為國人生活中的一部分。所謂「夏天沒有吃過西瓜的人,不足以語人生。」


如今非常流行的網絡熱詞「吃瓜羣眾」,也充分顯示了我們對於西瓜的熱愛。原本「吃瓜羣眾」中的「瓜」,指的是瓜子,但是由於西瓜的深入民心,這個「瓜」就漸漸演變成了「西瓜」。




而對於人工智能領域的同學來説,最熟悉的「瓜」一定是南大周志華教授撰寫的《機器學習》西瓜書了。



這本機器學習入門著作,就是以挑西瓜開篇

並處處用西瓜來解釋各種術語和問題

(周志華教授也一定很喜歡吃西瓜吧)


日本 Shibuya 公司的挑西瓜設備,下次大家可以帶着它去買瓜


—— 完 ——



●編號865,輸入編號直達本文

●輸入m獲取文章目錄

推薦↓↓↓

開源最前線

https://hk.wxwenku.com/d/201202622