身高2m,體重2kg,這樣的數據“看上去很好”?

大數據2019-09-19 01:18:16

導讀:數據挖掘算法通常用於為其他目的收集的數據,或者在收集時未明確其目的。因此,數據挖掘常常不能“在數據源頭控制質量”。相比之下,統計學的實驗設計或調查中,其數據質量往往都達到了一定的要求。由於無法避免數據質量問題,因此數據挖掘着眼於兩個方面:


(1)數據質量問題的檢測和糾正;

(2)使用可以容忍低質量數據的算法。第一步的檢測和糾正,通常稱作數據清理(data cleaning)。


本文討論數據質量。儘管也討論某些與應用有關的問題,但是關注的焦點是測量和數據收集問題。


作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫大數據(ID:hzdashuju)



01 測量和數據收集問題


期望數據完美是不現實的。人類的錯誤、測量設備的限制或數據收集過程中的漏洞都可能導致問題。數據的值乃至整個數據對象都可能會丟失。在有些情況下,可能有不真實或重複的對象,即對應於單個“實際”對象出現了多個數據對象。


例如,對於一個最近住過兩個不同地方的人,可能有兩個不同的記錄。即使所有的數據都不缺,並且“看上去很好”,也可能存在不一致,如一個人身高2m,但體重只有2kg。


下面我們關注數據測量和收集方面的數據質量問題。我們先定義測量誤差和數據收集錯誤,然後考慮涉及測量誤差的各種問題:噪聲、偽像、偏置、精度和準確率。最後討論同時涉及測量和數據收集的數據質量問題:離羣點、遺漏和不一致的值、重複數據。


1. 測量誤差和數據收集錯誤


術語測量誤差(measurement error)是指測量過程中產生的問題。一個常見的問題是:在某種程度上,記錄的值與實際值不同。對於連續屬性,測量值與實際值的差稱為誤差(error)。


術語數據收集錯誤(data collection error)是指諸如遺漏數據對象或屬性值,或者不當地包含了其他數據對象等錯誤。例如,一種特定種類動物研究可能包含了相關種類的其他動物,它們只是表面上與要研究的種類相似。測量誤差和數據收集錯誤可能是系統的也可能是隨機的。


我們只考慮一般的錯誤類型。在特定的領域中,總有某些類型的錯誤是常見的,並且通常存在很好的技術,能檢測並糾正這些錯誤。例如,人工輸入數據時,鍵盤錄入錯誤是常見的,因此許多數據輸入程序具有檢測技術,並通過人工干預糾正這類錯誤。


2. 噪聲和偽像


噪聲是測量誤差的隨機部分。這通常涉及值被扭曲或加入了謬誤對象。圖2.5顯示了被隨機噪聲干擾前後的時間序列。如果在時間序列上添加更多的噪聲,形狀將會消失。圖2.6顯示了三組添加一些噪聲點(用“+”表示)前後的數據點集。注意,有些噪聲點與非噪聲點混在一起。


▲圖2.5 時間序列中的噪聲


▲圖2.6 空間中的噪聲


術語“噪聲”通常用於包含時間或空間分量的數據。在這些情況下,常常可以使用信號或圖像處理技術降低噪聲,從而幫助發現可能“淹沒在噪聲中”的模式(信號)。儘管如此,完全消除噪聲通常是困難的,而許多數據挖掘工作都關注設計魯棒算法(robust algorithm),即在噪聲干擾下也能產生可以接受的結果。


數據錯誤可能是更確定性現象的結果,如一組照片在同一地方出現條紋。數據的這種確定性失真常稱作偽像(artifact)。


3. 精度、偏置和準確率


在統計學和實驗科學中,測量過程和結果數據是用精度和偏置度量的。我們給出標準的定義,隨後簡略加以討論。對於下面的定義,我們假定對相同的基本量進行重複測量。


  • 精度(precision):(同一個量的)重複測量值之間的接近程度。

  • 偏置(bias):測量值與被測量之間的系統的變化。


精度通常用值集合的標準差度量,而偏置用值集合的均值與測出的已知值之間的差度量。只有那些通過外部手段能夠得到測量值的對象,偏置才是可確定的。


假定我們有1g質量的標準實驗室重量,並且想評估實驗室的新天平的精度和偏置。我們稱重5次,得到下列值:{1.015,0.990,1.013,1.001,0.986}。這些值的均值是1.001,因此偏置是0.001。用標準差度量,精度是0.013。


通常使用更一般的術語準確率表示數據測量誤差的程度。


  • 準確率(accuracy):被測量的測量值與實際值之間的接近度。


準確率依賴於精度和偏置,但是沒有用這兩個量表達準確率的公式。


準確率的一個重要方面是有效數字(significant digit)的使用。其目標是僅使用數據精度所能確定的數字位數表示測量或計算結果。


例如,對象的長度用最小刻度為毫米的米尺測量,則我們只能記錄最接近毫米的長度數據,這種測量的精度為±0.5mm。這裏不再詳細地討論有效數字,因為大部分讀者應當在先前的課程中接觸過,並且在理工科和統計學教材中討論得相當深入。


諸如有效數字、精度、偏置和準確率問題常常被忽視,但是對於數據挖掘、統計學和自然科學,它們都非常重要。通常,數據集並不包含數據精度信息,用於分析的程序返回的結果也沒有這方面的信息。45但是,缺乏對數據和結果準確率的理解,分析者將可能出現嚴重的數據分析錯誤。


4. 離羣點


離羣點(outlier)是在某種意義上具有不同於數據集中其他大部分數據對象的特徵的數據對象,或是相對於該屬性的典型值來説不尋常的屬性值。我們也稱其為異常(anomalous)對象或異常值。有許多定義離羣點的方法,並且統計學和數據挖掘界已經提出了很多不同的定義。


此外,區別噪聲和離羣點這兩個概念是非常重要的。與噪聲不同,離羣點可以是合法的數據對象或值。例如,在欺詐和網絡入侵檢測中,目標就是在大量的正常對象或事件中找到異常對象或事件。



5. 遺漏值


一個對象遺漏一個或多個屬性值的情況並不少見。有時可能會出現信息收集不全的情況,例如有的人拒絕透露年齡或體重。


還有些情況下,某些屬性並不能用於所有對象,例如表格常常有條件選擇部分,僅當填表人以特定的方式回答前面的問題時,條件選擇部分才需要填寫,但為簡單起見存儲了表格的所有字段。無論何種情況,在數據分析時都應當考慮遺漏值。


有許多處理遺漏值的策略(和這些策略的變種),每種策略適用於特定的情況。這些策略在下面列出,同時我們指出它們的優缺點。


  • 刪除數據對象或屬性

    一種簡單而有效的策略是刪除具有遺漏值的數據對象。然而,即使不完整的數據對象也包含一些有用的信息,並且,如果許多對象都有遺漏值,則很難甚至不可能進行可靠的分析。

    儘管如此,如果某個數據集只有少量的對象具有遺漏值,則忽略它們可能是合算的。一種與之相關的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,46因為被刪除的屬性可能對分析是至關重要的。


  • 估計遺漏值

    有時,遺漏值可以可靠地估計。例如,在考慮以大致平滑的方式變化的、具有少量但分散的遺漏值的時間序列時,遺漏值可以使用其他值來估計(插值)。另舉一例,考慮一個具有許多相似數據點的數據集,與具有遺漏值的點鄰近的點的屬性值常常可以用來估計遺漏的值。

    如果屬性是連續的,則可以使用最近鄰的平均屬性值;如果屬性是分類的,則可以取最近鄰中最常出現的屬性值。為了更具體地解釋,考慮地面站記錄的降水量,對於未設地面站的區域,降水量可以使用鄰近地面站的觀測值估計。


  • 在分析時忽略遺漏值

    許多數據挖掘方法都可以修改,以忽略遺漏值。例如,假定正在對數據對象聚類,需要計算各對數據對象間的相似性。如果某對數據對象的一個對象或兩個對象的某些屬性有遺漏值,則可以僅使用沒有遺漏值的屬性來計算相似性。

    當然,這種相似性只是近似的,但是除非整個屬性數目很少,或者遺漏值的數量很大,否則這種誤差影響不大。同樣,許多分類方法都可以修改,以便於處理遺漏值。


6. 不一致的值


數據可能包含不一致的值。比如地址字段列出了郵政編碼和城市名,但是有的郵政編碼區域並不包含在對應的城市中。這可能是人工輸入該信息時顛倒了兩個數字,或許是在掃描手寫體時錯讀了一個數字。無論導致不一致值的原因是什麼,重要的是能檢測出來,並且如果可能的話,糾正這種錯誤。


有些不一致類型容易檢測,例如人的身高不應當是負的。另一些情況下,可能需要查閲外部信息源,例如當保險公司處理賠償要求時,它將對照顧客數據庫核對賠償單上的姓名與地址。


檢測到不一致後,有時可以對數據進行更正。產品代碼可能有“校驗”數字,或者可以通過一個備案的已知產品代碼列表複核產品代碼,如果發現它不正確但接近一個已知代碼,則糾正它。糾正不一致需要額外的或宂餘的信息。


  • 例:不一致的海洋表面温度


該例解釋實際的時間序列數據中的不一致性。這些數據是在海洋的不同點測量的海洋表面温度(SST)。最初人們利用船或浮標使用海洋測量方法收集SST數據,而最近開始使用衞星來收集這些數據。為了創建長期的數據集,需要使用這兩種數據源。


然而,由於數據來自不同的數據源,兩部分數據存在微妙的不同。這種差異顯示在圖2.7中,該圖顯示了各年度之間SST值的相關性。如果某兩個年度的SST值是正相關的,則對應於這兩年的位置為白色,否則為黑色。(季節性的變化從數據中刪除,否則所有的年都是高度相關的。)數據彙集在一起的地方(1983年)有一個明顯的變化。


在1958~1982年和1983~1999年兩組中,每組內的年相互之間趨向於正相關,但與另一組的年負相關。這並不意味着該數據不能用,但是分析者應當考慮這種差異對數據挖掘分析的潛在影響。


▲圖2.7 年對之間SST數據的相關性。白色區域表示正相關,黑色區域表示負相關


7. 重複數據


數據集可以包含重複或幾乎重複的數據對象。許多人都收到過重複的郵件,因為它們以稍微不相同的名字多次出現在數據庫中。為了檢測並刪除這種重複,必須處理兩個主要問題。


首先,如果兩個對象實際代表同一個對象,則對應的屬性值必然不同,必須解決這些不一致的值;其次,需要避免意外地將兩個相似但並非重複的數據對象(如兩個人具有相同姓名)合併在一起。術語去重複(deduplication)通常用來表示處理這些問題的過程。


在某些情況下,兩個或多個對象在數據庫的屬性度量上是相同的,但是仍然代表不同的對象。這種重複是合法的。但是,如果某些算法設計中沒有專門考慮這些屬性可能相同的對象,就還是會導致問題。



02 關於應用的問題


數據質量問題也可以從應用角度考慮,表達為“數據是高質量的,如果它適合預期的應用”。特別是對工商界,數據質量的這種提議非常有用。類似的觀點也出現在統計學和實驗科學中,那裏強調精心設計實驗來收集與特定假設相關的數據。與測量和數據收集一樣,許多數據質量問題與特定的應用和領域有關。我們這裏仍然只考慮一些一般性問題。


1. 時效性


有些數據在收集後就開始老化。比如説,如果數據提供正在發生的現象或過程的快照,如顧客的購買行為或Web瀏覽模式,則快照只代表有限時間內的真實情況。如果數據已經過時,則基於它的模型和模式也已經過時。


2. 相關性


可用的數據必須包含應用所需要的信息。考慮構造一個模型,預測交通事故發生率。如果忽略了駕駛員的年齡和性別信息,那麼除非這些信息可以間接地通過其他屬性得到,否則模型的準確率可能是有限的。


確保數據集中的對象相關不太容易。一個常見問題是抽樣偏置(sampling bias),指樣本包含的不同類型的對象與它們在總體中的出現情況不成比例。例如調查數據只反映對調查做出響應的那些人的意見。由於數據分析的結果只能反映現有的數據,抽樣偏置通常會導致不正確的分析。


3. 關於數據的知識


理想情況下,數據集附有描述數據的文檔。文檔的質量好壞決定它是支持還是干擾其後的分析。例如,如果文檔標明若干屬性是強相關的,則説明這些屬性可能提供了高度宂餘的信息,我們通常只保留一個屬性。(考慮銷售税和銷售價格。)


然而,如果文檔很糟糕,例如,沒有告訴我們某特定字段上的遺漏值用-9999表示,則我們的數據分析就可能出問題。其他應該説明的重要特性是數據精度、特徵的類型(標稱的、序數的、區間的、比率的)、測量的刻度(如長度用米還是英尺)和數據的來源。


關於作者:陳封能(Pang-Ning Tan) ,密歇根州立大學計算機科學與工程系教授,主要研究方向是數據挖掘、數據庫系統、網絡空間安全、網絡分析等。


本文摘編自數據挖掘導論》(原書第2版),經出版方授權發佈。


延伸閲讀《數據挖掘導論原書第2版)
點擊上圖瞭解及購買
轉載請聯繫微信:DoctorData


推薦語:本書為斯坦福大學、密歇根州立大學、明尼蘇達大學、得克薩斯大學等知名高校的數據挖掘課程教材。從算法的角度介紹數據挖掘所使用的主要原理與技術。所涵蓋的主題包括:數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和算法,為讀者提供將數據挖掘應用於實際問題所需的必要背景以及方法。


延伸閲讀《計算機時代的統計推斷
點擊上圖瞭解及購買
轉載請聯繫微信:DoctorData


推薦語:統計推斷入門經典,斯坦福大學知名教授Trevor Hastie全新力作。本書以豐富的案例介紹了計算機時代下的統計推斷的發展脈絡,從理論的角度剖析統計推斷的各類算法、證據等,揭示統計推斷如何推動當今大數據、數據科學、機器學習等領域的快速發展並引領數據分析的變革,最後展望了統計學和數據科學的未來方向。


長按二維碼或點擊閲讀原文

發現更多好書




「大數據」內容合夥人之「鑑書小分隊」上線啦!


最近,你都在讀什麼書?有哪些心得體會想要跟大家分享?


數據叔最近搞了個大事——聯合優質圖書出版商機械工業出版社華章公司發起鑑書活動。


簡單説就是:你可以免費讀新書,你可以免費讀新書的同時,順手碼一篇讀書筆記就行。詳情請在大數據公眾號後台對話框回覆合夥人查看。



有話要説👇


Q: 獲得高質量的數據,你會用哪些方法?

歡迎留言與大家分享


猜你想看👇


  • 數據分析必備:掌握這個R語言基礎包1%的功能,你就很牛了

  • 包教包會,7段代碼帶你玩轉Python條件語句

  • 學霸們在假期裏“偷着學”,看的是這些書

  • 從圖靈機、圖靈測試到人工智能:什麼決定了AI能否取代人類?


更多精彩👇


在公眾號對話框輸入以下關鍵詞

查看更多優質內容!


PPT | 報告 | 讀書 | 書單 | 乾貨 

大數據 | 揭祕 | Python | 可視化

AI | 人工智能 | 5G | 區塊鏈

機器學習 | 深度學習 | 神經網絡

合夥人 1024 | 段子 | 數學 | 高考


據統計,99%的大咖都完成了這個神操作

👇



覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯繫:[email protected]

更多精彩,請在後台點擊“歷史文章”查看

點擊閲讀原文,瞭解更多

https://hk.wxwenku.com/d/201392477