什麼樣的數據才有價值?應該怎樣收集和處理?終於有人講明白了

大數據2019-03-19 18:11:00


導讀:實驗數據本身毫無價值,但精心收集的數據能成為實現最終設計目標——打造最佳用户體驗的關鍵工具。


本文介紹實驗方法的基本原則,以及如何將這些原則以一種快速可拓展的方式——A/B測試——在互聯網產品與體驗的設計流程中進行實踐。希望你能對相關名詞和概念熟稔於心,可以繼續深入瞭解A/B測試的相關實踐。


作者:Rochelle King, Elizabeth Churchill, Caitlin Tan

如需轉載請聯繫大數據(ID:hzdashuju)


無論你在何種類型的企業就職,我們都希望你將打造最佳用户體驗作為最重要的目標與挑戰。用户羣體的差異很大,他們的經歷、能力及預期都將影響並驅動他們的行為。如果僅依賴直覺,即使最優秀的設計師與產品團隊也難以打造符合所有場合、所有用户的完美體驗。


通過高效的實驗方法收集用户數據,將在用户行為多樣性、相似性、差異性及設計對用户影響等方面獲得大量洞察。實際上,實驗是一種與用户對話的方法,能瞭解用户的想法。收集實驗數據有助於落實“用户至上”的理念,並且在打造最佳體驗的前提下進行設計決策。




01 數據的多樣性


本文將利用一個形象的比喻幫助闡述一些概念與場景。我們發現,通常一個強有力的比喻有助於生動傳達某些概念的內涵,而真實案例有時難以做到這一點。有時,相比蒐集真實的案例,簡單的示例更適於當下的情形。


所以我們邀請你扮演夏令營的擁有者。每年,你將迎接大約200名兒童,並將與他們一起遠足,開展户外活動,一同進餐。由於夏令營的規模很大且活動豐富,一些營員的反饋也許不能代表整體營員的感受。


夏令營已運營了一些年頭,每年都有一些老營員光顧,但這畢竟是在做生意,你希望能夠持續吸引更多新成員。夏令營是一個循環往復的過程,這也解釋了你為何希望採用新方式來改進夏令營的體驗,進而提升你的業務。


提起數據,我們只單純指那些可被收集、衡量或分析的碎片信息或信息集合。我們的目的不在於討論數據本身,而是使你認識到數據對了解用户的價值。比如老營員不喜歡過多食用綠色蔬菜,對制定夏令營運營計劃的你而言,這是否算是一則有用的信息?


常聽有人爭執於一些數據比另一些更具價值。但我們認為,與其説存在所謂的最佳數據,不如説能最大化幫助你獲得所需信息的數據即為最佳。


為此,我們將介紹一些(而非全部)數據的不同維度,而不再一一深入贅述各類數據或其收集方法。




02 數據的不同維度


數據與設計的討論中假如不涉及數據維度的討論,便是不完整的。介紹這些是要向你説明,具有不同優缺點的數據類型適合於不同的業務場景及目的。


因此,你需要判斷哪些數據可用,哪些不可,以及這些數據類型是否適用於待解決的問題。這一系列需要思考的問題總結一下便是:為什麼收集,何時收集,如何收集,收集量是多少。這些問題有助於你理清所要收集的數據維度與類型。


1. 為何收集數據?


首先,你要想清楚為何收集數據。換句話説,你希望從數據中獲得哪些信息?


也許你十分想了解用户的行為習慣。簡單來説,行為就是用户做了什麼,或採取了哪些行動。比如,假設你剛剛在應用程序中推出了一個新功能,你想了解用户能否找到這個功能,以及會在什麼情況下使用它,那麼你需要考慮用户行為數據的收集。


通常,這非常便於衡量與檢測行為。實際上,人類行為的用户研究員常説,相比一個人説了什麼,你應當相信他的行為。然而,僅僅觀察行為並不能告訴你用户行為背後的原因,或是他們的感受。


可能你也想要了解用户的態度與期望。比如,假如你對行為好奇,便會思考用户是否會點擊按鈕。相反,假如你在衡量用户態度,你可能會思考,用户點擊按鈕前對點擊結果的期望是什麼。你可能想要了解什麼結果符合或違背了用户的期望。


最後,你可能想要了解用户的感受。這類數據反映了用户的情感狀態,是一種“效應”數據。你可能會思考,用户是否信任你的企業或品牌?是否對新的註冊流程感到不安或滿意?


與行為數據相比,觀點態度與情感數據的收集更難擺脱主觀因素而不失偏頗。一個常見的問題是,用户通常希望提供“正確回答”,因而,他們會告訴你所希望聽到的答案,並非自己的真實想法。這稱作社會期許反應偏差或默許偏差,許多技術手段可以有效避免這種情況。


雖然存在種種難題,但觀點態度與情感類數據對於打造良好的用户體驗非常關鍵。即使每個用户都會點擊新按鈕,但假如點擊後的結果與他們的期望不符,用户便會感到失望,也會失去對產品和品牌的信任。



2. 何時收集數據?


除了考慮數據內容,也要考慮何時收集它們。拆分成兩種便是:縱向數據與快照。


首先,數據收集的時間間隔是多少?縱向數據來自同一名用户一段時期內的數據(週期可能是幾天、幾個月甚至幾年),使你能夠了解在這段時間內用户的改變、調整適應與學習進步。你能夠了解以往的經歷如何影響着未來的經歷,這為你的數據分析提供了背景信息。然而,你的分析必須等到週期結束,同時數據收集也必然將花費更久的時間。


假如將縱向數據比作一段視頻,那麼快照便是一張圖像。相比了解用户的行為變化,也許你只想瞭解用户使用產品的其中一種情況。這種數據能夠被更快地收集(你可以一次性觀察上百名實驗參與者,而你將需要花費兩年時間觀察並研究一名用户的行為),但會缺失一些信息,諸如用户先前行為對後續行為的影響,以及一段時間內用户的行為變化。


另外,需要考慮數據收集的環境,是真實場景中還是孤立場景。想象一下,在通勤時間,用户在擁堵的地鐵上試用令人着迷的手機遊戲,與他們在辦公室——一個安靜私密的空間——使用這款遊戲之間的差異。在孤立的環境中收集數據有助於控制那些可能影響或改變用户使用行為的因素。


你很明白,若干用户同時測試,環境將不會對他們的體驗產生任何影響。但是,用户完全不可能在安靜而隔離的温室中使用產品。上下文數據可以反映設計在“原始環境”——一個嘈雜混亂、充滿挑戰與干擾的真實世界——中的真實情況。



3. 如何收集數據?


根據問題的不同類型,數據可被分為定性數據與定量數據。定性數據用以闡述諸如“為什麼”或“為什麼如此”的問題。這類信息能夠被觀察或捕捉,但不能以量作為衡量標準。在設計過程中,定性數據有助於建立起用户同理心,瞭解用户的想法態度、觀念、價值觀和需求。


相比而言,定量數據通過數量來闡述觀察結果。定量數據適用於回答“多大量”或“多少量”的問題。可在設計流程中使用定量數據來衡量一些固定指標,如日活躍用户(DAU)或用户留存率(在所定義的兩個時間段內繼續使用產品或服務的用户佔例,比如,橫跨兩種業務時)。


另外,可以通過自述報告或觀察收集數據。自述報告的數據包含詢問用户的問題及用户的一些回答。相比詢問用户,觀察用户行動或行為能夠獲取觀察數據。如前面所述,自述報告的數據也許不太客觀,因為用户可能會給出我們希望瞭解的內容,而非他們真實的想法或行為。但有些類型的數據(比如觀點態度或情感數據)難以通過觀察獲取。


最後,根據想要獲得的信息深度或事先想要了解的信息量,可以選擇收集封閉式數據開放式數據。在訪談等場景中收集封閉式數據時,人們進行提問或觀察。當發現一些有趣或令人困惑的信息時,進一步詢問用户行動的原因。


相比之下,在調研等開放式方法中,假如數據比較特別或不清晰,則難以繼續深入瞭解行為原因或意圖。封閉式數據要求觀察者跟蹤觀察或進行訪談,瞭解信息並通過詢問澄清疑惑。


相比之下,開放式調研需要更多的前期投入(設計調研問題必須謹慎而專業,避免系統偏差或干擾用户,因為這些難以澄清),但由於無須安排人員跟蹤每個階段的調研,這種方式使大規模數據收集變得容易。


此外,開放式調研確保了每位調研對象獲得近乎相同的調研體驗,不會受到行為細微差異的影響(比如,不同的調研者會採用不同的措辭或略有差異的語序進行發問)。



4. 收集多少數據?


最後還剩一個問題,收集多少數據才足夠實際上,這是一個相當難給出答案的問題,本文將簡要提及一些。這個答案很大部分依賴於根據所要收集的數據類型與最終目標所做出的決策。


想象一下,你工作的桌子旁有一塊地毯。一天,你看到某人因地毯的一塊隆起而絆了一下。你會一直等到10個、100個甚至更多人都絆倒在同一處時,才會考慮撫平這塊地毯嗎?當然不會。


這與如何看待軟件缺陷問題的情況一樣——當你發現了一些軟件/硬件配置問題,雖然不確定多少人面臨同樣的問題,但你會修復這個問題。這個原則同樣適用於設計的可用性問題。包含少數參與者的研究(通常叫作“小樣本研究”)可以完美説明此類問題,你無須量化問題人數來確認問題是否是由設計引起的。


比如,圖2-1指出,由5個被測試者即可確定85%以上的可用性問題。假如調研更少的用户,你同樣可以在相同時間內獲得更豐富、更深入的數據信息。


然而,在某些類型的小樣本研究中,你無法保證研究發現適用於總體中的每一個個體。同樣,你也無法採用更高精度的方法量化到底多少用户將遇到相同的問題,或產生相似的感受。這意味着,小樣本研究不適用於某些決策,比如,確定某個問題的產生概率。


▲圖 2-1:隨着更多用户的參與,從每個後續用户中獲取的信息量在逐漸遞減。絕大多數人(包括NNG,本圖表的發明者)都贊同,可用性測試只需5名用户參與,便可使你不費吹之力注1發現85%以上的可用性問題


相比而言,從大量參與者收集的數據(通常被稱作“大樣本研究”)可以提供更加精確的量化及頻率信息:多少人存在相同的感受,以及執行某種操作的用户佔比是多少等。理想的環境中資源是無限的,你可能認為儘量多地收集數據總是最好的選擇,這確保你掌握全部信息。


然而,你可能沒有時間以這種方式進行研究。通常,樣本量越大,得到的結果越能夠代表整體情況(只要樣本具有代表性)。一些統計學方法可以用來確定進行數據收集的用户量,以保證結果達到一定的可信度。


我們不再深入討論更多細節問題,假如你想了解更多,建議與你的數據分析師或數據科學家進行溝通,探討關於樣本大小和統計規模之間的關係。



03 為什麼實驗


剛剛講了數據的多種維度。實際上,精確細膩地處理各類數據需要耗費數年時間。相比膚淺地研究處理多類型數據,我們決定專注於一種類型的數據收集:通過A/B測試開展實驗。


那麼為何如此在意實驗,且不斷提及?簡要來説,實驗幫助我們通過證據瞭解事情的因果關係,而非傳聞逸事,這可能具有統計學意義。因此,當在真實環境中發佈設計、功能或是產品時,我們能夠得到一些預見性的觀點。這麼説可能有點誇張,下面將進行詳細説明。


1. 瞭解因果關係


先從實驗的一個明顯重要的優勢談起。有句古老諺語:“相關不藴含因果聯繫”。這是説兩件或多件事物相關聯,意味着它們之間存在着某些共同相互的關係或聯繫,這並不意味着一件事情的變化會引起另一件(些)事情發生改變。實際上,我們善於將生活中發生的各種事情與影響關聯起來。


在夏令營的例子中,假設我們試圖瞭解使用哪種營銷方式可招攬更多營員。對此,我們也許得出一個結論,刊登了夏令營廣告的雜誌的熱賣會促進營員增長(見圖2-2)。


雜誌銷量的提升一定會引起註冊人數的增多,該假設的問題在於,在不可控的環境中,我們不是上帝,無法完美預見所有的因素,而某些因素或許會引起其他結果。我們無法排除這些因素,無法斷定預見了事情的前後因果。


▲圖2-2:假如刊登了夏令營廣告的雜誌熱賣,營員增多,也許可以認為營銷活動促進了人數擴張


實際上,這個例子中,雜誌的銷量增多可能確實引起了註冊人數的增長,但其他原因也是存在的。增加一個變量便可清楚地解釋這一點。比如,把經濟的發展情況考慮在內?


實際上,也許是經濟整體的健康發展引起了雜誌銷量的提高和夏令營人數的增長。經濟的發展使得家庭可自由支配的收入增多,因而在雜誌和夏令營方面花銷增長(見圖2-3)。


▲圖2-3:然而,也可能是經濟的健康發展引起了雜誌銷量的提高和註冊人數的增長。哪種假設才是正確的?不實驗,我們便不瞭解真相


A/B測試和實驗的優勢在於,它們提供了可控的環境,有助於瞭解事情發生的前因後果。換句話説,實驗幫助我們確立因果關係。這對設計師很重要,瞭解了行為的潛在原因,便能預知產品或設計的改變會產生哪些影響。


同樣,也有助於明確地瞭解,怎樣的設計決策會引起用户行為的變化。再則,避免過於傾向於可支持我們觀點的數據與行為模式(心理學上稱作“確認偏差”),降低將時間和企業資源投入到未被證明的假設上的風險。


2. 採用統計方法,而非道聽途説


作為一種方法論,因果關係對於實驗而言非常獨特,是A/B測試令人期待一個重要原因,但我們依然想談論有關實驗的一些其他優勢。


一般來説,無論採取哪種數據收集方法,都旨在找到有意義並值得信賴的可引導設計及產品決策的依據。


當團隊中的某成員基於朋友、熟人或業務利益相關人的個人想法而建議一種全新的產品方向或設計調整時,你應當保持謹慎。大多數情況下,這些都是個人觀點而非真實依據。希望你對所瞭解的傳聞逸事的侷限性有更多的思考(不僅具有偏見的風險),提出問題來幫助瞭解更多信息。


這就是説,定義“有意義”的方法有許多。嚴謹的定性研究方法論無疑是有意義的依據來源,也是制定良好產品決策的關鍵。確保所得數據有意義的方法之一是制定良好的研究計劃。


比如,提出不包含偏見、不被偏見誘導或引導、經過深思熟慮的問題。再比如,用户研究員接受過良好的專業培訓,是開展此類工作的專家。


識別數據可能存在意義的另一種方式是運用統計學方法。這些方法僅適用於定量測量,但因為實驗與A/B測試也是定量方法,它們可基於統計顯著性進行度量。


統計顯著性能夠量化數據所反映的現象是一種真實存在而非隨機現象。根據所收集的數據類型,可選擇不同的統計顯著性度量標準,比如P值。P值用於度量某既定事件在既定情況下發生的概率。因而,P值有助於量化實驗中隨機差異產生的概率。


這裏將不再詳述P值的計算方法,但假如你希望瞭解更多,建議你與數據科學家或分析師朋友進行溝通。此處這些有限的統計學知識,來自一個被稱作“頻率論”的統計學流派,通常用於在線實驗。


統計學方法可以幫助確定可能有意義的數據,而非一定有意義的數據。為了確定這部分,我們同 Arianna McClain進行了交談。Arianna現在擔任DoorDash公司用户洞察部門的主管,最近擔任全球設計公司IDEO的設計研究員及設計與數據專家。Arianna在兩個領域的交叉方面,以及如何使設計師無須接受過多培訓便可使用數據方面有很棒的見解。


當考慮統計顯著性,以及它與某事物是否有意義的關係時,Arianna談道:


統計顯著性不會表明事情是“對的”或是“錯的”,也不會決定應當採取什麼行動。反而,它僅僅是簡單的建議,有些事值得繼續。


當我注意到,某種相關或模型並不接近統計顯著性時,我便認為這是一個可快速跳過並繼續的提示。但是,假如接近統計顯著性,這便是説:“喂,你應該關注這部分。”這促使我進行更多深入的研究,提出更多問題。


以臨牀隨機藥物實驗為例,一家制藥企業不會因為數據表明藥物達到了統計顯著性的預期效果便決定批准該藥物進入臨牀使用。他們同時要考慮藥物的臨牀效果影響、副作用以及成本。許多醫學案例表明,有些藥物具有統計上的顯著效果,但沒有意義。


例如,減肥實驗可能表明,與P<0.0001的生活方式干預相比,某新葯的減重效果更明顯。但是,患者服用後可能出現強烈的副作用,並只能減重一磅或兩磅以上,這就使藥物不具備臨牀意義,也不值得患者服用。


P值小不代表沒有意義,相反,如Arianna所述,這表示你應當關注這個結果,思考在這種情況下如何收集數據,這個改變將如何影響業務,其他數據來源可以提供什麼信息。


不要只考慮顯著性而不考慮其意義。也就是説,在精心設計的前提下,實驗能夠反映真實而非隨機的情況,這是在決策時應當關注與思考的。



3. 瞭解真實情況


A/B測試非常善於鑑別統計顯著性結果,識別真實存在而非偶然發生的現象。除了因付出有所回報感到激動欣喜之外,統計顯著性還有哪些價值?


當團隊計劃推出一款產品及設計時,他們希望對用户行為做出明智判斷。以電商網站為例,用户是否會點擊按鈕,成功沿着新步驟完成付款流程?少量用户研究的侷限性主要在於,目標難以代表用户整體。但你可以採用其他方式獲得洞察,瞭解用户可能遇到的問題或特殊羣體的訴求。


回顧之前提到的數據維度。精心設計並實施的實驗能提供有意義的洞察,指明有關功能或產品的真實表現,以此消除侷限性的問題。A/B測試是一種基於觀察的行為研究方法,收集大量用户上下文的數據信息。


這就是説,只要精心設計A/B測試的實驗,我們便能確信,測試結果可以真實一致地體現產品發佈後的結果。藉助A/B測試,團隊便能夠“窺探未來”,瞭解產品的預期表現,衡量與量化設計變動產生的影響。


通過數據感知的方式預估未來的能力非常重要。基於此,進行再設計、再思考時,企業能夠節約時間與資源,用以投資表現優異的項目,捨棄表現不佳或不符合預期用户行為的想法。


除去商業上的優勢,A/B測試幫助設計師基於用户體驗或公司的底線量化付出的努力的價值。這非常重要,因為這有助於設計師清晰地向利益相關人及業務人員闡述投資與重視優秀設計的重要性。


瞭解並運用數據感知的方法(比如A/B測試),有助於設計師提出令人信服的依據,並證實投資優秀設計對於商業成功的關鍵性是可以被量化評估的,而非僅僅是哲學意義上的。


關於作者:Rochelle King,Spotify產品設計創意全球副總裁,擅於融合運用設計與數據,並且曾擔任一些技術企業的負責人。

Elizabeth Churchill博士,人機交互(HCI)領域專家,曾在許多硅谷企業中主導以用户為核心的研究,近專注於設計和開發者工具方面的研究。

Caitlin Tan,Spotify的用户研究員,畢業於麻省理工學院。

本文摘編自《數據驅動設計:A/B測試提升用户體驗》,經出版方授權發佈。


延伸閲讀《數據驅動設計

點擊上圖瞭解及購買

轉載請聯繫微信:DoctorData


推薦語:谷歌用户體驗總監、Spotify設計與用户體驗全球副總裁聯袂撰寫,設計從業人員有效提升用户體驗必備參考。 



據統計,99%的大咖都完成了這個神操作



更多精彩


在公眾號後台對話框輸入以下關鍵詞

查看更多優質內容!


PPT | 報告 | 讀書 | 書單 | 乾貨 

大數據 | 揭祕 | Python | 可視化

人工智能 | 機器學習 | 深度學習 | 神經網絡

AI | 1024 | 段子 | 區塊鏈 | 數學


猜你想看


  • 被兩會代表頻繁“點名”,2019的第一波風口要來了?

  • 女神節,來聊聊這幾位神一般的“程序媛”

  • 馬化騰提議加強基礎科學研究,中國“芯痛”能解決嗎?

  • 數據又多又散,“孤島困境”怎樣破局?



Q: 你設計過哪些A/B測試,效果如何?

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯繫:[email protected]

更多精彩,請在後台點擊“歷史文章”查看

點擊閲讀原文,瞭解更多

https://hk.wxwenku.com/d/110021263