轉載:對話學者|解開人文學科定量方法學習的困擾 ——以處理海量的電子郵件大數據為例

定量羣學2018-05-17 22:41:07

編者按

、定量研究自20世紀50年代起在較短時間內積累了巨大的學術地位與學術聲望,並迅速壯大為當代社會科學領域最主流和活躍的研究領域之一。本期,人文社科新方法對話專訪了南京大學歷史學院副教授、南京大學歷史學院數字人文研究中心主任王濤老師,為我們談一談在人文社科領域尤其是歷史學領域的數字人文與定量研究的過去、現在、未來及應用。5月21日晚18:30—21:30,王濤老師將手把手的帶領我們,重現一項數字人文研究——免費直播課程(課程鏈接請點擊:直播預告|手把手帶你再現一項完整的數字人文研究)。




一:請問老師,在傳統的歷史學研究中,定量研究方法或數字人文研究方法的地位以及發展歷程是怎樣的?

如果我們把數字人文理解成非常寬泛的概念的話,那麼它在史學研究領域已經有了漫長的歷史。20世紀50年代,曾經出現了“計量史學”的領域。計量史學的追隨者試圖透過數量關係來探討歷史問題。“數字人文”或者“大數據”的概念雖然出現的很晚,但是相關聯的研究實踐很早就有開展,甚至比“計量史學”的出現還早。數字人文的開拓人物,羅伯託·布薩在20世紀40年代就開始用計算機處理阿奎那的文本,後來有更多學者用類似的方法研究聖經、古典史,都具有開創性。隨着技術的不斷進步,“數字人文”領域愈加寬泛,歷史研究的許多話題都具有了“數字化”的特性,比如關於美國內戰、奴隸問題的研究等。

計量史學雖然遭受過尖鋭的批評,特別是在“歷史敍述的復興”後一度低迷,但定量方法能夠拓寬史學研究的問題域是不容置疑的。



問題二:我們發現您最近的一些研究,都是側重使用定量方法、大數據的思維進行歷史學研究,能否為我們簡單談談您的體會?定量研究尤其是大數據的方法對歷史學研究有什麼優勢?

其實我並不想把最近的研究限定在“定量”的層面,或者僅僅強調數字人文的技術維度。不可否認,我最近的一系列研究,包括對德國研究文獻的梳理、德意志文獻檔案的研讀等,確實使用了統計方法,但我個人覺得最重要的部分,還是體現在如何對統計數據進行解讀,這不僅是我作為人文學者的問題意識,也是在提醒大家留意,在具體的研究實踐活動中,定量與定性不可能做到嚴格的涇渭分明,甚至把它們進行區別的努力往往會將研究引入歧途。極端地説,沒有進行定性解讀的話,定量的方法或者看上去神祕的“大數據”,並不會自動轉化為有效的“信息”,這樣的定量就沒有意義。

前面提到過歷史研究並非天然要排斥量化、大數據等方法。特別是在迴歸“長時段”研究的宣言般的訴求日益強烈,全球史等研究路徑愈發受到追捧的當下,大數據的方法或許具有一定的優勢。它能夠更高效和準確地處理更多資料,能夠挖掘出隱藏在文獻背後的信息,對於提高歷史研究的工作效率,找到新的突破口,都是非常有益的補充。比如,研究者用全球史的視野追蹤“糖”在不同文明之間發揮的互動作用,從概念史的維度分析“帝國”的語境改變,若是能找到合理的切入點,量化的方法大有用武之地。當然,我並不認為大數據的方法只能應對“宏大敍述”層面的歷史問題,在考證歷史細節方面,使用得法的話也是會有裨益的,比如E-考據的價值就不容忽視。



問題三:隨着定量研究在中國日益發展,很多同學也對運用定量方法進行研究很感興趣,但是受限於大部分人文學科的專業的同學並沒有受過非常嚴格科學的定量訓練,那麼對於有志於在人文社會科學方面進行定量研究的同學,您有什麼方法或建議呢?或您有什麼好的經驗可以分享?


坦率地説,我自己也沒有受過嚴格科學的定量訓練。這並不可怕。學習游泳的最好方式是下到游泳池裏去。涉及到定量、大數據或者數字人文的方法,系統的培訓固然重要,但是如果不能結合具體研究開展實踐,就只能停留在紙上談兵的層次。


對於人文學科專業出身的同學,我建議遵循這樣的階段:從核心概念入門,在操作實踐中提升。系統學習可以幫助我們迅速、準確地瞭解定量研究最基本的概念和方法,作為進一步提高的基礎。然而通常的情況是,基礎知識只能提供入門的可能性,或許無法解決我們在各自研究中面臨的個性化問題;更重要的是,量化、大數據的方法更新迭代是非常快的,我們需要不斷學習來緊跟方法與理念改善的步伐。因此,我們還需要在具體的項目研究中逐步掌握定量研究的正確打開方式。

另一方面,方法是最不重要的環節。對於研究問題而言,首先是要確保有意義的真問題,方法是為解決這個問題服務的。所以,不能為了定量而定量,而是要堅持問題導向,論證導向。




問題四: 我們注意到,在您最近的一個關於《如何處理成為史料的》研究中,您使用的數字手段處理了超過10000封的電子郵件來進行各種分析,您的研究靈感是如何來的?您認為,在未來數字化時代的發展中,歷史學家的新技藝還會有哪些變化?

我是一名歷史學者,歷史學者需要處理的是史料。在強調一手資料的史學界,諸如書信、日記等,都是非常重要的文獻來源。但你是否能回憶起,你最近一次用筆寫信是多久之前的事情啦?我不知道別人的情況,但我自己已經有近十年沒有手寫過紙質的文書了;然而與此同時,我寫了近萬封電子郵件。未來的歷史學家要研究我們這一代人,電子郵件一定是無法繞開的資料來源。我就想試試看,去體會一下未來史學家的工作狀態。


我最近有關電子郵件研究的文章其實具有很強的試驗性質。我把當下能夠想到的方法都嘗試了一遍,比如社會網絡分析(使用了Gephi),文本挖掘(如詞頻統計、主題模型等),並不是為了比較孰優孰劣,而是想給大家展示研究“天生的”數字化文獻具有哪些可能性。坦率地説,對我而言,有很多方法也是第一次接觸,不得不一邊學習,一邊在實戰中應用。因此,我一直強調“做歷史”的學習狀態,在操作的過程中,掌握新的技巧,發現有趣的問題,最終督促我們不斷學習、獲得提升。談及歷史學家更多的新技藝,我們可以借用《阿甘正傳》中巧格力盒的比喻,你並不知道下一個技能會是什麼。我們惟一可以確定的是,技能不是為了炫技,而是為了解決問題。同時,作為歷史學者的一些基本“技藝”,諸如語言、辨析史料、邏輯論證等,在任何時候都不會過時。


問題五:您的關於上萬封電子郵件的史料研究中,您使用了哪些研究方法、軟件?並且做了哪些統計分析?您選擇這些技術的理由是什麼?

作為歷史學者更多關注文本,而電子郵件本身也是重要的文本資料,所以我使用了與文本挖掘相關的方法和軟件。電子郵件有大量中文,先要對中文進行分詞,我主要使用Python環境下的Jieba分詞軟件包;之後進行處理,比如詞頻統計,主題模型等,主要使用Gensim軟件包,以及一個在線進行文本處理的工作平台Voyant。我在這個項目中使用的統計分析,都非常簡單,基本上在Excel裏就可以完成。為了分析電子郵件構成的人際網絡狀況,我還利用Gephi對收件人與寄件人的網絡關係進行了分析。


問題六:最後,您是否可以把這項研究的完整實現過程,為同學們完整再現一遍?

當然願意!南大歷史學院數字人文研究中心的一項宗旨,就是致力於推進數字素養的普及,我們很樂意跟大家分享方法與心得。本身我選擇電子郵件這個項目,就是想提供一個指南性質的範本,讓對數字人文研究感興趣的同學能夠按圖索驥。大家可以利用手頭自己的資源,熟悉一遍工作流程,為今後展開自己的項目打下基礎。

課程大綱


跟着我們的步驟,你將完整的重現這樣一個研究的全過程:

1. 用Foxmail下載元數據
2. 用Python解析郵件、清洗數據
3. 用Excel進行數據透視
4. 用Gephi進行社會網絡分析
5. 用Voyant、Python進行文本挖掘

在這個過程中,你將獲得觸類旁通的體驗!


報名方式

直播時間:2018年5月21日(週一)晚18:30-21:30

課程費用:免費

温馨提示:參與本次直播活動請掃描以下二維碼添加QQ諮詢羣,或添加孫老師微信:15961846330 我們將在羣內提前分享本次課程所需軟件和正式直播鏈接。

QQ諮詢羣號:685263308


目前微信羣已滿,可添加微信號孫老師(電話同微信):15961846330(添加時請備註“直播”)


· · · · · ·

閲讀原文

TAGS: