社科網(wǎng)首頁|論壇|人文社區(qū)|客戶端|官方微博|報(bào)刊投稿|郵箱 中國社會(huì)科學(xué)網(wǎng)
推進(jìn)數(shù)據(jù)檔案學(xué)在社科研究中的應(yīng)用
李煒
中國社會(huì)科學(xué)報(bào) 2017年12月19日
2018-01-10

  數(shù)據(jù)資料對(duì)于社會(huì)科學(xué)領(lǐng)域的實(shí)證研究具有決定性意義。進(jìn)入21世紀(jì)以來,中國社會(huì)科學(xué)領(lǐng)域的一大亮點(diǎn)是一系列全國范圍的縱貫學(xué)術(shù)調(diào)查機(jī)構(gòu),秉持?jǐn)?shù)據(jù)共享的理念,相繼公開原始數(shù)據(jù)庫,使之成為當(dāng)前社會(huì)科學(xué)研究領(lǐng)域中重要的學(xué)術(shù)資源。其中由中國人民大學(xué)中國調(diào)查與數(shù)據(jù)中心開展的“中國綜合社會(huì)調(diào)查”(Chinese General Social Survey, 簡稱CGSS)、中國社會(huì)科學(xué)院社會(huì)學(xué)研究所開展的“中國社會(huì)狀況綜合調(diào)查” (Chinese Social Survey, 簡稱CSS)、北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心開展的“中國家庭追蹤調(diào)查”(China Family Panel Studies,簡稱CFPS)、北京師范大學(xué)中國收入分配研究院開展的“中國家庭收入調(diào)查項(xiàng)目”(Chinese Household Income Project,簡稱CHIP)、西南財(cái)經(jīng)大學(xué)中國家庭金融調(diào)查與研究中心開展的中國家庭金融調(diào)查項(xiàng)目(China Household Finance Survey, 簡稱CHFS),被學(xué)界冠為“五朵金花”或“調(diào)查5C”,在學(xué)界擁有較高的聲譽(yù)。研究數(shù)據(jù)開放的舉措可以說是中國社會(huì)科學(xué)研究領(lǐng)域的“供給側(cè)改革”,功不可沒。

  隨著研究數(shù)據(jù)共享的擴(kuò)展,也產(chǎn)生了一個(gè)令人關(guān)注的現(xiàn)象,那就是數(shù)據(jù)使用無論在人數(shù)還是在成果數(shù)量上都大大超過了調(diào)查研究資料的原創(chuàng)者。以CGSS為例,截至2016年底,數(shù)據(jù)用戶已超過4萬人,采用該數(shù)據(jù)進(jìn)行研究分析的文獻(xiàn)量達(dá)2094篇(部),其中數(shù)據(jù)原創(chuàng)團(tuán)隊(duì)的學(xué)術(shù)成果不足50篇(部),約占比2.4%;以CSS為例,在目前已發(fā)表的近700篇(部)文獻(xiàn)中,原創(chuàng)團(tuán)隊(duì)的學(xué)術(shù)成果僅有58篇(部),占比約8.3%。這意味著二手?jǐn)?shù)據(jù)用戶的需求重要性越加凸顯,原創(chuàng)團(tuán)隊(duì)必將面臨著重要的角色轉(zhuǎn)換:從調(diào)查研究的設(shè)計(jì)者、數(shù)據(jù)資料采集者,轉(zhuǎn)換為研究資料的提供者和服務(wù)者。

  用戶需求旺盛但數(shù)據(jù)服務(wù)短缺

  研究數(shù)據(jù)開放共享成為公共資源,誘發(fā)了數(shù)據(jù)使用者的多重需求。首先,數(shù)據(jù)使用者有獲取數(shù)據(jù)的強(qiáng)烈需要。他們無一例外地希望盡早、全面地獲得最新數(shù)據(jù)。其次,數(shù)據(jù)使用者有數(shù)據(jù)指導(dǎo)的需求。需要數(shù)據(jù)提供者在數(shù)據(jù)的概念界定、口徑、采集方式及過程、分析解讀等多方面給予信息和技術(shù)支持。最后,數(shù)據(jù)使用者有整合開發(fā)數(shù)據(jù)資源的需求。他們面對(duì)多筆釋出在各個(gè)機(jī)構(gòu)網(wǎng)站上的數(shù)據(jù),希望能夠?qū)⒉煌?xiàng)目、不同時(shí)代、不同區(qū)域、不同口徑的調(diào)查數(shù)據(jù)標(biāo)準(zhǔn)化綜合利用,以取得更大的價(jià)值。

  但在國內(nèi)目前的學(xué)術(shù)組織框架中,滿足上述需求的服務(wù)提供,卻有著多重的制約。在傳統(tǒng)的項(xiàng)目(課題)制架構(gòu)下,數(shù)據(jù)共享只是原創(chuàng)團(tuán)隊(duì)自身研究的一項(xiàng)“副產(chǎn)品”,在數(shù)據(jù)使用的優(yōu)先序上,項(xiàng)目(課題)組本身應(yīng)該是排在首位的;各類后續(xù)的數(shù)據(jù)服務(wù)工作已超出了自身的研究者角色,沒有義務(wù)提供周全的后續(xù)服務(wù);特別是多筆數(shù)據(jù)整合的增值服務(wù),到底由數(shù)據(jù)提供者還是由用戶自身來完成,莫衷一是。數(shù)據(jù)提供者認(rèn)為已經(jīng)盡了最大的公益之心將數(shù)據(jù)分享學(xué)界了,由研究者來承擔(dān)數(shù)據(jù)服務(wù)的職能,實(shí)在力所不及。

  科研數(shù)據(jù)共享帶來的用戶需求旺盛和數(shù)據(jù)服務(wù)短缺之間的張力,更深層次預(yù)示著中國社會(huì)科學(xué)界面臨的一個(gè)應(yīng)用拓展難題:當(dāng)各類研究數(shù)據(jù)作為公共學(xué)術(shù)資源密集面世,誰來為它們的整合和增值服務(wù)買單?

  數(shù)據(jù)檔案機(jī)構(gòu)的發(fā)展歷程

  為數(shù)量眾多、來源龐雜的研究數(shù)據(jù)提供管理和整合的服務(wù),在國外的學(xué)術(shù)研究領(lǐng)域已經(jīng)相當(dāng)普遍和成熟。數(shù)據(jù)檔案機(jī)構(gòu)的誕生與發(fā)展,便是社會(huì)科學(xué)研究數(shù)據(jù)服務(wù)領(lǐng)域的一大創(chuàng)新。在歐美國家,社會(huì)科學(xué)數(shù)據(jù)檔案中心(Social Sciences Data Archives, SSDA)已有70年的發(fā)展歷史。

  世界上最早的SSDA可以追溯到1947年美國創(chuàng)立的第一個(gè)數(shù)據(jù)檔案管理機(jī)構(gòu)——羅普中心(Roper Center)。調(diào)查研究創(chuàng)始人之一的Elmo Roper,將他從20世紀(jì)30年代中期開始積累起來的民意調(diào)查數(shù)據(jù)捐贈(zèng)給美國的威廉姆斯學(xué)院圖書館,而該圖書館于1957年將羅普調(diào)查的數(shù)據(jù)檔案獨(dú)立出來,成立了“羅普輿論研究中心”,2015年又歸屬于康奈爾大學(xué)。目前,該中心已經(jīng)收集22000多個(gè)來自美國和其他100多個(gè)國家的民意調(diào)查數(shù)據(jù)集,建立了專注于公眾輿論調(diào)查和分析、世界領(lǐng)先的社會(huì)科學(xué)數(shù)據(jù)檔案庫,并以每年數(shù)百筆數(shù)據(jù)資料納入的速度增長。另一所聞名于世的SSDA是成立于1962年的美國密歇根大學(xué)的校際政治和社會(huì)研究聯(lián)合會(huì)(The Inter-University Consortium for Political and Social Research,ICPSR)。該組織是會(huì)員制組織,在世界各地約有760所會(huì)員大學(xué)和研究機(jī)構(gòu)加入。ICPSR維護(hù)并提供了大量的社會(huì)科學(xué)研究數(shù)據(jù)檔案用于研究和教學(xué),目前擁有超過8000個(gè)單獨(dú)研究/調(diào)查項(xiàng)目數(shù)據(jù)和25萬筆數(shù)據(jù)集。

  在歐洲,1960年德國科隆大學(xué)建立的社會(huì)研究中央檔案館(ZA)以匯集社科數(shù)據(jù)檔案聞名;1964年荷蘭阿姆斯特丹大學(xué)建立的斯坦因麥茨檔案館,專門收藏民意調(diào)查數(shù)據(jù)檔案;1965年成立的英國數(shù)據(jù)檔案館(UK Data Archives)被英國國家檔案館指定為數(shù)據(jù)托管和存儲(chǔ)處,主要收藏人文社科領(lǐng)域的數(shù)據(jù),成為英國研究和教育領(lǐng)域中的基礎(chǔ)性材料。

  1977年在比利時(shí)的新盧萬成立的國際社會(huì)科學(xué)數(shù)據(jù)組織聯(lián)合會(huì)(International Federation of Data Organizations for the Social Science, IFDO),標(biāo)志著社會(huì)科學(xué)數(shù)據(jù)檔案機(jī)構(gòu)走向國際化和規(guī)范化。

  數(shù)據(jù)檔案學(xué):一門新的學(xué)科

  在以紙張為主要信息載體的時(shí)代,圖書館、檔案館成為人類資訊的匯集地,由此產(chǎn)生了圖書館學(xué)和檔案學(xué)。同樣,在電子化時(shí)代,社會(huì)科學(xué)數(shù)據(jù)檔案中心的普及,也促使了數(shù)據(jù)檔案學(xué)的出現(xiàn)。數(shù)據(jù)檔案學(xué)作為社會(huì)科學(xué)研究價(jià)值鏈上的一個(gè)新節(jié)點(diǎn)和新型服務(wù)供給類型,包含了諸如數(shù)據(jù)采集、數(shù)據(jù)修復(fù)、數(shù)據(jù)標(biāo)引、數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)釋出等圍繞數(shù)據(jù)生命周期展開的數(shù)據(jù)管理流程的知識(shí)體系。

  數(shù)據(jù)檔案建立中的數(shù)據(jù)采集,主要指既有數(shù)據(jù)的收集引進(jìn),相當(dāng)于傳統(tǒng)圖書館業(yè)務(wù)中的“采訪”環(huán)節(jié)。數(shù)據(jù)資料的采集,主要考量數(shù)據(jù)的研究利用價(jià)值與規(guī)范性。一般而言,長期縱貫調(diào)查的數(shù)據(jù)、稀有數(shù)據(jù)(如對(duì)艾滋病患者的調(diào)查數(shù)據(jù))會(huì)更有引進(jìn)價(jià)值;具有規(guī)范性的數(shù)據(jù)說明文件的數(shù)據(jù)資料應(yīng)是重點(diǎn)引進(jìn)的來源;和紙版圖書單本采購引進(jìn)方式不同,研究數(shù)據(jù)多采用會(huì)員制的方式分享。

  數(shù)據(jù)修復(fù)則包含了數(shù)據(jù)清理、數(shù)據(jù)考據(jù)等步驟,通過去除奇異值(Outlier Data)、校驗(yàn)數(shù)據(jù)邏輯、插補(bǔ)缺失值等方式,提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)集的完整性。數(shù)據(jù)標(biāo)引是數(shù)據(jù)檔案標(biāo)準(zhǔn)化的關(guān)鍵,相當(dāng)于傳統(tǒng)圖書館業(yè)務(wù)中的“編目”環(huán)節(jié)。為便于對(duì)數(shù)據(jù)文檔和變量信息的檢索,國際社會(huì)科學(xué)領(lǐng)域通常采用DDI(Data Documentation Initiative)元數(shù)據(jù)標(biāo)準(zhǔn),用于對(duì)文檔、研究項(xiàng)目、數(shù)據(jù)文件和變量進(jìn)行關(guān)鍵詞的標(biāo)準(zhǔn)化描述。

  數(shù)據(jù)集成指對(duì)各類數(shù)據(jù)集的跨庫、跨時(shí)空的整合,如將同一時(shí)期不同國家的貧困人口從各自的原始數(shù)據(jù)庫中整合為一體,進(jìn)行比較研究;又如將同一地區(qū)的同類歷史數(shù)據(jù)匯集,形成縱向動(dòng)態(tài)數(shù)據(jù)庫。數(shù)據(jù)集成得以把跨時(shí)間、跨主題、跨學(xué)科、跨模態(tài)的多重?cái)?shù)據(jù)綜合起來,極大地豐富研究視野,也非常有實(shí)戰(zhàn)價(jià)值。美國密歇根大學(xué)的中國信息研究中心(China Data Center)利用我國各類開放數(shù)據(jù)集成的China Data Online和China Map Online,便是成功的應(yīng)用案例。數(shù)據(jù)存儲(chǔ)主要包括數(shù)據(jù)的永久備份、定期備份、物理隔絕等保護(hù)與安全性事項(xiàng)。數(shù)據(jù)釋出主要涉及數(shù)據(jù)保密、私密處理、倫理審查、定期更新、用戶維護(hù)等內(nèi)容。

  社會(huì)科學(xué)數(shù)據(jù)檔案中心將是新時(shí)代的科學(xué)研究資訊匯聚平臺(tái)和基站,亦將是新一輪學(xué)術(shù)建設(shè)的焦點(diǎn)。目前數(shù)據(jù)共享帶來的數(shù)據(jù)服務(wù)供給不足的難題,也同樣提供了一個(gè)新的發(fā)展機(jī)遇。中國科研機(jī)構(gòu)應(yīng)該具有前瞻意識(shí),盡早地投入數(shù)據(jù)檔案中心建設(shè),提升數(shù)據(jù)檔案學(xué)的學(xué)科發(fā)展空間,以一種新的激勵(lì)機(jī)制和制度安排,打破傳統(tǒng)的項(xiàng)目制下研究者作坊式的自給自足生產(chǎn)和運(yùn)用學(xué)術(shù)資源的格局,促進(jìn)我國社會(huì)科學(xué)研究的數(shù)據(jù)綜合開發(fā)和增值應(yīng)用,更好地為我國學(xué)術(shù)研究的現(xiàn)代化,為發(fā)揮智庫功能,提供新的有力支撐。 

 

 ?。ㄗ髡邌挝唬褐袊鐣?huì)科學(xué)院社會(huì)學(xué)研究所)