胡其瑞(國立彰化師範大學歷史學研究所助理教授)

 

 

或許你跟我有一樣的經驗,走進琳瑯滿目的大賣場,總覺得這個商品好像也需要,那個商品未來也許會用到,於是搬了一堆東西進了手推車,等到結帳回家以後才驚覺,我買這個做什麼?要放在哪裡?如何收納?此時,你也許就會開始懷念往日柑仔店的美好,店小小的,東西少少的,只買我需要的,然後滿足的回家。這個場景似曾相識,因為,它就發生在當代的人文研究場域裡。

數位人文的發展源流,在前期許雅惠老師的文章中已經做了詳盡的描述(許雅惠,〈在數位時代研究歷史〉),所以本文不再贅述。數位時代所產生的豐沛研究素材,勢必對未來的人文研究帶來影響;就像走進大買場的經歷一般,面對多樣化的資料格式、來源、型態與應用方式,如何進一步掌握並運用這些資源,將會是新一代學術研究者必須要面對的挑戰。臺灣的數位人文發展墊基於十數年長期發展、由國家所支持的數位典藏計畫成果而來。國外的數位人文研究歷程大多是由單一或小規模的組織與團體,針對研究人員的需要進行素材數位化之後再進行後續的數位分析;而臺灣則是傾國家之力進行大規模的藏品數位化,以「數位典藏」的概念來建置這些研究資源。也正因為如此,歷經十數年的數位典藏計畫累積了大量的數位成果,有的藏諸雲端,有的在機構中成為資料庫,有的也因為計畫的終結而封存在某些單位的磁碟陣列裡,靜靜地等待有一天被「數位考古」挖掘出來,方能重見天日。而這些豐沛的數位檔案,都成了今日進行數位人文研究的重要資源。

 

從傳統資料庫查找模式到脈絡分析系統思維

 

在過往的人文研究歷程裡,研究者或許在幾間柑仔店裡把所需要的史料進行細緻而微觀的耙梳方能進行研究成果的產出。而現在,我們被迫要在眾多來源不一、格式相異的資料中打滾,儘管硬碟與隨身碟的容量與日俱增,但身為研究者的我們猶感擔憂,深怕遺漏了「關鍵的史料」而在面對審查委員時被釘得滿頭包,這樣的焦慮迫使研究者在豐沛的數位世界不斷地下載、複製、存檔研究資料,到最後反而使自己被淹沒在這些數位材料之中而無法處理。可見,即使窮盡了「洪荒之力」蒐集了這些研究素材,如果沒有一個好的整理方式,就算擁有再便利的蒐集管道,到最後真正用來從事研究的可能還是只有當中的一小部分,所謂的數位人文研究似乎依舊跳脫不了柑仔店的規模。

 

圖一:人文研究者被大量的數位化資源所掩埋(圖片提供:臺灣大學數位人文研究中心)

 

讓我們先回到「數位典藏」的時代,那是一個以國家力量支持研究機構與學校進行典藏品數位化的年代。為了便於將這些資料典藏,計畫開始的時候著重的是以資料庫結構來進行數位檔案的管理與儲存;漸漸的,計畫開始思考這些數位檔案的運用層面,於是才著重於資料的公開以及對外資料庫查找系統的建置[1]。此時,資料庫的建置是為了資料檢索而來,就像在圖書館檢索系統內查找書籍一樣,讀者可能透過作者、關鍵詞、書名等檢索條件來進行檢索、得出一本書的索書號,然後再依據索書號的位置到架上找到這本書。不過,相信大家一定有這樣的經驗,當我們進入書庫找到原本要借的書時,這才發現與這本書擺放在附近的相鄰幾本書好像更符合研究的需求。這種意外的發現,是因為讀者意識到架上的那些書籍彼此之間存在著「脈絡」(context)關係。所以,當數位資源多了起來,單純倚靠檢索來查找資料的習慣就應該有所調整;資料庫應協助使用者的將不再只是查找出資料的本身,而更該顯示出檢索出來的這些資料彼此之間的內在脈絡,從而在這些脈絡當中探詢更有趣的研究議題。例如,以同樣一筆土地所查找出來的一大批土地交易契約中,它們彼此的買主與賣家就可以串連出一塊土地的流轉故事;一個專有名詞在時間中的分布,也有助於我們快速掌握某些思想在時代之間受到輿論重視與否的起起落落。而這種具備脈絡分析功能的資料庫,就被稱為「脈絡分析系統」(Context Discovery System)。由臺灣大學數位人文研究中心所建置的「臺灣歷史數位圖書館」就是一個很典型的例子[2],透過檢索功能中的「後分類」(post-classification)機制,系統可將檢索結果間彼此的脈絡關係呈現給使用者[3]

這種重視脈絡分析的系統,使得原本重視檢索的典藏系統提升成為能夠協助使用者進行脈絡分析的概念,即是數位典藏到數位人文的一項跨越。在人文研究的歷程中,從問題意識的產生到研究成果的產出,中間經歷了資料蒐集、資料整理、資料分析、資料觀察與資料詮釋等歷程,有的時候也會在詮釋資料的過程中又再發現有趣的問題而再度重訪這段研究歷程。而如圖二所示,數位典藏的成果提供了很好的資料蒐集與整理協助;數位人文的脈絡呈現,給予我們分析眾多資料間的關連,而數位人文的視覺化呈現則帶給研究者便利觀察巨量資料的鳥瞰視角。

 

圖二:在人文研究歷程中數位人文扮演著協助研究者分析與觀察的角色[4]

 

 

數位人文與個別使用者導向

 

脈絡分析系統固然帶來了數位人文研究的突破,在後來建置的許多資料庫中也都加入了類似的後分類功能來連結典藏資料的脈絡關連。但是,大部分資料庫的建置多半依循著典藏機構的研究需要而設置,隨著典藏品類別的不同而有著自己的一套資料庫使用邏輯。書籍有書籍的查找思維、照片有照片的搜尋方式、到了繪畫為主題的資料庫又必須改成繪畫資料庫的思考途徑。也因此,數位典藏時期的資料庫建置重視的是典藏單位的研究需要,所以,一旦資料類型轉變之後,使用者又得要重新去適應一套新的使用邏輯。儘管在數位典藏計畫進行期間也曾經倡議建立一個「聯合目錄」來進行所有資源的總查找,但是面對不同的後設資料(metadata)需求,必須先將跨資料庫的不同欄位進行相互的對應,但是這樣的目標並不容易達成,所以最終還是只能在幾個共通的欄位中進行查找,到頭來使用者又被淹沒在眾多的資料當中。

之所以會面臨到這個困境,主要還是因為數位典藏時期的資料庫建置並不是為了個人的研究需求而設計的,因此可能顧及了典型的使用者需求,但是當個別的研究者有其研究需要時,一個個資料豐沛的資料庫,猶如一座座彼此獨立、涇渭分明又無法互通的穀倉(silos),猶如企業管理常提到的「穀倉效應」(Silo Effect),各自發展著自己的系統而無法整合,這也就是「數位人文平臺」產生的背景。

大家應該都背過北朝民歌〈木蘭辭〉吧?當木蘭「東市買駿馬,西市買鞍韉。南市買轡頭,北市買長鞭󠄀」的時候,讀者可能都有一個疑問,為什麼她不在一個地方買就好,還得四方走透透才能買齊從軍的裝備。數位時代的人文研究其實就是面臨木蘭的困境,研究資料可能來自於不同的資料庫、檔案館、二手資料的摘抄,或是個人田野調查的照片與筆記。而這些來自東西南北市的研究素材,它們各有各的檔案格式,要整理起來其實並不容易。當然,我們大可將這些資料通通存在自己的硬碟裡,但是就像一想到要整理雲端相簿就發懶一樣,資料的龐雜讓我們無從處理,更遑論要利用這些資料來進行研究工作了。

無論是傳統資料庫或是脈絡分析系統,通常都是由一個或多個機構委託資訊專家進行系統的架設,而受限於建置的成本,也很難獨立由個人來完成。因此也有不少論者認為想要從事數位人文研究,就得先去申請一個研究計畫,再用研究計畫的經費聘請資訊專家協助建置系統或是編寫演算法。而這樣的關係,往往在人文研究者與資訊專家間形成了一種不對等的互動關係,就像圖三一樣。

 

圖三:人文研究者仰賴資訊專家協助資料庫建置造成關係上的不對等

 

更麻煩的是,一旦計畫結束、經費核銷完畢,建置好的成果就成了封閉型的資料庫,使用者想要增加任何的數據或是後設資料都會是非常困難的事情,更不用說是不同類型系統的整併,我們在類似的案例中最常聽到的就是一句行話:「砍掉重練」。因為很少有資訊專家願意承接前人的系統,對接手的人來說,與其花時間除錯修改,不如重建一個更方便。除此之外,系統的維護也需要經費的挹注,除了大型的研究機構外,獨立的研究計畫缺乏系統維護費用,使得費盡心力建置的資料庫常常隨著作業系統的更新而漸漸出現問題,甚至最後成為「系統孤兒」而無法再使用。最令人難忘的例子就是曾經風靡一時的「Adobe Flash Player」在2020年不再被瀏覽器支援,造成大量以Flash製作的典藏網站無法使用,真的成了未來必須「數位考古」的對象。

 

數位人文平臺與數位人文的未來

 

研究者運用脈絡分析系統進行數位人文分析,這並不代表這些系統上的工具也能用來分析研究者自行蒐集的其他資料;由於數位工具與系統文本過度緊密的結合,導致這些強大的工具無法彈性運用於系統以外的資料。但是,人文研究採取的是「議題導向」而不是「資料導向」,所以無論任何一個單一的資料庫都無法滿足研究的需求[5];加上每個研究者的研究性質各有差異,如果無法將這些性質多樣、格式多元的研究材料進行取用與整合,就無法利用數位工具來進行後續的探勘與分析了。因此,數位人文平臺是希望可以讓人文研究者在沒有資訊專家的協助下,也能具備運用數位工具的能力來針對所蒐集到的研究資料進行「數位加值」,像是將資料進行轉檔、建置成為資料庫結構,並運用平臺上的數位人文工具進行分析、統計、標記、重組後設資料或視覺化的呈現,如此方能節省研究人員大量的時間和精力,同時使資源更加容易使用。

在臺灣,現在已經有幾個致力於開發數位人文平臺的機構。例如,臺灣大學數位人文研究中心的「DocuSky數位人文學術研究平臺」、中央研究院數位文化中心的「數位人文研究平臺」(DASH ),以及法鼓文理學院的「CBETA研究平台」(CBETA RP)。CBETA RP是與「中華電子佛典協會」(CBETA)連結的佛學數位人文平臺,運用 CBETA 豐富的佛典資源,讓使用者可以透過平臺進行佛典詞語的分析並以不同類型的圖表顯示結果。中研院數位人文研究平臺除了串接該院多個文本資料庫外,也可以上載多種格式的文本進行詞彙標記、文字探勘,並可針對這些詞彙進行視覺化的呈現,如:文字雲、關係網絡圖或是地理空間資訊等。

DocuSky則是由臺灣大學數位人文研究中心、資訊工程學系數位典藏與自動推論實驗室規劃,項潔教授主持、杜協昌博士開發的個人化數位人文學術研究平臺。主要的理念是希望在人文研究歷程中參與數位的轉檔與加值、提供使用者自主進行研究材料的整理,並提供使用者將數位資料建置成為個人化的資料庫,是一個以「『個人化服務——自主建庫』為核心內涵的平臺[6]

 

圖四:DocuSky數位人文學術研究平臺提供研究者自行針對研究資料進行數位加值與分析,並建置成為個人化資料庫

 

而要在平臺上使數位資源成為個別使用者的研究素材,這些資源就應該需要建立一個共同的標準,這樣才能夠在不同的數位人文工具之間透過一樣的規範格式來進行數位加值,也才能夠跳脫「穀倉」的限制在不同的工具或平臺上予以分析和運用。所以,一個標準格式的建立成了數位人文平臺建置的基礎工程。以DocuSky為例,它是以xml格式的「DocuXml」編碼為核心,使用者可以運用在平臺上的各式轉換器將不同格式的數位資料轉換成為DocuXml,諸如:純文字的「txt」、表格資料「xlsx」、或是經過標記平臺「MARKUS」標記過的文件,乃至於線上已有的文本資料庫,像是CBETACTEXTKANRIPORISEWikisource等,使用者只需點擊工具即可將需要的文本轉換為DocuXml格式並在DocuSky中建立個人資料庫,然後再運用DocuSky中的數位人文工具進行詞彙探勘、標記、詮釋資料管理與整併、增加詞彙關連分析資訊,甚至可以使用名為DocuGIS的WebGIS工具從文本建立GIS(地理資訊系統)圖層。由於DocuSky承繼了前述「臺灣歷史數位圖書館」的思維,因此對後設資料與標記詞彙的後分類分析,也是讓使用者快速掌握脈絡關係的好幫手。使用者甚至可以利用DocuSky為基底將個人建置的資料庫授權臺灣大學數位人文研究中心公開於世,筆者與彰化師範大學歷史學研究所同學所共同建置的「馬偕日記數位人文資料庫」就是按此模式進行公開的。

 

圖五:筆者與彰師歷史所學生共同建置的「馬偕日記數位人文資料庫」即是以DocuSky為基礎模型所建置的公開資料庫

 

數位典藏的成果,讓原本只是在柑仔店消費的研究者被迫接受大賣場式的資料暴增,而為了面對巨量的研究資料,數位人文研究方法從傳統的檢索策略走向脈絡分析的思維;數位人文平臺的出現,則意味著數位人文研究更進一步由機構走向個人化的發展方向。在今天,以數位人文工具進行人文研究雖說是方興未艾,但相關的研究也都還處於起步與摸索的時期,甚至對於「何謂數位人文」這個命題都還停留在「各自表述」的階段。然而,數位工具與平臺的問世卻是以相當快的速度在向前推進的。猶記得筆者1995年在政大唸歷史系的時候,教授史學導論的彭明輝老師逼著大家用Word 5.0交期末報告,規定上下左右4公分,最小行高19.85pt,各式標題需採用大標、中標、小標、小小標等層級,這些要求讓才剛接觸電腦的我們哀鴻遍野。然而,時至今日,這些Word基本功好像已經成為學者的日常,投稿學術論文的第一關就是格式,只要不按撰稿格式就得重新再來。這些在多年以前被視為「奇技淫巧」的把戲,現在都變成了研究者的必備本領。我們不知道數位工具與平臺在未來是否也會遭逢這樣的轉變?但是可以肯定的是,當我們走進學術資源的大賣場時,數位工具與平臺或許還真的是在這場學術大冒險中不可缺少的神兵利器。

 

 


註解

[1] 洪一梅,〈從數位典藏到數位人文:數位時代人文研究取徑的典範變遷〉(課程教案),發表於「數位南瀛—臺南學數位人文研究的理論與實務」工作坊(台南:台南大學,2019)。

[2] 杜協昌、項潔。「臺灣歷史數位圖書館。」 2009。http://doi.org/10.6681/NTURCDH.DB_THDL/Text

[3] 後分類只是數位人文工具中的其中一種,包括「詞彙探勘」、「地理資訊系統」、「社會關係網絡」等工具都可以協助在巨量的資料中找尋彼此之間的脈絡關係。相關討論可參考:項潔、洪一梅,〈新世紀數位與人文的研究取徑—「國立臺灣大學數位人文研究中心」簡介〉,《漢學研究通訊》第38卷2期(台北:2019.05),頁32-38。

[4] 本圖片由筆者繪製,原始構想來自:項潔,〈檔案與數位人文:數位人文視野下的檔案系統〉,《國史研究通訊》第13期(台北:國史館,2017.12),頁161。

[5] 項潔、洪一梅,〈新世紀數位與人文的研究取徑—「國立臺灣大學數位人文研究中心」簡介〉,頁37。

[6] 洪一梅、曹德啟,〈從DocuSky 談Metadata 在數位人文研究中的設計與運用:以佛教石刻題記為範例材料〉,《數位典藏與數位人文》第5期(台北:2020.04),頁120。


本文採用 創用CC 姓名標示非商業使用禁止改作 3.0 台灣版條款 授權。

歡迎轉載與引用,但不得為商業目的之使用,亦不得修改本文。轉載、引用本文請標示網址與作者,如:

胡其瑞/從柑仔店到大賣場的數位人文大冒險
引自歷史學柑仔店(https://kamatiam.org/從柑仔店到大賣場的數位人文大冒險/)


最後修改日期: 2023-05-05

留言

發表迴響