郭至汶(國立嘉義大學應用歷史學系助理教授)

 

 

2022年11月美國OpenAI公司發表聊天機器人ChatGPT,很快便佔據全球主流媒體版面,一時之間AI成為各大領域關注的焦點。臺灣各界重視人工智慧的發展,關注AI所帶來的機遇與挑戰。歷史學也不例外,今年(2024)的歷史學門主管會議以「AI時代對歷史學研究的挑戰」為題進行研討,便可見歷史學者對此議題的關注。

他山之石,可以攻玉,我們在探討AI對歷史學的影響時,不妨參考一些成功的案例。事實上,早在2022年3月就有一篇文章刊登在權威的科學期刊《自然》(Nature),探究人工智慧在古典歷史研究中的應用—“Restoring and attributing ancient texts using deep neural networks”。[1]這篇文章由兩位學者擔任第一共同作者,分別是資訊科學專業的Yannis Assael、以及古典歷史專業的Thea Sommerschield。他們以帕卡德人文學院(Packard Humanities Institute)所提供的近八萬份古希臘銘文為資料集,利用深度神經網絡訓練出一模型,來預判古希臘銘文中的缺字部分。該團隊以荷馬史詩《奧德賽》的一座島嶼名稱“Ithaca”為此模型命名。

古希臘銘文是研究西方文明史的重要材料,它們是瞭解古代西方思想、語言、文化的關鍵。然而,隨著時間的推移,許多銘文都有破損的情況,這使得原文殘損而不易釋讀。Ithaca模型可用於恢復受損的古希臘文本,根據研究團隊的統計,歷史學家經由Ithaca的輔助,其判讀受損銘文的正確率可由25%提升至72%,大幅提高歷史學者對文本的掌握度。除此之外,Ithaca還提供銘文的寫定時間、所屬地理位置的判斷,為研究者提供重要的時空背景資訊。這項研究的問世,為人工智慧如何影響歷史學提供了絕佳的範例。是故,本文將以此為基礎,探討AI可以為歷史學做什麼、AI的工具樣態、以及歷史學者可以從何處著手等問題。

 

圖1 記錄雅典衛城法令的古希臘銘文
圖片出處:Nature官方網站
 

 

三個要件

 

AI可以為歷史學者解決過去不易處理的問題,但需要滿足三個要件。首先,是要有一個明確的歷史學課題。研究的課題越清楚,AI成功解決的可能性就越高;研究的課題越難處理,AI與歷史學擦出的火花就越燦爛。以Ithaca為例,透過這項工具的開發,研究團隊解決了一個古希臘歷史中的難題:一組使用三欄西格瑪日期書寫慣例(Three-bar sigma dating convention)銘文的寫定年代為何?這組銘文寫定於公元前5世紀,這個時間正好是雅典文化的輝煌時期,雅典帝國也出現於此時。這組銘文涉及政治法令,關係到歷史學家對於雅典帝國的認識,因此判斷它們的寫定年代便成為瞭解雅典帝國的關鍵。Ithaca對這組銘文的年代判定是公元前421年,正好與學者最近提出的新論點不謀而合。

事實上,利用特定工具解決不易處理的歷史學問題也適用在其它類型的研究。與Ithaca的問世同時,另一份權威期刊《科學》(Science)也刊登了一篇歷史學研究的文章—“Forgotten books: The application of unseen species models to the survival of culture”。[2]這篇文章透過生態統計的方法探討了一個歷史學者所關心的問題:中世紀歐洲有多少的書籍焚毀於天災與戰亂?這個團隊利用生態統計模型對現存的中世紀書籍進行評估,認為有91%的書籍遭到焚毀,僅9%的書籍留存至今。在這項研究中,他們還發現了一個有趣的現象:島嶼地區(例如冰島、愛爾蘭)比起大陸地區(例如法國)有更低的損毀率。也就是說,歐洲大陸的書籍相較於島嶼地區更容易因為戰亂與天災而遭到波及,這個現象也與生態學上島嶼有較高的物種多樣性的觀點一致。值得注意的是,這項研究所使用的生態統計模型是來自臺灣的統計學家—趙蓮菊(國立清華大學統計學研究所教授),她所開發的統計模型Chao1幫助這個團隊完成中世紀歐洲書籍的研究。

 

圖2 戰火中倖存的書籍
圖片出處:
Forgotten Books計畫網站

 

AI與歷史學擦出火花的第二個要件是:要有足夠的資料提供機器訓練。Ithaca是由78,608份銘文資料所訓練出來的語言模型,這些資料選自帕卡德人文學院所整理的178,551份銘文資料。資訊科學界有一句名言:“Garbage in, garbage out”,提供給機器訓練之前要先過濾、汰除無效的資料,否則會嚴重影響研究的結果。研究團隊從原始資料中刪除了9,441份重複的文本,並過濾掉長度在50個字元以下的銘文。此外,由於Ithaca需要進行銘文寫定時間與地點的預判,每份原始資料還需要包含寫定時間與地點的資訊,因此再扣除無法判定時間、地點的銘文,最後得到近八萬份的有效資料。與原始資料相比,一共刪去了將近56%的內容,這近八萬份銘文也成為成功訓練Ithaca的基石。

訓練資料的大小會與人工智慧答題的準確度相關聯。以ChatGPT的模型GPT為例,GPT-2的訓練資料量是40GB,GPT-3提高至580GB,訓練資料量的大幅提高使得GPT-3比GPT-2呈現更好的效能。然而,以個別的研究團隊而論,研究課題的資料不可能無窮無盡,總有一個上限。上限因資料的種類而異,但下限需要多少並沒有標準答案。以Ithaca為例,研究團隊一共準備了近八萬份資料提供訓練,這個數字或許可以做為參考。

至於第三個要件,則是要有合適的工具。與前兩個條件相比,合適工具較受到時代限制。眾所周知,科技不斷進步,新的技術總會後來居上。以Ithaca為例,它使用的是Transformer,一種採用自注意力機制(Self-attention mechanism)的深度學習架構(Deep learning architecture)。在Ithaca問世之前,研究團隊曾開發一個同樣針對古希臘銘文進行缺字補遺的語言模型“Pythia”,它使用的是循環神經網絡(Recurrent neural network, RNN)架構。[3]與RNN相比,Transformer在處理時序資料(Seq2seq data)有著更好的效果,而人類的語言、文字皆屬時序資料。Ithaca比Pythia在執行古希臘銘文補遺的效果更好,主要原因是Transformer的效能比RNN更佳;與RNN相比,Transformer更能顧及文本的脈絡。

試舉一例說明何謂顧及文本的脈絡。我們都曉得語言符號本身具有歧異性,並不是每個符號都代表相同的意思。例如server這個字至少就有「伺服器」、「服務生」兩種意思,究竟server應指向哪個意思必須看句子的上下文而定。“The server crashed again(伺服器又壞了)”這句話因為有下文crashed提供判斷,故能認定server是「伺服器」;同理,“Four servers in the restaurant(餐廳有四位服務生)”,由於句末有restaurant,故能將server判定為「服務生」。自注意力機制更能根據上下文判斷字詞的正確指涉,這是Transformer有較好效能的原因。根據Ithaca研究團隊的統計,Ithaca判讀缺漏銘文的正確率為73.7%,與之相比,Pythia的正確率為53%。之所以如此,除了Ithaca所使用的訓練資料量比Pythia更大之外,另一個原因就是Ithaca所使用的自注意力機制神經網絡比Pythia的循環神經網絡效果更佳。

滿足這三個要件,AI便有機會為歷史學者解決過去不易處理的課題。但人工智慧並不是萬能,它仍是一項持續發展中的技術,我們不能期待AI可以解決歷史研究中的所有問題。雖說如此,如果能認識這項技術目前已經發展出的樣態,則會比較容易瞭解人工智慧在歷史研究中的可能應用。

 

做為工具的AI

 

讀者可能會好奇:為什麼有些領域屬於人工智慧範疇、有些卻不是?究竟AI的特徵是什麼?簡而言之,人工智慧有兩大特徵,一是使用類神經網絡(Artificial neural network)、二是機器學習。類神經網絡模仿人腦的神經元結構,使機器擁有接近人類的思維框架,機器學習則仰賴大量資料使機器能自主尋找規則,而後再經由人工校正以符合特定的規範。這種模式非常類似兒童的母語學習歷程,同樣是透過大量的資訊輸入,讓兒童自行摸索說話規則,而後再由長者進行校正,汰除錯誤的內容。前文提及的RNN、Transformer均使用類神經網絡,Pythia、Ithaca則是以此為基礎並經由大量資料訓練而成的模型,故它們可歸類為AI的範疇。

目前(2024)人工智慧的發展,Transformer仍是重要的核心技術之一,廣為人知的ChatGPT就是利用Transformer建製而成的大型語言模型(Large language model)。ChatGPT的T指的便是Transformer。要瞭解做為工具的AI有哪些內容,我們不仿從Transformer可提供的具體應用開始。底下將以Hugging Face所整理的Transformer任務指引(Task guides)進行說明。

 

圖3 Hugging Face使用的圖文標籤
圖片出處:
Hugging Face官方網站

 

Hugging Face是一間致力於推廣Transformer應用的公司,根據該公司所做的Transformer任務分類,第一項為自然語言處理(Natural language processing),內容包括:文本分類(Text classification)、字詞分類(Token classification)、問答(Question answering)、因果語言模型(Causal language modeling)、遮蔽語言模型(Masked language modeling)、翻譯(Translation)、摘要(Summarization)、以及多重選擇(Multiple choice)等,這些項目有不少能應用於歷史研究中。比方說「遮蔽語言模型」,亦即用於預測被遮蔽的字詞,前文所提及的Ithaca即屬於此類。這類模型的任務好比克漏字測驗(Missing word tests),Ithaca處理的古希臘銘文缺字如同克漏字測驗當中的填空部分,當研究者提供大量、正確的答案讓機器練習,機器解答克漏字測驗的正確率就會提高,因此能預判銘文所缺的部分應當為何。

「翻譯」是另一個能應用於歷史研究的自然語言處理項目。事實上,Transformer當初被Google公司發表時就是以翻譯為例進行說明。[4]目前機器翻譯領域已相當成熟,世界各地常用語的翻譯模型都已建置完成。相較於常用語言,歷史學家更關心「文獻語言」的翻譯,尤其是那些已經不再使用的古代語文。試舉美索不達米亞的蘇美語為例,公元前3000年蘇美人使用楔形文字留下許多關於當地神話、寺廟活動、商業、貿易的紀錄,這是我們瞭解古代文明的重要文獻。部分的蘇美文已被學者翻譯成英文,然而,還有大量的行政、法律文書尚未有翻譯本。為此,便有學者使用Transformer對蘇美文的翻譯進行研究,提供專屬的翻譯模型。[5]

除了處理語言文字之外,Transformer還能處理聲音、圖像、動態影像的資料,執行音訊分類(Audio classification)、圖像分類(Image classification)、動態影像分類(Video classification)等任務,這些任務也能運用於歷史研究中。例如,有一研究團隊利用TimeSformer—基於Transformer建置而成的動態影像分類架構,破解已經碳化的莎草紙卷軸上的古希臘文。這些碳化卷軸來自義大利的赫庫蘭尼姆(Herculaneum)古城,兩千年前由於維蘇威(Vesuvius)火山爆發而被掩埋,直到十八世紀才被考古學家發現。由於莎草紙卷軸已經碳化,必須靠電腦斷層掃描才能讀取卷軸內的影像。研究團隊運用TimeSformer破譯這些影像中的文字,為歷史學家解讀赫庫蘭尼姆卷軸成功跨出一大步。[6]

隨著時代的演進,未來肯定會出現比Transformer更好的架構,取其而代之。但至今Transformer仍是自然語言、圖像、影音處理所仰賴的重要架構,尚未發生「典範轉移」的現象。Transformer在自然語言、圖像處理方面已有一定的效果,研究者若要思考人工智慧在歷史研究中的應用,不妨可從此著手。

 

編寫程式的歷史學家

 

瀏覽過Hugging Face網頁Transformer任務指引的讀者可能會發現,它所提供的操作方法都要透過「程式語言」的編寫。這其實是尚未商品化的數位工具的展示常態,這些工具以程式碼的型態公開在各大開源網站,提供使用者運用。現今在AI的輔助之下,程式語言的學習已較過去容易許多,學習方式也有很大幅度的改變,未來的程式設計只會更加便捷。事實上,有不少歐美漢學家精熟於程式語言的編寫,例如安克強(Christian Henriot)、德龍(Donald Sturgeon)、李友仁(Paul Vierthaler)、康森傑(Jeffrey Tharsen)等;歐美歷史學界甚至有一個學術社群專門推廣適合歷史學者的程式設計,還發行了一份名為“Programming Historian”的線上刊物。歷史學家如果想接觸AI工具,也可以從這份刊物開始。

 

圖4 提供四種語言版本的Programming Historian
圖片出處:
Programming Historian官方網站

 

Programming Historian是個有同行評審的數位歷史學方法論的開放期刊,刊登各種用於歷史研究的數位工具,介紹其技術內容、操作方法、以及研究範例。期刊中的每篇文章都可視為一個「教程」,歷史學家可從教程的指引學習新的數位工具。這份期刊於2012年推出,最初僅有英文版,而後於2016、2019、2021年陸續增加西班牙文、法文、與葡萄牙文版的教程。Programming Historian網站上有清楚的工具分類,使用者可根據有興趣的工具類別(例如Python、R)進行搜尋。另外,針對每份教程的難易程度,網站上也有標示。由於期刊的投稿者許多是歷史學家,故其內容較適用於歷史研究。順帶一提,Programming Historian的編輯團隊很樂於協助歷史學家向其投稿文章。2023年的數位人文大會(ADHO Digital Humanities Conference)在奧地利舉辦,其中有一場工作坊是Programming Historian的編輯群介紹該期刊的緣起、發展方向與運作模式。編輯群會後還與有興趣投稿的歷史學者餐敘,解答相關的疑問。這場工作坊我正好有參與,對於他們的用心與開放態度,留下深刻的印象。

時至今日(2024),Programming Historian已經累積超過一百篇文章,亦即提供了超過一百種的教程與數位工具。近年來隨著AI的發展,這份期刊也開始出現涵蓋人工智慧的內容。例如,有一個教程介紹「深度學習的圖像分類(Deep learning for image classification)」,並將其應用於報刊廣告的研究之中。[7]在這個教程中,作者介紹了機器學習與深度學習,且提供詳細的模型建置方式與操作流程。透過這項AI工具,研究者可將報刊的廣告過濾為有插圖與無插圖(純文字)兩大類,針對有插圖的廣告,可再進一步區分為人像、建築、自然景觀、與動物等類。由此,便可針對分類後的報刊廣告進行研究。

目前Programming Historian當中關於AI工具的介紹還不是很多,一些重要的主題,像是如何運用各種開源的大型語言模型於歷史研究,未來應會陸續推出。對歷史學來說,人工智慧的發展提供了新工具,透過這些AI工具的使用,歷史學家能解決過去不易處理的課題。如同研究團隊所展示的,歷史學者經由Ithaca的輔助,其判讀銘文的正確率由25%提升至72%;透過TimeSformer的應用,歷史學家可以開始解讀赫庫蘭尼姆卷軸的內容。AI能與歷史學擦出火花、可以幫助歷史學者進行研究,就如同它協助其它領域向前邁進一樣。

 

 


註腳:

[1] Assael, Y., Sommerschield, T., Shillingford, B. et al. Restoring and attributing ancient texts using deep neural networks. Nature 603, 280–283 (2022).

[2] Mike Kestemont et al. Forgotten books: The application of unseen species models to the survival of culture. Science 375, 765–769 (2022).

[3] Assael, Y., Sommerschield, T. & Prag, J. Restoring ancient text using deep learning: a case study on Greek epigraphy. In Proc. 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 6368–6375 (Association for Computational Linguistics, 2019).

[4] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. Advances in Neural Information Processing Systems, 5998–6008 (2017).

[5] Punia, R. N., Schenk, N., Chiarcos, C. & Pagé-Perron, É. Towards the first machine translation system for Sumerian transliterations. In Proc. 28th International Conference on Computational Linguistics (COLING) 3454–3460 (International Committee on Computational Linguistics, 2020).

[6] 該研究團隊為參與2023年「維蘇威火山挑戰賽(Vesuvius Challenge)」的首獎得主,相關資訊請參考:https://scrollprize.org/。另外,Nature也有相關的報導:https://www.nature.com/articles/d41586-023-03212-1

[7] Daniel van Strien, Kaspar Beelen, Melvin Wevers, Thomas Smits, and Katherine McDonough, “Computer Vision for the Humanities: An Introduction to Deep Learning for Image Classification,” Programming Historian (2022).


本文採用 創用CC 姓名標示非商業使用禁止改作 3.0 台灣版條款 授權。

歡迎轉載與引用,但不得為商業目的之使用,亦不得修改本文。轉載、引用本文請標示網址與作者,如:

郭至汶/當AI遇到歷史學
引自歷史學柑仔店(https://kamatiam.org/當AI遇到歷史學/
)


最後修改日期: 2024-06-27

留言

發表迴響