每當我們談及數據時,話題總離不開商業或工作應用上,不如今次換個角度,講解如何利用數據幫助我們對文學作品的深入理解。大家有沒有想過,文字本身也是一種數據,在大數據的領域中,所有文字、語音或圖象訊息均可歸類為 “非結構化數據” (unstructured data)。運用大數據模型進行分析,能夠揭示出新的見解。在文學研究中,數據的應用不僅增強了我們的閱讀體驗,還促進了對經典作品的理解。
由於我從小就熱愛東洋文化,中學時期對日本文學作品特別情有獨鍾,尤以夏目漱石為我最喜愛的作家。或許有些讀者對這位作家的名字不甚熟悉,但我相信如果你是日本旅遊的常客的話,你對他的肖像可能感覺並不陌生。何解?這是因為日本政府為紀念夏目漱石這位文學巨匠,自1984年(昭和59年)11月1日至2007年(平成19年)4月2日期間,將其肖像印刷於一千日圓的鈔票上。而我作為他的粉絲,當然也收藏了一張以作紀念。
就以夏目漱石的其中一部經典小說《我是貓》(日語:吾輩は猫である)為例,借助有趣的數據和分析角度,嘗試深入理解這部文學作品。首先我為大家簡單介紹一下,《我是貓》是夏目老師於1905年出版的小說,這部作品被認為是日本文學中的經典之一。故事以透過一隻貓的視角為題,觀察人類的生活與社會的各種現象,展現了豐富的人性和社會批判。
透過大數據模型去研究文學作品,可以從以下幾方面分析找出新亮點:
- 詞頻分析
利用關鍵詞作統計,分析文中經常出現的詞彙,例如”貓”、“人”、“孤獨”、“觀察”等。這些詞的出現頻率可以反映出作品的核心主題。高比例的“人”詞彙可能表明夏目對人類社會的批評或反思,而“貓”的頻繁出現則強調了貓的獨特視角和思維。另外透過詞彙變化,隨著故事情節的發展,特定詞彙的出現頻率是否有所變化,這可以揭示角色心理的變化或情節的轉折。
- 角色分析
利用角色出現的頻率,統計各個角色在小說中的出現次數,了解哪些角色的重要性,以及他們的互動模式。透過分析角色在不同情況下表達的情感,了解他們的情感傾向。例如貓對人類的看法是積極還是消極,這樣可以幫助讀者對角色的理解。
- 文本結構分析
利用章節長度統計,分析各章節的字數,了解作者在不同情節中所花費的篇幅,有助反映出重要情節的強調。透過分析語句長度,測量句子的長度和結構,了解漱石的寫作風格和語言特點。
掌握這些數據不僅能夠幫助讀者更深入地理解《我是貓》這部作品,還能增加閱讀文學的趣味性,讓作品的分析變得更為豐富和立體,促進讀者之間的交流。
數據在我們日常生活中已廣泛地應用,掌握數據素養有助提高我們的生活質素及工作效率。下次我會尋找一些有趣的數據主題,再與大家分享和學習。
撰文︰郭德偉(Andy Kwok) 數據及人工智能素養協會 (DALA) 資深創會會員兼 OpenCertHub 創辦人及行政總裁





