數據與文學

每當我們談及數據時，話題總離不開商業或工作應用上，不如今次換個角度，講解如何利用數據幫助我們對文學作品的深入理解。大家有沒有想過，文字本身也是一種數據，在大數據的領域中，所有文字、語音或圖象訊息均可歸類為 “非結構化數據” (unstructured data)。運用大數據模型進行分析，能夠揭示出新的見解。在文學研究中，數據的應用不僅增強了我們的閱讀體驗，還促進了對經典作品的理解。

由於我從小就熱愛東洋文化，中學時期對日本文學作品特別情有獨鍾，尤以夏目漱石為我最喜愛的作家。或許有些讀者對這位作家的名字不甚熟悉，但我相信如果你是日本旅遊的常客的話，你對他的肖像可能感覺並不陌生。何解？這是因為日本政府為紀念夏目漱石這位文學巨匠，自1984年（昭和59年）11月1日至2007年（平成19年）4月2日期間，將其肖像印刷於一千日圓的鈔票上。而我作為他的粉絲，當然也收藏了一張以作紀念。

就以夏目漱石的其中一部經典小說《我是貓》（日語：吾輩は猫である）為例，借助有趣的數據和分析角度，嘗試深入理解這部文學作品。首先我為大家簡單介紹一下，《我是貓》是夏目老師於1905年出版的小說，這部作品被認為是日本文學中的經典之一。故事以透過一隻貓的視角為題，觀察人類的生活與社會的各種現象，展現了豐富的人性和社會批判。

透過大數據模型去研究文學作品，可以從以下幾方面分析找出新亮點:

詞頻分析

利用關鍵詞作統計，分析文中經常出現的詞彙，例如”貓”、“人”、“孤獨”、“觀察”等。這些詞的出現頻率可以反映出作品的核心主題。高比例的“人”詞彙可能表明夏目對人類社會的批評或反思，而“貓”的頻繁出現則強調了貓的獨特視角和思維。另外透過詞彙變化，隨著故事情節的發展，特定詞彙的出現頻率是否有所變化，這可以揭示角色心理的變化或情節的轉折。