計畫簡介       最近閱讀日期:2017年9月24號下晡時

一、過去
         台灣文學之發展,分兩線並行,其一乃經由口耳相傳的民間文學,另一則屬採用文字書寫的作家文學。就作家文學而言,由於台灣迭經不同政權的統治,其文字書寫遂呈現多元並存的現象;以漢人為例,既有傳統古典的漢詩漢文系統,亦有新文學的日文系統、中國白話文(華語)系統,更有台灣特有的福佬語與客語系統。 在這多音交響的文字書寫中,無論創作與研究,華語與日語書寫在不同的歷史階段雖然分別扮演壓迫性的強勢角色,遂使原應居於主流地位的母語文學被迫邊緣化,然而即使在這既不公平也不友善的歷史長流裡,母語文學仍以伏流的方式默默地累積數量極其可觀的作品,例如篇幅浩瀚的歌仔冊與白話字文學資料。前者基本上採漢字書寫,而後者則使用俗稱的羅馬字進行書寫。這兩類母語文學,近年並已受到學界的高度重視,分別出現多本博碩士論文的撰述,肯定他們在台灣文學史上的重要地位。
         台灣文學的全面研究真正進入嚴謹的學術範疇,是九○年代以後的事,時間可謂甚晚,浩如煙海的資料亟待有心的台灣文學同道戮力以赴,早日挖掘出土,特別是白話字資料,更是需要及早投入人力,作深入的蒐集與整理,其理由可謂多端,底下僅擇其要略述四點:
  1. 八、九○年代以來,以白話字配合漢字(俗稱漢羅)的母語文學創作蔚為大觀,且自2001年九月開始,九年一貫教育又明定母語為必修課程,這些課程的設計與編撰均有賴白話字的協助,足見不管教育或寫作,在在都與白話字有極為重要的關聯,因此,社會各界對白話字書寫傳統,亦即白話字的歷史文獻,尤其是文學作品,自是需要孔急,必須立即著手蒐集、整理,以供參考研究。
  2. 直到目前為止,白話字一直未進入教育體系,所以台灣文學界能毫無滯礙地閱讀這批資料的人其實已相當有限,而願意投注全力加以研究整理的學者更是鳳毛麟角,長此以往,這批重要的資料便可能因長期乏人問津而真的埋沒無聞,這實在是台灣文學的一大損失,吾人豈忍令這種情形發生!
  3. 這批白話字文學資料雖然也有以書冊形式刊行者,但混雜在雜誌、報刊、各類出版品之中者極多,甚至還有以手稿的形式存在於私人手中者,必須耐心挖掘、細心爬梳、嚴謹篩選,才能成為可用的文本,其蒐集與整理的困難度相對較高,因此必須早日訓練年輕一輩的學子,培養專業的研究群,為台灣文學提供最基礎的服務。
  4. 這批資料除了提供台灣文學界使用之外,由於白話字忠實地記錄台灣一般人的實際口語,遂具有提供語言學界豐富語料的附帶功能;另外,這批資料的內容,涉及社會各層面的生活見證,亦屬極珍貴的社會史料,對於社會學界、歷史學界也具有相當重要的貢獻。在此國家資源短絀之際,白話字文學資料的蒐集整理,乃屬多功能的計畫,非常值得推行。
         因此,國家台灣文學館(以下簡稱本館)委託國立成功大學台灣文學系呂興昌教授執行「台灣白話字文學資料蒐集整理」計畫,執行期間為2001年5月至2004年12月,為期四年;此計畫經過地毯式搜索、鍥而不捨的努力,蒐集到一千餘本的白話字書刊,並將部分有文學性的作品打字建檔。此計畫的專任助理為廖麗雪和彭馨逸,諮詢委員包括鄭良偉、張裕宏、趙順文、戴正德、林清祥、廖瑞銘、張學謙楊允言蔣為文、鄭詩宗等人,協助整理資料者包括詹敏敏、余玉娥、楊允言、邱富理、高英男、郭文卿、李勤岸、李鑾英、林俊育、羅富農、吳玉祥、陳憲國、陳曉峰、陳廷宣。
         緊接著,本館又委託國立台灣大學資訊工程系高成炎教授執行「台語文數位典藏資料庫(第一階段)──台語文全羅文字語音輸出系統」,執行期間為2004年9月至2005年12月。高成炎教授在2003年4月至2004年3月接受文建會委託執行「台語文文化推廣網站建構計畫」,此計畫為文建會計畫的延伸計畫,此計畫主要目的是將全羅馬字的台語文資料轉成聲音,透過網路放送出來。除了資料的整理以外,技術方面,利用台文華文線上辭典查出台語的華語對應詞,再透過中研院詞庫小組的辭典查出這個語詞的詞類標記,經過變調標記演算法將這個台語文句標記變調註記,從事先錄好的台語音節串接成整句的mp3格式聲音檔,透過web傳送聲音,讓使用者可以邊讀白話字資料邊聽聲音。這個計畫主要的核心技術是變調註記,目前的演算法,變調正確率大概是90%。此計畫的共同計畫主持人為楊允言和江永進,計畫主要助理為劉杰岳李盛安、楊嘉芬。
二、現在
         本館委託大漢技術學院資訊工程系楊允言助理教授執行「台語文數位典藏資料庫(第二階段)──台語文學線上博物館」,本計畫承接前述兩計畫的成果,將已經打字建檔且取得授權的資料上網,也繼續將原來計畫中尚未打字建檔的文學資料找出來、打字建檔,用全羅及漢羅對照的方式呈現,並且透過網路助讀器發出聲音。 除此外,系統將提供查詢介面,提供使用者利用作者、文類、文章名稱、時代、年代等資訊做查詢。
         另外,為了顧及部分民眾對於台語白話字感到生疏,本計畫邀請幾位專家撰寫白話字的背景知識,包括歷史文學教學網路、影像等各方面的介紹。
         本計畫將呂興昌教授所完成的計畫中,已經打字建檔的漢羅/全羅台語文各224萬音節資料再進一步校對,並持續完成34萬音節的文學資料打字建檔、校對。因此,網站上共呈現了各258萬音節的台語文學資料。258萬音節有多少?如果是漢羅台語文,印成25開的書本,大概有七千多頁;如果是全羅台語文,大概超過一萬頁!
         此外,本計畫也開發漢羅/全羅對照台語文的線上校對系統、全羅台語文的文本統計系統(計算文本的段落、句、語詞、音節的數量)、數字調號轉圖形顯示系統羅馬字拼字檢查系統。這些也都是台語文語料整理重要且基礎的工具程式。
         本網站即為計畫成果。本計畫的共同計畫主持人為國立台東大學華語文系副教授張學謙,協同計畫主持人為國立台灣大學資訊工程系教授高成炎,顧問為國立成功大學台灣文學系教授呂興昌,計畫兼任助理為劉杰岳陳德樺王寶漣、廖麗雪,擔任本計畫的評審委員,並且給予許多寶貴建議者,包括國立成功大學資訊工程系教授吳宗憲、中山醫學大學台灣語文學系副教授廖瑞銘、國立台灣師範大學台文所助理教授李勤岸、國立成功大學台灣文學系助理教授蔣為文、真理大學台灣語言學系助理教授黃輝爵、真理大學台灣語言學系助理教授林裕凱。
         對於本計畫,如果您有任何的批評與建議,也歡迎您來信指教。本館擁有檔案所有權,如果因研究所需,欲取得資料,請洽本館。
三、展望
         我們希望目前的成果,能夠提供良好的研究素材,促進相關的研究進展。
         目前的架構可以繼續容納相關的文學作品,希望能夠持續整理相關的重要台語文學資料。
         整理出來的成果,其實也是一份台語文學語料庫,若能進一步做語法、語意等標記,當能發揮更大的用途,可以考慮放到美國賓州大學的LDC(Linguistic Data Consortium,語言資料中心),讓台語文資料與世界各語文資料平起平坐,提升台語文的重要性及國際能見度。 此外,這些珍貴文獻的數位化也是非常重要的。我們希望建立「台語文記憶」,把這些文獻的影像掃瞄建檔,之後若有機會,再逐步打字建檔,讓更多人能夠使用這些資源。