曾金金. 1997. 台灣文學出版物收集、目錄、選讀編輯計畫結案報告說明, pp45-72. 行 政院文化建設委員會.

台語斷詞原則討論

目錄:

5.1詞的定義

5.2分詞的基本原則

5.3分詞的輔助原則

5.4 範例與說明

5.4.1定量式

5.4.2重疊式的切分原則

5.4.3詞綴、接頭/接尾詞的切分原則

5.4.4述補式的切分原則

5.4.5動詞 +「做」

5.4.6動詞 +

5.4.7「會/袂」+ 動詞

5.4.8「有/無」+ 動詞/名詞

5.4.9ê」的切分

5.4.10a」的切分

5.4.11否定式

5.4.12合併形式

5.4.13動詞後修飾語

5.4.14專有名稱

5.4.15成語諺語

參考書目

 

五﹒台語斷詞原則討論

5.1詞的定義

訂定分詞標準的首要工作是定義切分字串的基本單位,也就是明白界定本研究之台語詞庫中,所謂的「詞」是什麼?關於這點,中央研究院詞庫小組於1996年出版的「搜文解字」中曾對華語「詞」的定義和分詞標準與原則詳加討論。以下我們的討論即以「搜」文為主要架構基礎,再依據台語結構之獨特性加以修改,以求得到合理而實用的分詞標準。

我們沿襲「搜」文的見解,定義「一個具有獨立意義,且扮演特定語法功能的字串應視為一個詞。」根據這個定義,動詞、名詞、副詞、定詞、量詞、介詞、方位詞、連接詞、語助詞、感歎詞皆可依類一一斷開。這些基本詞類中,前五者,尤其是動詞和名詞的判定較複雜。原因有三:一、動詞和名詞皆另有詞組形式,便有區分複合詞和詞組的問題。另外副詞、定詞、和量詞也有類似的困擾。二、動詞、名詞是個開放性詞集,隨時都有新詞產生。三、一些結構複雜的字串,像是中插結構「食有飽看會著」或合併結構「上下班縣市長」,也需要細則來規範其分合標準。

因此除了定義外,必須另有原則規範分詞。我們將沿襲中研院的研究結果所提出的兩條基本原則以及六條輔助原則,以求在語料庫的斷詞部份能達到符合語感、分析一致、並盡量和語言學專業要求相吻合的水準。

5.2分詞的基本原則

基本原則是從語意與語法兩方面來說明分詞單位,俾便在語言學理論上找到分詞依據,使分詞標準有執行的依據。

(1)語意無法由組合成分直接相加而得到之字串應該合為一分詞單位。合併原則

這是一條很重要的分詞細則,凡是組合後意義起變化的字串皆應視為一個詞。試舉一例:吊鼎(意指沒米下炊,亦喻失業。)依此原則必須視為一個詞,但是「吊衫」仍可保持斷開,視為動詞加賓語之動詞組。此原則的適用面很廣。即便是一個字串表面有明顯的詞組甚至句子的構造,但凡意義失去組合性時亦應合為一個詞。因此下列字串皆應視為一個分詞單位,例如:心狂火熱(成語),吊鼎食醋(動詞組),三不五時(副詞片語),十二萬分(定量結構),五月(定名結構,不是五個月)、三樓(定名結構,不是三層樓),嗽嗽(重疊結構,表輕微)、坐坐一下(重疊結構,含短暫貌)、烏烏費氣費氣(重疊結構,表程度減弱)、烏烏烏費費氣氣(重疊結構,表程度加強)、「整理理」咧 (重疊結構,表速成)…等。[1]

合併結構,像是「上下課、高中職、中山南北路」,依此原則也應該合併為一個詞。因為該字串的意義並非「」加「下課」、「高中」加「」,「中山南」加「北路」,而是「上課」加「下課」、「高中」加「高職」、「中山南路」加「中山北路」,可見合併結構的意義不等於組合意義,故應合併。唯帶專名之合併詞,像是「台北市長」(「台北市」加「市長」)、「新竹縣政府」(「新竹縣」加「縣政府」),因切分後前方的專名和後方的名詞皆可獨用,意義可以組合成,故仍予以切分為「台北」和「市長」,「新竹」和「縣政府」。

(2) 詞類無法由組合成分直接得到,應該合為一分詞單位。合併原則

此原則分兩部份:一、該字串之語法功能不符合組合結果。例如:動作及物動詞「看、食、聽」前面加「」構成「好看、好食、好聽」,不能再加賓語,成為不及物,且能被程度副詞「真、足、不止」修飾,與原來的語法特性不同,故可視為一個分詞成分;再如:名詞前面加形容性動詞,可以構成「大力、細力」這類副詞,或「好心、歹嘴、厚蚊(báng)」等形容性動詞。二、該字串之內部結構不符合語法規律。例如:「彼隻狗袂曉泅水」中「泅水」指的是「t„水底泅」,但「」是不及物動詞,不可直接後接名詞。因此,「泅水」不符合動詞「」的語法規律,故應合併之。

 

5.3分詞的輔助原則

除了基本的理論性原則外,我們也必須有操作性原則,視分詞的實際狀況設定分合的依據。相對於基本原則的不變性,輔助原則富於彈性,可能依時代的演變或視情況的需要而有所增減。

(1) 有明顯分隔標記應該切分之。 切分原則

一個詞可能被中插了別的成分,或是一個詞,或是一個標點符號。在此情況下,不得不將之斷開。例子有:

動賓中插:讀 一 本 冊

述補中插:食 無 飽、看 有 著、看 袂(bë) 、算清、看卡 真、 算 無啥乜 會 [2]

合併中插:a.動詞:上、下課

b.名詞:縣、市長,高中、職,中山南、北路

c.定量:本 (二) 月,七、八月,1995、6年,三 到 四月

 

數詞及表時間、地點或編號之詞雖含有標點符號,但是我們認為這些符號不具標點符號功能,所以不算是中插,故下列情形仍維持合併。

七、五00,三.六,2/28(二月二八)3:30(三點三十分)

二0∼一號(門牌號碼)AB-8888(車牌號碼)

(2) 附著語素盡量和前後詞合為一個分詞單位。 合併原則

附著語素指的是有獨立意義卻無法獨立扮演一個語法功能的語素。例如:「」可分為兩個語素:一﹒表「人或動物的頭部」,是自由語素,為名詞;二﹒表「方位、事物的外觀、狀態、份量、程度、事件等等」,是附著語素,多半出現在方位詞、動詞、名詞等語素之後,例如:「頂頭、看頭、力頭、秤頭、齣頭」等。在後者語意中,「」雖有某些特定意義,但卻無法獨立使用,扮演某種語法功能,故應接在其他語素之後來構成語詞。[3]

台語中有許多類似的詞和「」一樣,具有詞綴特色,常用來和其他語素結合,具有一致的意義,並往往決定結合成的語詞詞類。例如,「」:「音樂家、文學家」,「」:「演員、隊員、技術員」,「」:「台灣人、外省人、外國人」,「」:「死者、患者」,「」:「教室、實驗室、工作室」,「」:「教官、檢察官、法官」,「」:「癌症、風濕症」,「」:「塗水師、總舖師、拳頭師」,「」: 「數櫃仙、地理仙、鴉片仙」,「」:「囡仔款、老師款、醫生款、大人款」,「」:「汽車、火車、孔明車、交通車」。另外,「」為台語中極為常用的詞綴,如「桌仔、椅仔、刀仔、車仔、囡仔、厝仔、珠仔 」等,基本上是表「小稱」之意。這些詞在詞典中確實收不勝收,若能藉構詞規律,由電腦自動合詞,當可大大減輕詞庫的負擔,並清楚呈現其構詞的過程。然而從電腦處理的角度來看,目前本計劃尚在初步處理詞彙階段,並不容易達成自動合詞的目標,也尚無「構詞層」來處理構詞規律的運作。因此,對此類附著語素,均依合併原則將其與前後語素結合。

除上述衍生或複合過程等屬構詞(morphology)層次的附著語素之外,在台語中亦有一些較似屈折變化的附著語素,主要是用來表示動詞的時貌標記,如表暫行貌的「看覓」、「一下」、「看(一下)」,表起始貌的「起來」,表持續貌的「落去」、「落來」等。這些附著語素的功能屬於句法的範疇,因此,我們將之與前接動詞切分。另外,「ê然常被視但由於它常和各種組結構結合如「時常t„食飯ê人客」、「討論ê」等和一般詞綴的生方式所以我們將「ê」和前後詞一律斷開。

 

(3) 使用頻率高或共現率高的字串盡量視為一個分詞單位。 合併原則

有些字串因為常常一起出現,所以其結合較緊密,較少見中插情形。縱使這些字串完全不符合上述原則,即它們的語意、語法功能未失組合性,也不含附著語素,仍可因此原則合為一個詞。例子有:

動詞:並列結構:出入、輸贏、……

偏正結構:戇想、苦勸、……

動賓結構:改途、講古、罩霧、使目尾、……

名詞:並列結構:錢銀、災厄、塗沙、頭嘴、……

偏正結構:車路、箸嘴、凊汗、粗工、吊鏡、吸鐵、……

副詞:並列結構:攏總、早慢、加減、又閣、猶閣、……

這條原則有兩個難處,在於如何得出使用頻率,以及區分值應該設在何處。這不是個容易解決的問題,在沒有一套可遵循的標準法則時,對於一些字串此原則是否適用就成了見仁見智的情形,因此這條原則只是一條可用原則。

(4) 雙音節結構之偏正式動詞盡量視為一個分詞單位。 合併原則

當一個字串具有動詞之語法功能,若符合雙音節結構,且是偏正結構,即可視為一個分詞單位。因此,在「偷提去kh¢g」「khiä」中的「偷提、khiä」雖然語意、語法功能未失組合性,不含附著語素,仍可依此原則合併之。此原則並不用於動賓式複合動詞。所以「警察烏白掠 人」中「掠人」不會因此原則合併。

(5) 雙音節加單音節之偏正式名詞盡量視為一個分詞單位。 合併原則

有些單音節的名詞本身可獨立成詞,但是常與前面的雙音節成分結合緊密,可視為一分詞單位。例如:「」所構成的成分「糞掃車、交通車、廣告車、砂石車」。從與其他成分結合的觀點來看,這些單音節名詞也可視為接尾詞,與衍生性附著語素並列在接尾詞之列。

(6) 內部結構複雜之詞盡量切分之。 切分原則

這是一條暫行原則。下列結構雖然依前述五條細則是應合為一個詞,但由於合併起來過於冗長,故不予合併。

 

1. 詞組帶接尾詞:台語 斷詞 計劃 書、食品 加工業

2. 動詞帶雙音節結果補語:看 清楚、整理 好勢

3. 專有名詞:

a.專名帶普名:胡 先生、南迴 鐵路、二二八 事件、永新 加油站、 玉山 銀樓

b.詞組或句子之專名,最常見為書名、戲劇名、歌曲名:

台灣 的 囡仔古(書名)、惜別ê海岸(歌名)

c.複雜結構:省 自來水 公司、台北市 第一 信用 合作社

師大 華語 教學 研究所、台語 分詞 規範 研究 計畫

除了以上之分詞基本原則和輔助原則外,中研院對華語語料庫之電腦處理,尚依語言學的學理觀點和電腦的實際處理能力綜合考慮,將分詞標準分為信、達、雅三個層次:「只要能夠依標準詞典中的詞項,將詞一個個斷開來,就符合信級(初級)的標準。在達級(中級)層次中,要求將具有簡單構詞規律之詞也正確斷出。到了雅級(高級)標準,必須將所有的詞都正確斷出,也就是說複雜型的複合詞及無構詞規律的詞都必須正確切分。」但目前本計劃對於台語詞庫的電腦化處理,尚在起步階段,因此暫時將無法考慮這三個層次中達級和雅級的標準。基本上,我們仍以信級的標準為目前的暫行目標,待將來後續的研究計劃中,對詞庫的電腦化處理能力逐漸改善,方能達到達級和雅級的標準。

5.4 範例與說明

依照上述兩條基本原則和六條輔助原則,我們對語料中不同詞性、不同結構的字串便有了相當一致而明確的分合原則。但由於台語語詞的詞性較不似華語一般廣為人知,字串在各種不同語境中的結構亦尚未達到廣泛的共識,故下面我們將針對較具爭議性的結構與詞類舉例,標示出各式字串的分合情況,並討論上述八條原則在各種情況中的適用情形。

5.4.1定量式

定量式是指由定詞(如「」、「」等數詞或「」、「」等指示代詞等)加上量詞(如「」、「」、「」等)所組成的結構形式。定量式是組合性極高的詞,可以無限制的衍生,且合成成分保留原有的意義,因此我們把定量詞視為兩個切分單位。主要原因有:一、定詞和量詞各有其語法類別,尤其量詞是漢語特有的詞,讓它自成一類,能反映漢語的特點;二、數詞與量詞間可以插入修飾成分,如「一大碗、三大本」;三、定量詞可能組合成極為冗長的成分,違反分詞的原則,如「chhun e0這幾仔十種」。基於上述理由我們認為定量式應予以切分。

雖然我們的大前提是定、量式依其成分一一切分,但其中仍有幾種情況應予合併:

1. 數詞合為一分詞單位。

百分之四十七點二 三又二分之一

一萬三千 六十九點五 一萬偌(göa) 數百萬 五成三 十偌 成千

有時數詞本身已包含標點符號或其他特殊符號,仍合為一完整字串,而不被分隔標記切分,例如:

七, 六五八.四六 65.5 30% A110057878

 

2. 特指定詞「第」是前綴,因此「第」與數詞的組合得視為一分詞單位。如:

第一 第四十九

 

3. 由定量式組合而成的時間與地方成分,因組合成分有特定指涉,而不是單純的數字與量詞,得由組合律組合為一單位。例如:

西元 一九九五年 七月 十五日二點 四十五分

      九十巷 三十九弄 五號 之二 三樓

這樣做的優點是能與純粹表計數的意義做不同的切分,試比較「民國 八十四年」與「費時 八十四 年」的差異,由表面切分即可對語意做區分。

此外,時間可單由阿拉伯數字與標點符號構成,雖然中間有分隔標記,但合起來為一時間概念,因此視為一分詞單位。例如:

84.7.28 2/28-3/31 7:50

但是如果時間成分或地方成分被連接成分「至、到」或標點「」分隔成部分,仍得被切分開。

八月 十八 到 二十日 下晝三 - 五時

三段 一百 到 二百號

 

4. 定量重疊式中,量詞重疊出現,有表示數量多的意思,或表示普遍化,語意顯有改變,故合為一個分詞單位。

陣陣 春風 重重考驗

5. 若是定詞與量詞均重疊,則多半限定於定詞為「」的情況,且其語意及語法均有所改變,成為狀語的用法,故予合併。

一蕊一蕊 一葉一葉

◎根據上述的定量詞切分原則,我們舉一些例子:

成百 支 三十偌 歲 三分之一塊

一千二百五十幾億 個 7,881.5 點 第一 擺

民國 八十年 來 兩 年 啊即(這) 半 年 偌

仁愛路 三段 七十七巷 十三號之五

一 台 句句 一蕊一蕊 這ê 彼 條

一般名詞都以定量式形式計量,但是部分的情形量詞可以省略,定詞直接修飾名詞,如:

三千 弟子 四十 大盜

如上所示,定詞與名詞應作切分。比較有問題的是如果名詞是附著語素,如「該生、三人」,是否要根據輔助原則(2)將附著語素與前後詞合為一分詞單位。我們認為就某個角度來看,這種定名式的形式與定量式頗為相似,除非已詞彙化的情形應作一個成分切分,否則根據定量式的切分原則,定名結構也可同樣作切分。

 

四界 四海 四書 這陣 彼陣 這聲

5.4.2重疊式的切分原則

重疊式是一種特有的語言表達形式,包括台語在內的漢語各方言都表現了豐富的重疊樣貌。中研院詞庫小組報告中指出,華語的名詞、動詞、量詞、數詞與量詞、修飾語與量詞、副詞、擬聲詞,甚至動詞組與名詞組等,都可以有重疊現象。但台語的重疊現像似有不同。首先,名詞和量詞的重疊似乎僅限於華語借詞、成語、或較文言的形式中,例如:「恩恩怨怨、事事項項、囝囝孫孫」、「個個、人人」,衍生性並不強。例如華語中親屬的稱呼,如「爸爸、奶奶、姑姑」用重疊式,而台語則用「阿爸、阿嬤、阿姑」,並非重疊式。而華語中「娃娃、狗狗」等表小稱的重疊式,台語中則是以名詞後加詞綴「」表示。

此外,動詞的重疊也較有限制。一般而言,較常重疊的是狀態動詞,如「紅紅、紅紅紅、費費氣氣、勤勤儉儉」。行動動詞重疊表嘗試或短時貌,則常會與「一下」或「咧/e0」合用,如「坐坐一下、看看一下」、「坐坐咧/e0、講講咧/e0」,而且多以單音節動詞較常重疊,只有少數動詞能以重疊表示輕微,例如:「笑笑、嗽嗽」;雙音節行動動詞的重疊,如「整理理、翻譯譯、孝孤孤」等也常與「咧/e0」合用,表示速成,而像「研究研究、討論討論」這類的重疊式,應為華語借詞。

數詞與量詞,以及修飾語與量詞的重疊,亦略有異於華語。華語可以有「一張張、一片片」的重疊式,台語則只能有「一張一張、一片一片」,亦即數詞和量詞均要重疊,而且可以有中插的「a」,例如:「一步a一步、大片a大片」。

此外,台語副詞、擬聲詞、動詞組的重疊大致和華語相似,例如:

名詞 人人、步步、恩恩怨怨、囝囝孫孫、X某某、魚魚肉肉、事事項項、聲聲句句

動詞 笑笑、嗽嗽、走走咧、寫寫咧、食了了、看現現、摃摃破、掀掀開、整理理咧、孝孤孤咧、酸酸、金金、澀澀澀、烏烏烏、心適心適、趣味趣味、費費氣氣、勤勤儉儉

量詞 個個、件件、條條(台語中這類重疊多出現在書面語或說書等表演中,口語中較少使用。)

數詞與量詞 一嘴一嘴、一寸一寸、一組一組

修飾語與量詞 大嘴大嘴、歸köa°köa°

副詞 加加減減、時時刻刻、足足、定定、白白、非常非常、前前後後(加強語氣)

擬聲詞 ki-ki-kü-kükhin-khin-khong-khongi-i-ü-ü、咕咕叫

除了由詞重疊之外,也可能是詞組重疊,例如:

動詞組 伊跛咧跛咧行對溝仔邊去。

伊行a行(a),無偌久就到厝矣。

伊講足久足久才講煞。

來聽演講ê人足濟足濟。

名詞組 我一字一字慢慢仔念出來。

一盤一盤ê菜一直捧出來。

而就其表面的重疊方式,大致包括以下幾種:

AA 適用於單音節詞的重疊,表輕微,如,烏烏、怪怪、霧霧、粒粒、笑笑、嗽嗽。

AAA 適用於單音節詞的重疊,表增強,如,烏烏烏、怪怪怪、霧霧霧。

AAB 適用於述補式複合詞,如「食食去、摔摔破、踢踢著」,成詞性的動詞,如「chhiäng-chhiäng」、「phú-phú」、「颺颺飛」,以及單字動詞重疊後加「咧/e0」,如「看看咧/e0、行行咧/e0、講講咧/e0」。

AABC 適用於重疊動詞後加「一下」或述補動詞重疊式,如:「講講一下」、「看看一下」、「烘烘一下」;「加加起來」、「收收歸ë/ê」、「穿穿好勢」。

ABB 適用於成詞性的狀態動詞,如「紅記記、金爍爍、燒滾滾、活跳跳」。另外部份述補式複合動詞「食飽飽、走了了

AABB 適用於狀態動詞,如「囉囉嗦嗦、歡歡喜喜、清清氣氣」,行動動詞,如「來來去去、出出入入、起起落落」,以及單字詞重疊並列,如「ki-ki-kô-kô、稀稀戽戽、li-li-lak-lak、橫橫kê-kê、去去倒倒」,擬聲詞如「咿咿啊啊」。

ABAB 適用於狀態動詞的重疊,如「細膩細膩、條直條直、心適心適、臭臊臭臊」,以及定量式重疊「一句一句、一杯一杯」等也適用。

AA 單音節動詞重疊,中間插入「」,如「看了看、教了教」等。

AAB 適用於表負面評價的形容性動詞。如,「腌裡腌臢、糊裡糊塗」。

AAB 適用於表強調的形容性動詞。如「綿死綿爛、腌死腌臢」。

ABA觸型 適用於表負面評價的形容性動詞。如「假仙假觸、落氣落觸」。

XAXB 適用於表示強調的部份重疊詞。如「有錢有勢、無責無任、無捨無施、走東走西、抱出抱入、顧頭顧尾」。

AXBX 適用於表示強調的部份重疊詞。如「腳尾手尾、嘴笑目笑、天大地大」。

基本上,我們處理重疊式的切分原則如下:

1. 不是由重疊規律產生,但具有重疊形式者應予列詞。

2. 重疊後其組合意義起變化,視為一詞,反之,若語義沒有變化,則予以切分。

3. 由詞組產生或有中插情形者,依據分詞輔助原則內部結構複雜之成分應切分。

根據原則1,不具原型的重疊式都應收入詞典中,例如「心心念念、聲聲句句、事事項項、扶扶插插、指指托托、ph²-ph²-thá°-thá°」。此外AAB型動詞也是詞典裡應該收有的成分如「金金看、颺颺飛溜溜去、膏膏纏、lõk-lõk-hiánchhãp-chhãp」等。疊的副足足、白白、定定」等疊後已被視為一個常用詞項,故建議收入詞典中,視為一個分詞單位。而AAB型的詞,如「糊裡糊塗、囉裡囉唆」,AAB的詞,如「綿死綿爛」、「腌死腌臢」,ABA觸型的詞,如「費氣費觸」、「假仙假觸」等,因目前所見為有限的詞集,故可考慮列入詞典即可。

原則2說明重疊式的切分主要是以語義為判斷標準。一般而言,重疊式在語義上會產生變化,多了一重訊息,例如「酸酸、費氣費氣」 是表程度輕微,「酸酸酸、費費氣氣」表程度的加強,如果只是單純的依詞切分,則不容易掌握其語義上的變化。因此對於重疊式我們建議採用語義為判斷標準,凡組合後意義起變化的字串皆應視為一個詞。雖然我們也可以採用另一種方式,根據分詞的定義,把具獨立意義,且扮演特定語法功能的字串予以切分。如此一來,AA型的「 酸、霧 」,AAB型的「 走去」,ABB型的「食了 」,ABAB型的「清氣 清氣、一 」,AABB型的「 」都將如上所示一一切分成小單位,而AABB中的「費 費氣 氣、零 零星星」則可能被切分成三個部分,再依分詞細則所規定的附著語素應儘量與前後詞合為一個單位,使雙音節詞所構成AABB型合為一個單位,如「費費氣氣」。這種切分方式的優點是簡單易行,但缺點是會漏失重疊式部分語義訊息,所以我們不採這種方式。

因此在語義為考量的前提下,我們將會得到以下的切分結果。應予以合併的有:

動詞 收了了、食食去、整理理(咧/e0)、紅紅、紅紅紅、笑笑、坐坐 一下、講講(咧/e0)、出出入入、慢慢a、費氣費氣、費費氣氣

定量式 個個、件件、條條(具泛指意義)

一嘴一嘴、一把一把(語法功能變成副詞)

一字a一字、一領a一領、一大甌a一大甌(語法功能變成副詞)

名詞 人人、事事項項、聲聲句句(具泛指意義)

副詞 加加減減、時時刻刻、前前後後、非常非常、足足、定定、白白

其中有待商榷的是重疊式並列的情形,如名詞性四字連用的重疊式「男男女女、大大細細、恩恩怨怨、魚魚肉肉」。這些重疊式大都是已經固定化的成語,故應合為一個成分。而動詞性的「出出入入、來來去去、起起落落」,因為語義上有反覆動作的意義,重疊式也很自然的合為一成分。而「紅紅、紅紅紅」在台語中前者為程度減弱,而後者則為程度加強,其語意無法由組合而得到,故予以合併。另一方面,語義上沒有太大變化的字串,仍依其原有成分單位切分的有:

擬聲詞 p…h-põk p…h-põkkhöng-lòng khöng-lòng、哈 哈、 i-„ ü-ü

動詞

最後,根據原則3,動詞組(動詞 + 動貌標誌)重疊式、帶雙音節補語之述補動詞重疊式,或有中插情形,如「看咧 看 咧、看看 咧、坐坐 咧、講講 一下、看看 一下、加加 起來、走走 入去、想 了 想、算 了 算、走 啊 走、足 重 足 重」,由於結構較為複雜,雖然在語義上有變化,但仍應依其詞類一一切分。

5.4.3詞綴、接頭/接尾詞的切分原則

如第二節中,分詞輔助原則第二條所述,本研究由於目前尚無「構詞層」處理構詞規律的運作,因此,衍生詞綴(derivational affix)均依合併原則與其所附著之語素合併。例如:

桌仔、椅仔、刀仔、車仔、豬仔、老芋仔、臭頭仔

頂面、下面

正爿、倒爿

國手、烏手、歌手

看頭、派頭、湯頭、路頭、齣頭、秤頭

記者、死者、患者、受難者

音樂家、藝術家

台灣人、台北人、外國人

實驗室、教室、人事室、會計室

演員、隊員、技術員、議員

法官、教官、檢察官

(su) 裁縫師、美容師、技師

(sai) 塗水師、拳頭師、木匠師。

地理仙、算命仙、數櫃仙、鴉片仙。

色水、面水、飽水、嘴水、錢水。

大面神、豬哥神、愛哭神。

市草、力草、漢草、花草。

水氣(súi-khùi)、冗氣、好氣。

火車、汽車、自動車

娛樂性、危險性

自動化、現代化

李某

吳氏

甜度、溫度

第一、第十

初一、初九

阿爸、阿嬤、阿伯、阿姆、阿福、阿英

拍醒、拍青驚、拍交落、拍損、拍無。

相招、相拍、相逐、相褒、相觸、相摃。

坦橫、坦直、坦倒、坦覆、坦斜。

另外,屈折詞(inflectional affix)雖同為詞綴之一部份,因有固定獨立的語法功能,且不影響緊鄰成分的語法類別,故一律切分開。此種切分與西方語法處理中先把時態、數、格位等屈折詞綴先切分的處理方式是一致的。台語的屈折詞綴包括「咧、阿、過、看覓、一下、起來、落去」。而關係子句標誌(relative clause marker)ê」,因為前面的組成成分常是詞組形式,如「參加會議ê」所以也與前面的成分切分。當然,我們把這兩種詞綴通稱為「語法詞綴」(grammatical affix),有別於衍生詞綴是須以構詞律結合的構詞詞綴(morphological affix)但某些含這些詞綴的詞已有獨立的語意,而不可由成分預測其意義,則已根據收詞原則而納入標準詞彙。

5.4.4述補式的切分原則

述補式複合詞是由兩個具謂語性的詞素所組成的,其第二個述詞(predicate)描述、說明第一個述詞發生之後的結果。在語意上,具有各自獨立卻又互補的特性。所謂各自獨立卻又互補是指:其各自之構成成分均有獨立之語意,而其組合成述補結構的句法行為又像一個單獨的動詞。述補式動詞可以被動,亦可出現在字句,行為和單一動詞一模一樣(見例一)。而其中間可插入「會、、有、無、」等中綴(見例2),表現也像是單一動詞 。由於述補式動詞既可單獨成詞,亦可中插其他成分,因此在討論分詞標準時,對述補式複合詞的分合應作規範。

(1a) 他摃破玻璃。

(1b) 玻璃伊摃破矣。

(1c) 玻璃摃破矣。

在處理述補結構時,基本上是依據分詞標準基本原則(2):「詞類無法由組合成分直接得到,應該和為一分詞單位。」將之合詞。由於其組合式的語意、獨立的句法表現,在在顯示其為詞的地位,故合詞是相當符合語感的。例:食去、吹乾、囥歪、破、phái、穿破、穿phái、收好、掀開、看有、聽無、輸去、轉來、入去、走來、偷提去等。

如果第二個述詞結構較為複雜,則基本上將其拆詞,分成兩部份;但是如果第二個述詞為描述方向之述詞,雖結構複雜,仍將其與第一個動詞合詞。此一分合不同之原因是:方向補語是大家較能接受為補語的成分,故將之與第一個述詞合詞;而其他非方向性述詞,其補語地位並不明確,故依輔助原則(6)結構複雜者予以切分,不予合詞。例:

走出來 行起去 收入去 刊出來 吞落去 跪落去

行轉來 流出來 生出來 整理出來 搬徙出去

斟酌 好勢 收做 ë/ê

值得注意的是,有些方向補語,如「起來、落去」,另可當時態標記使用。例如:

(2) 火若tõh起來,不是滾笑e0!

(3) 你若閣講落去,伊一定會真受氣!

(4) 講起這ê人,逐個都捌伊。

如上面的例子所示,在 (2) 中的「起來」,在 (3) 中的「落去」,(4) 中的「」,都沒有方向的意味,反而表示動作的起始、持續等狀態。「起來、落去、起」在此種用法之中時,比同時貌標記處理,與第一個述詞切分,如下所示,分成兩個獨立的詞:

tõh來講 落去 講 起

正如前面所提到的,台語述補式結構中可中插的情況十分普遍,而中插的詞類亦很多,不限於華語只限於「不」與「得」而已。例如:

做袂 袂著 看有 看無 看真清

看甲真清 看甲實在有夠清 算甲實在有夠袂和

由此可見,當動詞與補語間插入其它成分時,動補之間的語意和句法關係椅不再密切,應分開為各自獨立的詞。因此,在「算會和」、「袂來」、「chhiâu袂直

等字,雖然台語裡並無「算和」、「」、「chhiâu述補複詞,但我們仍將之分為「 」、「 」、「chhiâu 」。唯一必合併的情況是,如「苦袂了」、「變無輦」這種已成為固定用語的詞,因為它有特定的語意,而且中插成分僅限於「」,而「苦了」、「變輦」也不是台語的詞,因此予以合併。此外,在述補式「看著、聽著、夢著」中,當作補語的「」,後面另接補語或賓語時,其功能常類似其他介副詞。例如:

(5) 這本冊我看著真心適。

(6) 這號(lö)物件摸著真驚人。

(7) 我昨昏有看著恁小弟。

(8) 講著伊ê代誌真正會氣死人。

(5)(6) 中,「」引介動詞補語「真心適」、「真驚人」,其語意和句法功能顯然和述補式複合詞「看著、摸著」有所不同,故應予以切分。而例 (7)(8) 中的「」則類似「走到台北市」中的介詞「」的用法,因此我們也主張將此種「」與前面的動詞切分。另外,「到」所引介的補語在台語中常可省略,形成「動詞 + 」的結構,而其中「」字語音變為「甲(kah)」,語意上則表示「達到極高的程度」。這種述補結構一律予以合併,例如:

拆甲 食甲 變甲 笑甲 氣甲 戇甲 臭甲

如上所述,述補式結構的分詞原則基本上是合詞。如第二個述詞為雙音節結構,而又為表示方向的話,則亦為合詞;如其為雙音節結構,而非表示方向的話,則分詞。述補式結構遇中插時,則一律加以分開;而動詞 + 「著、甲」,後面不接補語或賓語時,視為述補式,予以合詞;若接補語或賓語,則一律予以切分。

5.4.5動詞 +「做」

台語動詞後接「」的用法十分常見,而後接「」或「」的情形較少,多半是用於較文言的用語,或是華語的借詞。例如:

(9) 伊當做我上好ê朋友。

(10) 囡仔明。

(11) 我用這張紙做成一隻船。

(12) 伊將我視為眼中釘。

中研院詞庫小組研究報告中,曾詳細討論動詞後加「成」、「為」或「做」的分詞問題,結論是將之合併成一個詞。檢視台語語料,我們認為台語動詞亦應與其後之「」、「」、「」合為一詞。主要原因是:這種字串在語法表現上是不可分的。例如「伊當做我上好ê朋友」,就不能將賓語「」放在「當做」中間將其分開。而且,「當做」後面可以接「」,成為「伊當做是我上好ê朋友」。這裡的「當做」在語法上也改變「」與「」的功能,語意上也不能由二者組合而得。因此,我們將動詞後接「」、「」、「」的字串一律視為一個分詞單位,不予切分。例如:

當做 看做 想做 講做 寫做 翻譯做

當成 做成 做為 認為

5.4.6動詞 +

正如華語中的「給」一樣的「」也是斷詞過程中決的問。我們的感並不能清楚地提供我們一個判斷的標準,來決定「動 +」是否結合成一個詞,或者是切分開來。

過去學者常將華語「給」分析為介詞,但中研院詞庫小組將「動詞 + 給」分析為一個分詞單位,不予斷開,理由如下:

1. 「動詞 + 給」後可加時態標記,如例句(14),而在現代漢語中,介詞是不允許加上時態標記的。

(14) 張三踢給了李四一個球。

 

2. 在現代漢語中,動詞和其直接賓語之間,不能加入介詞片語,如例句 (15)

(15) *他放在桌上一本書。

介詞片語出現之位置,要不是在動詞之前,要不就在直接賓語之後,換言之,主要動詞及其論元有其共存的結構限制。

3. 現代漢語中,介詞的賓語不可以省略。如例句(16)「在」是介詞,省略其賓語則形成錯誤的句子:

(16) *他放那本書在。

而在例句(17)中,省略了「給」的賓語,也就是東西的接受者,句子仍可以接受。

(17) 手就給一二千元的小

的「,語雖與「給」相似,句現卻盡相同。「動 + 」結構不能省略賓語 (18) 述例 (17)

(18) *手就提一、千箍ê

其次的「動 + 」後面,除了華語直接借入的否則並加時標記。例如:

(19) *伊寫了我一張批。

(20) ?水交了太太。

同時,在分詞考量上,若將動詞和「」斷開,其組合意義並未有所,語法功 亦未。所以我們主張將動詞與分為個分的單位。如:

(21) 批。

(22) 冊。

 

5.4.7「會/袂」+ 動詞

助動詞「」及其否定式「」後接動詞的形式在台語中十分常用。一般而言,若這種字串在語意上可由「會/袂」和動詞兩部份組合而成,且語法功能上也未改變,則予以切分。例如:

(23) 伊 一定 會 來。

(24) 囡仔 早慢 會 大漢。

但如果合成後語意以改變,不能由兩個成分語意組合而成,或是句法功能改變,或是動詞本身不能單獨使用,則不予切分,而將之視為一個分詞單位。例如:

bái

袂輸

會/袂曉

會/袂記得

會/袂使

會/袂凍

會/袂得

會/袂看得

會/袂用得

會/袂堪得

               

 

另外,「會/袂」出現於述補式中的分詞方法,請參見5.4.4中的討論。

5.4.8「有/無」+ 動詞/名詞

台語「有」及其否定式「無」可用做表領有的動詞,後接名詞或名詞組為其賓語;亦可用做表經驗或強調的動詞,後接動詞或動詞組。例如:

(25) 我無決問

(26) 伊昨昏有來看你。

(27) 這粒柑仔有甜。

有/無」後接動詞或名詞的字串,在分詞上的基本原則是視其語意或句法功能有否改變而定。如果語意可由二者組合而成,而句法功能也未見改變,則切分之。例如:

無 仝

無 法度

有 信心

無 惜面皮

無 妥當

有 合

有 害

有 好處

有 心適

無 仝款

無 好空

無 像

 

若語意以喪失原有二部份的合成意義,或是詞類、詞性尚有所改變,則將之視為一個分詞單位。例如:

無要緊

無理想

無偌久

無疑悟

無半撇

無伊法

無膽

有當時

有路用

有價值

chhun

有道理

 

由以上的例子可看出,語意是否改變有時很難劃分清楚的界限;例如「無要緊」似乎就較難察覺其組合語意語「」加「要緊」有何具體差別。因此,在實際墳的過程中,我們還必須考慮到使用頻率:使用頻率高者,如「無要緊」,視為同一個分詞單位,反之,則予以切分。

5.4.9ê」的切分

台語的「ê」是個多功在台中扮演極重要角色。依照「ê」的前後可分為二種情形

1. 飾語+êê

2. ê。此種用法為尾助他是對新竹ê

第二種情形「ê」是語助詞,有其獨立意義的語法類別,毫無疑問是個分詞單位。至於第一種用法的「ê」,有人認為是類似形容詞性詞綴,應與前面的修飾語合為一詞。

但本研究則ê」在此種結構中是在法層扮演標示修飾關係的功能,為一獨分單位。

ê」的使用環境極為多樣ê」字前的修飾語形式可是名詞(ê私傢、形容性動詞(ê數量詞( ê、動詞(花開ê 講話ê速度

至,在受華語的影ê」前加修飾語也可以修ê」「互相ê幫忙」。

一般詞綴所附加的成分形式有詞類的限制,例如「-家」前面是名詞類為主,如「音樂家、藝術家」,而「ê」前的形式則無,與般詞綴的一樣。

者,般詞綴所加的對,而ê」前的形式則常可組形式,與般詞綴的生方式同。例:

(28) 昨昏êê個人。

(29) teh威彼款ê艱苦

神情 從容 走來

由此可見,ê」前修飾語與ê」後名係是修飾語與中心所以我們可以把「ê為修飾語與中心的分記,將其前後成分一律切分開。

5.4.10a」的切分

a」在台語的分詞上,是一個十分難以處理的問題。主要原因是友好幾個同音詞均讀做「a」。例如:

1. 名詞詞尾「」,如「桌仔、椅仔、芋仔」。

2. 名詞詞頭「」,如「阿英、阿明、阿公、阿姑」。

3. 語尾助詞「」,如「˜知啊」。

4. 表狀態改變的標記「」,如「伊食飽矣」「伊去矣」。

5. 動詞修飾語的「a」,如「慢慢a行」「輕輕a摸」。

6. 形容性動詞詞尾,如「遐離遮近近a爾爾」。

1.與2.中名詞詞綴的「a」,其分詞原則已在2.3及3.3中討論過,應與名詞合併為同一分詞單位。[4]  3.與4.中「」均具獨立的語法和語意功能,毫無疑問應為獨立的分詞單位。在本節中所要討論的是5.與6.中「a」的分詞問題。

針對6.中的「a」的用法而言,主要是傢在單音節形容性動詞重疊式後面,表示稍有該形容性動詞的性質,實際上與名詞詞尾「」之小稱意義極為類似。例如:

(30) 伊人直直a,袂奸巧。

(31) 遐離遮近近a爾,無偌遠。

(32) 伊唱ê歌好聽a好聽。

類似用法還有「巧巧a、好好a、奸奸a、好看a好看、烏甜a烏甜」等。這種結構,正如名詞後綴「」一樣,在台語中是孳生力強的詞綴,理論上應由構詞規律處理。但由於本研究的電腦詞庫目前尚無法分力構詞層,而且就語意而言,「a」的附加也使動詞的語意產生實質變化。因此,目前我們將這種字串一律合併成一個分詞單位,不予切分。其次,5. 中的用法與華語的動詞修飾語標記「的」十分類似。中研院詞庫小組主張將之切分為獨立的分詞單位,主要原因是華語中動詞性修飾語和名詞修飾語標記均為「的」,且其前修飾語無詞類限制,與一般詞綴不同。

反視台語「a」的用法,我們發現它和華語「的」有相當大的差異。首先,附加「a」的修飾語僅能修飾動詞,而非名詞。如3.9中所述,台語名詞修飾語標記為「ê」其次,能附加「a」的修飾語並不如華語「的」那樣自由,一般而言,只限於形容性動詞重疊式和定式名組之疊式。

(33) 伊慢慢a

(34) 你好好a kä

(35) 你恬恬a食,˜通講

(36) 伊一張a張慢慢a

而「a」前之修飾語也不像華語「的」一般,可已是動詞組或句子。例如:

(37) *伊真有信心a處理即件代誌。

(38) *伊真快樂a teh洗碗。

基於以上考慮,我們認為台語「a」的性質語華語修飾語標記「的」或台語名飾語ê應視為詞綴,一律與前面之修飾語和為同一個分詞單位。例如:

 

慢慢a 恬恬a 一步a一步 一嘴a一嘴

5.4.11否定式

表示否定語意的否定詞有「˜、無、mài 免、」等等。由於「」與「」已分別於3.43.73.8中討論過,因此本節中講討論其餘否定詞的切分原則。

基本上,台語˜是否定副詞,因此˜單純否定時,不能單獨用以回答問句。例如:

(39) A: 你是˜是台灣人 B: *

是。

但這種單純否定副詞用法,現在只限於判斷動以及少數表裡狀態動詞,如「知影、捌」等的否定以及常用的「˜˜好、˜甘、˜」等字中。當用「˜否定動動則均有否定主事的意涵。

(40) ˜

(41) ˜拍拼冊。

相對地,不牽涉意態動詞,除之「是、知影、捌」等以外以「˜」否定,而是以「」否定。

(42) *˜

(43) 伊無高。

的「bòai」則是否定與表情態的動」之合併同常用以意願之否定,例如:

(44) bòai跳舞

mài」用於祈使或命令句,表禁止。

(45) mài閣講矣。

表需要用義務的否定。有時亦以「˜」形式出現。如

(46) (˜)免去會。

於「」則僅語體、成華語的情況中。

(47) 伊專交一寡ê朋友。

(48) 你實在真

(50) ê本意。

關於以上否定成分的分詞,我們主要是根據以下的原則考量:

1. 如果否定詞與其後面成分具有語法、語意的組合性則予以切分。

2. 反之,如果語法功能失去組合性之字串應合為一分詞單位。

3. 使用頻率高或共現率高的字串可以視為一個分詞單位。

根據上述原則,應予合併的例子如下:

˜ ˜ ˜才(答) ˜ ˜ ˜

˜ ˜ 不三不四 不應該 不男不女

不齒 不成 不斷 不當 不料 不可

應予切分的例子如下:

(51) ˜ ê

(52) ˜

(53) bòai去。

(54) bòai 矣。

(55) ê本意。

5.4.12合併形式

合併詞是相鄰的兩個或兩個以上的詞,由於有一部份相同,便會合併起來。報章雜誌上常常見到這樣的例子,像是「台北縣市」、「中小學」。合併詞依合併部份可分四種:詞頭合併、詞尾合併、頭尾合併及套裝合併。

詞頭合併: 國內外(國內 + 國外) 高中職(高中 + 高職)

詞尾合併: 公私立(公立 + 私立) 內外科(內科 + 外科)

頭尾合併: 中山南北路(中山南路、中山北路)

套裝合併: 環保署長(環保署 + 署長)

上述四種合併中,詞頭、詞尾頭尾合併情況十分類似,而套裝合併則較為不同,因此,以下我們分別討論。

(1) 詞頭/詞尾/頭尾合併

詞頭、詞尾、頭尾合併往往中插了各式標點符號,包含頓號、逗號、括號,甚至中插了連接詞。

詞頭合併: 國內、外 高中(職)

詞尾合併: 昨(十四)日 父抑(ãh) 中、青、少年

頭尾合併: 中山南、北路 第二、三次 高中、職生

合併成分有結合緊密度及使用頻率的差異,有些合併成分的結合緊密,常以不含中插的形式出現,像是「青少年、父母親、國內外」;有的結合度鬆散,總是帶有中插成分,像「投、捕手」。

由於結合度緊鬆的界線是十分模糊的,許多合併詞是處於過渡階段,可以合為一個詞,也可以斷成兩個詞。但電腦詞庫的分詞處理上,卻不能容許所謂「模糊的界線」。因此,我們的處理方式是:

1. 當該合併詞無中插情形,不論其關係緊疏,皆一律合併。

青少年 高中職 中山南北路 父母親

2. 當該合併詞有中插情形,一律斷開 。

青、少年 高中(職) 中山南、北路 (ãh) 母親

(2) 套裝合併

套裝合併是前一詞的末尾與後一詞的開頭相同,可不再重複出現。例如:「行政院長」是由「行政院院長」套裝合併而成,「新聞局長」是由「新聞局局長」套裝而成。相較於其他幾種合併,套裝合併詞有幾個特點:第一,此類合併只能由二個成分所組成,不像其他類型可能由二個以上的成分組合而成。第二,這一類的合併不會有中插的形式,因此,不會被標點等成分阻隔。

一般而言,能形成套裝合併的詞多半包含接尾詞,像表示行政區域的「區、里、省、縣、市、鄉、鎮、州」;或表示行政單位的「局、股、科、處」;以及表示階級的「」。例如:「台灣省長、新竹縣長、台北市長、芎林鄉長、松山區長、正義里長、建設局長、推廣股長、地政科長、稅捐處長」。

套裝合併詞的切分方式,如依據自然反應而切分,可能將套裝詞加以切分;如事務局長可分為「事務」與「局長」兩個成分,類似的「保險業者」也可分為「保險 業者」,這樣的分法頗符合直覺的語感,且詞典上本已收有詞彙,只要維持初步分詞的結果即可。但是,如果我們斷然將此類的詞分為二個單位,則至少會有以下二個缺點。第一個缺點是喪失套裝省略原有的意義。例如:「體育司長」是表示體育司的司長,而非體育的司長,這樣可能與純粹修飾作用的切分形式一致而無法區分語意。又如「建設 局長」與 「建設市長」 切分的結果一樣,實際上卻表現不同的內涵,前者表示某機構的首長,後者為一種描述的特性,不應混為一談。切分的第二個困難是有些機構的部分成分並不成詞,無法獨立為分詞單位。例如:「都發局長、學管課長」,因詞典無「都發」「學管」這樣的詞,因此無法切分成「都發 局長、學管 課長」,勢必合為一個單位,這樣就與其他的切分方式不一致。

因此,我們採用中研院詞庫小組分詞方式,把套裝合併合為一個切分單位,則正好可彌補上面所討論的缺點,而保持套裝原有的意義,又可維持一致的分析。不過,如果套裝合併詞前半部是地理上存在的專有名詞,不一定冠上區域即可獨用,如:「台北、芎林、玉里」,本身已包含台北市(縣)、芎林鄉、玉里鎮的意義,而後半部「縣長、市長」等也已成詞,則可視為兩個分詞單位,並不造成語義上的差異。如:「台北 市長、芎林 鄉長、玉里 鎮長、蘆竹 鄉公所、台灣 省主席」。不過,若為較小的行政區域,如:「正義里長、大安區長」,因為「正義」在一般人的詞彙中並不等於「正義里」,因此,我們認為應予合併。

套裝合併亦有結構較為複雜的形式。如:「勞工行政股長、私貨處理股長、錄影帶出租業者」,相當於「勞工行政股股長、私貨處理股股長、錄影帶出租業業者」。由於分詞原則的前提是不希望有過長的成分被視為一單位。所以,在這樣的情形下,我們主張根據詞典已有的詞彙做切分。故為「勞工 行政 股長、私貨 處理 股長」。

綜上所論,我們歸納出以下的套裝合併形式分詞原則:

1. 不含行政區域的單純套裝予以合併。如:

建設局長 環保署長 保險業者

2. 含地名或行政區域的單純套裝予以切分。如:

台北 市長 高雄 縣長 台灣 省長

3. 複雜套裝依成分詞切分。如:

私貨 處理 股長

5.4.13動詞後修飾語

現代台語中,動詞修飾語大多出現在動詞前,但在較為文言的情境或書面語中,仍可見到某些形式固定的動詞後修飾語,例如「教子有方、求助無門、辦事不力」等。這些用法可以說是文言語法的殘留。這類修飾語為數不少,自成一個特有的類型。例如:

無比 無門 無方 無功 無度 無常 無量

有方 有功 有加 有成 有序 有案 有素

不下 不力 不休 不成 不已 不斷

以這些修飾語本身結構而言,其內部成分有許多在現代台語中是附著成分,例如「有方」的「」表「方法」,「不力」的「」指「盡力、努力」,「」與「」均不能獨立使用。而「無門」等例子中,其語意並非「」和「」的組合。因此,這些修飾語本身應和為一個分詞單位。

其次,這些修飾語語前面動詞依據分詞基本原則和輔助原則,似應予以切分。主要原因是:

1. 同一動後修飾語可接在各式動詞或動詞組後,且其語意和語法功能均十分明確而一致。以「無門」為例,以下就是一些它可修飾的一些動詞示例:

投訴無門 取締無門 登記無門 回鄉無門 追償無門

告貸無門 求助無門 報到無門 申請入會無門 偷渡無門

2. 動詞與其後修飾語之間可中插其它成分。例如:

(56) 家中生理失敗,告貸又閣無門。

(57) 事故突然發生,求助全然無門。

3. 字串的語意一般而言可由動詞和動後修飾語語意組合而成。因此,我們將這些看似成語,實則為文言殘留的字串如下切分:

 

告貸 無門 功德 無量 苦學 有成 登記 有案

感慨 無量 威嚴 無比 教子 有方 訓練 有素 申請 入會 無門 取締 全然 無功

5.4.14專有名稱

專有名詞因為語意無法由組合成分直接相加而得到,所以應該合為一分詞單位,例如:「胡適、台北」。專有名詞幾乎沒有收錄在詞典中,但他們的確是獨立分詞單位,且不能經由構詞律預測,所以專有名詞原則上應該合詞。但是,根據實際的考慮,並非所有的專有名詞皆成一個分詞的單位,不同的內部結構,又有不同的情形,現就分述如下:

1. 單純詞:

內部結構單純的詞也就是不包含接頭、接尾詞和詞組結構的詞,因語意無法由其字串相加而得,所以一律合詞。例如:「李登輝、呂秀蓮、耶穌基督」。

2. 縮寫:

同樣地,語意也無法由這些字串相加而得,因此如同單純詞一般也是將縮寫的專有名詞合為一分詞單位。例如:「奧運會(奧林匹克運動會)、北二高(北部第二高速公路)」。

3. 頭尾合併詞:

頭尾合併的例子,如:「忠孝東西路」,它雖然是由「忠孝東路」加上「忠孝西路」而成,但是若將之斷成「忠孝東」和「西路」二個詞,語意不但不完整並且使得斷開的詞顯得非常奇怪。因此,頭尾合併的專有名詞,我們也將之視為一個分詞的單位。

4. 專名+普名:

專有名詞加普通名詞結合而成的專名,因其內部結構是否包含接尾詞而有不同的處理方式。

(1)普名是接尾詞:

當普名是接尾詞時,因其包含了附著語素,所以合成一個分詞單位。而這些大多是表人、地方或組織的接尾詞。例如:「國民黨、台北市、台南縣、台灣人、阿美族、陳董、桃園廠、高雄港、竹聯幫、山口組、諾貝爾獎、五月花號。

(2)普名是自由詞素:

當普名是自由語素時,因為任何一個名稱皆可以與這些自由語素任意組合,且無法由構詞律,產生的詞數量過於龐大,造成詞典的負荷,因此不合成一分詞單位。例如:「南迴 鐵路、二二八 事件、美麗島 事件、台灣 大學、淡水 中學、玉山 銀樓」等。

5. 複雜詞:

假若專有名詞內部結構包含了一個以上的詞語時,因其結構複雜,所以我們不將之合成一個分詞單位。例如:「北部 第二 高速 公路」,即使它的縮寫「北二高」是一個分詞單位。其他的例子還有:「台北市 第一 信用 合作社」。

6. 詞組或句子:

複雜結構的詞還包括詞組或句子,因其大多是書名或戲劇電影的名稱且很冗長,所以目前暫時不將之結合成一個分詞單位。例如:「雨 落t„嘉南平原、春花 不 敢 望 露水」。

5.4.15成語諺語

成語為流傳已久的古語,大多為格式固定的詞組或短語,多為四字詞。中研院詞庫小組認為成語基於以下的三點理由應被視為一分詞單位:

1. 成語的語意通常不能由其組成語素(morpheme)知。

2. 雖然成語的詞彙內部結構複雜,看似可切分的詞組,但是其語序固定,恪遵詞語自主(lexical integrity)應和複合詞一樣在詞彙中處理。

3. 成語由於言簡意賅,一旦予以切分,會產生許多無法處理的附著語素(bound morpheme)

台語中的成語基本上和華語的現象頗為相近,因此我們採用中研院的分詞原則,將成語視為一個分詞單位。例如:

起腳動手 心狂火熱 軟土深掘 粗枝大骨 掠龜走鱉

頭眩目暗 歡頭喜面 憂頭結面 盤山過嶺 悽慘落魄

茫煙散霧 艱苦坐掛

但有時某些成語可能有中插的現象。當成語中插時,、如「憂頭結面」,在「伊歸工憂頭閣結面」的句子中出現時,這時理論上我們應將之視為一般詞組,予以切分。但如此一來,將無法保留中插成分前後字串實際上是一個成語的線索。基於這樣的理由,加上目前我們沒有更好的方法來標示這種詞組中含有成語的結構,所以在語料中如果遇到這樣的結構時,我們仍將把這樣的結構合併為一個分詞單位。

另外,對於長度較長且為完整句子的成語或諺語,中研院詞庫小組的處理事予以切分。但我們基於諺語的語意考量,主張予以合為一個分詞單位。例如:

緊紡無好紗緊嫁無好乾(ta)家。

做田愛有好田底娶新婦愛揀好娘奶(lé)

歹心烏lok肚,beh死初一十五beh出山著風颱雨

三日無餾爬上樹。

人情世事陪到到,無鼎及無灶。

頂司管下司,鋤頭管糞箕。

日時走拋拋,暝時抱佛腳。

母呣bä-hiõh

歹瓜厚子歹人厚言語

拍到二九暝。

如此,則我們的詞庫亦可有收錄諺語的功能。

參考書目

『搜』文解字(刊載於計算語言學通訊84.03~85.05

詞庫小組(1995)〈中央研究院平衡語料庫的內容與說明〉 中央研究 院資訊科學研究所 中文詞知識庫小組 台北

王華南(1992)《實用台語詞彙》臺原出版社 台北

村上嘉英(1981)《現代閩南語詞典》天理大學出版部 奈良縣

周長楫編纂(1993)《廈門方言詞典》江蘇教育出版社 江蘇

林連通主編(1993)《泉州市方言志》社會科學文獻出版社 北京

胡鑫麟(1994)《分類台語小辭典》自立晚報 台北

馬重奇(1994)《漳州方言研究》縱橫出版社 香港

許極燉(1990)《台灣語概論》台灣語文研究發展基金會 台北

張振興(1993)《台灣閩南方言記略》文史哲出版 台北

黃宣範(1988)〈台灣話構詞論〉鄭良偉、黃宣範主編《現代台灣話研究 論文集》121-45 文鶴出版社 台北

邱文錫、陳憲國(1996)《實用華語台語對照典》樟樹出版社 台北

廈門大學中國語言文學研究所漢語方言研究室(1982)《普通話閩南方言 詞典》三聯書店 香港

楊秀芳(1991)《台灣閩南語語法稿》大安出版社 台北

連金發(1995)〈台灣閩南語詞綴「仔」的研究〉《第二屆台灣語言學 國際研討會會前論文集》 227-42.

(1996a)〈台灣閩南語「的ê」的研究〉《中華民國85年語言學門 專題計劃研究成果發表會論文集》

(1996b)〈台灣閩南語 的構詞方式〉《第五屆中國境內語言暨 語言學國際研討會論文集》 239-52.

(1991)《台灣話大詞典》遠流出版社 台北

蔡培火(1969)《閩南語國語對照常用詞典》正中書局 台北

盧廣誠(1997)〈從韻律構詞觀點研究台閩語重疊詞之結構〉 政治大學碩士論文 台北

鄭良偉(1989a)〈台灣話動詞重疊式的語意和語法特點〉 《大陸雜誌》 208-14 第七十八卷第五期.

(1989b)〈從台灣當代小說看漢語語法演變〉《新加坡第一次世界 華文教育研討會論文集》

譚邦君(1996)《廈門方言志》北京語言學院出版部 北京

Cheng, Susie S. 1981. A Study of Taiwanese Adjectives. Taipei: Student.

Huang, Richard W.S. 1986. ”Taiwanese Word Formation.” M.A. thesis, Fu Jen Catholic University.

Douglas, Carstairs. 1899. Chinese-English Dictionary of the Vernacular of

Spoken Language of Amoy. London: Presbyterian Church of England.

 


 

[1]  當重疊結構之意義未失組合性,則不予合併。例如:「來來、坐坐坐、哈哈」不須組合成一個詞,因該字串之語意可從每個成分組合而成,並無多出的詞意。

[2] (註二)  中研院研究報告中認為,像「養得起、養不起」、「處得來、處不來」因無相對之「養起」、「處來」,所以視為一個分詞單位,不予切分。但台語的述補結構中,可中插的情況十分普遍,並不如華語中僅限於「得」和「不」表能力之形式。且中插成分亦包含副詞,例如:「止節tiâu」「止節真tiâu」,因此儘管有部份中插之述補式,如「算袂和」,並無相對應之「算和」,但因其可中插的成分很多,故仍一律予以切分為「 」三個詞。

[3]有關「」的分析,請參看連金發(1996)〈台灣閩南語頭"的構詞形式〉。

[4]至於專有名詞後的「a」,如「a、朝伯a、春枝a」等,有人認為是名詞詞尾「」,也有人認為是「」。本研究基於「a」等本身亦為專名,故主張將之視為同一個分詞單位,不予切分。