正確率的前提

上週一 WWDC 開幕時,蘋果便宣布、並提供了新版本的 「那個裝置」的SDK,裡頭也包含了新的「那個裝置」的模擬器。除了拿來寫點小程式當做練習之外,同時也把玩了一下新版模擬器中所包含的中文手寫辨識輸入。辨識效果還算不壞,就算故意把字寫得龍飛鳳舞,系統也可以辨識一二。

不過,用了一下還是稍微有些抱怨,一是蘋果似乎以為這套手寫系統不需要任何解說就可以使用,所以,像中文標點符號不是靠直接寫出標點的形狀,而是要透過寫一個小短橫,然後從畫面右側選擇各種標點符號,這種我花了一些時間才試出來的使用方式,就沒有看到有相關解說;二是,有幾個字-如「很」、「上」等,我寫下之後,怎麼都辨識不出來,怪的是,我同事測試的時候,卻沒有這個問題。

比較之後,才發覺我和我同事在寫這幾個字的時候,使用的筆順是不同的,而筆順一旦不一樣,「那個裝置」也就不認得了。從網路上查了一下教育部的筆順標準,也才發現原來我用的不是教育部的標準筆順。在寫「上」這個字的時候,教育部標準是「豎橫橫」,而我寫成「橫豎橫」,是先寫又上角的那一橫,才繼續其他筆劃;在寫「很」時,在寫到右半部的「艮」時,教育部標準是先從右上角的一橫一豎開始寫,我的寫法則是先寫左邊的那一豎,而且在那一豎的尾部也不勾起來。

同事問我小時候是不是在小學課堂習字之外,另外有學過鋼筆字帖-他以前便注意到鋼筆字帖的筆順與官方標準不同;鋼筆字帖我沒練過,倒是十歲左右,家母曾經將我和舍弟送去眷村裡一位先生那邊胡亂學了兩年的柳公權,到現在還依稀記得《玄秘塔碑》的前幾個字是「唐故左街僧錄內供奉三教談論…」,想來我寫字的筆順與習慣,就是那時候開始變成今天這樣,另外還有一些筆劃形狀的小細節,如,我在寫「我」這個字的第一筆,不是右上左下的一撇,而是左上右下的一點,或是偶而寫成一橫。說起來小時候糊里糊塗被送去學字,現在看來也沒什麼用途,姑且不論這年頭誰還會看你寫字寫得如何,而且這樣學了一陣子,字還是寫得不怎麼樣,只有一些習慣改變了,變成「那個裝置」不認得的那種。

做出一套中文輸入法後,最常被拿來討論的就是正確率,這種討論屢見不鮮。但在看到這方面討論的時候,往往可以看到幾個有趣的地方,其一是,既然是討論「正確率」,「正確率」是個「率」,該是個統計問題,但是往往可以看到,討論的是稍微試打之後對於結果的直覺反應,或是舉出幾個極端的個案,但是就是沒有什麼真正拿出統計數字的比較;再者,在討論拿輸入法打中文可以多正確這個問題的時候,又牽涉到一個統計不能解決的根本前提-什麼才是正確的中文?或,語言這種事情,有沒有可能有完全的「正確」?-我寫「上」的時候,不是寫成「豎橫橫」,而是「橫豎橫」,就算是錯的嗎?

不管怎樣,拿政府標準,總是一個便宜行事的方式,但是真的接觸到這方面資料的時候,又總是納悶,怎麼政府標準也是一堆錯誤,或是與你所知道的常識差這麼多。

在台灣在做輸入法,你大概會用到中研院、研考會還有教育部的資料,你可能會花上十萬元買一套中研院拿納稅人的錢編製的一套語料庫,從裡頭抽出詞彙、詞彙出現的頻率與上下文關係的統計資料,然後發現裡頭盡是一堆錯字,比方說,你要打「哈密瓜」,但是這套語料庫裡頭出現的是「哈蜜瓜」。

而如果你要做注音與倉頡輸入法,則是必要參考研考會中文全字庫專案,就以全字庫專案提供的注音輸入法表格來說,前後出了許多版本,在之前的幾個版本中,就有一些明顯的錯誤,比方說,在「ㄙㄨ」(su)這個讀音的列表中,居然有「薊」(ㄐㄧˋ,ji4)這個字,而「薊」怎麼也不該讀成「ㄙㄨ」;研考會後來的版本修正了這個錯誤,但又實在讓人覺得沒辦法放心。而在目前坊間許多輸入法軟體中,還是會打「ㄙㄨ」跑出「薊」,而讓人覺得又莞爾又無奈的是,當各家輸入法在比較正確率的同時,其實都是根據錯誤的政府資料,做出了錯誤的輸入法。

而同一個字出現在不同的詞彙中,又往往會有不同的讀音,而要確定一組詞彙的讀音,則是要參考教育部國語辭典。照理說教育部國語辭典應該是台灣最具公信力的資料,所以教育部在調整中文標準的時候,輸入法軟體也應該做出一些對應的修正-比方說,過去在提到「汙染」、「汙穢」的時候,用的是「污」這個字,但是官方標準是「汙」,在教育部國語辭典上,現在用「污」是找不到東西的;但是放眼過去幾年,教育部似乎又把國語辭典搞得很沒有公信力。也姑且不論現代中文中到底有沒有像「白雪公主症候群」,在讀音這方面的資料,有時還真是讓人手足無措。

比方說,你可以查到「廁身」與「廁身其間」兩個詞條,而兩個詞條的意思是一樣的,都是「混雜、混跡在什麼之中」的意思,但是兩者的「廁」字居然讀音不同,前者唸作「ㄘˋ」(ci4),後者唸作「ㄘㄜˋ」(ce4),為什麼讀音不同?百思不得其解。

而「廁」這個字又有一個完全超出常識之外的讀音,「茅廁」這個詞條唸作「ㄇㄠˊㄙ.」(mao si5)-這種念法不知道出自哪裡,中國之大,說不定是哪個地方的土話,但是就我個人使用現代漢語的習慣,我連「ㄙ」要怎麼念輕聲都不太清楚;而且,幸虧在現代的漢語中,可以用其他說法代替「茅廁」,要不然,哪天你去光華商場買東西的時候,問店家「茅廁在什麼地方」,得到的回答說不定是「放在鍵盤旁邊」,或是人家以為你在講「卯死啦」之類的。而在這個地方,教育部國語辭典又表現出了不一致,明明「茅廁」的「廁」唸作「ㄙ.」,在「廁」這個字單獨的解釋中,卻又沒有這個音。

這些是你不知道到底是什麼鬼標準的標準,而另外某些標準呢,則是你就算知道是標準,但是也不太想要支援的標準。比方說,「姊妹」的「姊」這個字,平常大家都唸作「ㄐㄧㄝˇ」(jie3),教育部說,這是通俗的語音,至於讀音呢,則統一為「ㄗˇ」(ci3)-試想,倘使有天你真的在用教育部的標準讀音打字,你可能在用注音輸入法的時候不小心按錯一個鍵,或用的是一套不需要輸入調號的拼音輸入法,當你在 MSN 還是哪套即時通訊軟體中,想要打一句「表姊你好」這樣的親切問候的時候,天曉得會跑出什麼結果出來…。

而最後的問題,又是,就算你自以為是依據了一定的標準,但你永遠也不會想到,用輸入法的人,操的又是一種中文。

5 thoughts on “正確率的前提

  1. 中文手寫輸入法裡面有種辨識的方法就是抓筆順,這種方法的好處是可以夠快辨識出字來,但問題如同文中所述,筆順和設定的不一樣,那就毀了。曾在市面上玩過另外一套,故意寫不一樣的筆順,明明字看起來正確,但就是辨識成不對的東西。

    當然有不靠筆順的作法,但是複雜多了,例如抓字的結構,或是crossing count等。相形之下,抓筆順依然是比較經濟、效果又不算差的「好」方法。

  2. 筆順就像破音或俗音,有這個線索當然做起來容易,只是做了才知道,最難的竟然是取得資料。

    為什麼資料難找呢?因為研究上,注音/拼音輸入法是簡化版的語音辨識,手寫輸入法是簡化版的 OCR。於是,沒多少人會做這種不夠偉大的題目;那怕它有多麼地實用。

    另一方面,有很多「通用」演算法看起來可以等,等到電腦更快,記憶體更大的那一天,「實用」的方式可能就更得不到人工辛辛苦苦標記資料之類的垂青了。

    所以說人活得好好的幹嘛做輸入法咧~

  3. 茅厕据我所知应该是南京的土话。 (或者说是皖语系的一种发音)大陆在这个词上面好像也是用maosi这个注音。 不过如果出了南京一带估计还是很少人懂到底maosi是什么。

  4. 1.行書、草書的筆順,的確有些地方和楷書不同。

    2. 有類似經驗的人都知道,台灣的官方/準官方/國家級研究機構,對於標準語料、詞典的資源/支援品質,實在是不忍足睹呀。

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.