跟政府要錢、開會、以及「人文的答案」

拜讀侯吉諒君的〈改善注音輸入法〉乙文。作者在文中以國文教育出發,講述目前學子在廣泛使用電腦作為溝通工具的環境下,因為現有注音輸入法的缺陷,導致經常使用錯別字,而有今不如昔,現代人國文程度低落之嘆。

最後做出以下結論:

語言輸入法是由電腦工程師研發出來的,工程師可以解決科技的問題,但卻無法提供人文的答案。當科技工具已經普遍改變了語文應用的生態時,教育部有必要投入人力,延聘、委託語言教育、電腦科技人才共同研究,改善目前注音輸入法的缺點,使學生在使用電腦的時候,可以接收、使用到正確的文字。

這種憂心忡忡強調「國文程度低落」的論調,往往看來是出自直觀的感受,一直以來也沒看到誰拿出的證據可以充分證明。比方說,你現在在交友網站的留言中看到一堆錯字,覺得以前不會有這種現象,可能只是以前其他人都是透過《愛情青紅燈》找筆友,私下往來寫了一堆錯字連篇的情書,沒有被你看到而已;你會說,現在的媒體錯字比以前的媒體多,但是現在的媒體與媒體從業人員也比以前多,現在的學生錯字多,但是以前學習能力與環境與現在錯字連篇的學生相仿者,搞不好都是文盲。

先姑且不論。既然主題是「改善注音輸入法」,除了討論注音輸入法造成的教學問題後,進一步要討論的便是-到底是什麼原因造成注音輸入法現在的問題?為什麼現在的注音輸入法不能夠在完全不選字的狀況下就產生正確的句子?如果不討論原因,那要從何改善?

在〈改〉文中能夠看到的解釋看來只有兩點:1.輸入法的開發缺少人文的參與、2.政府沒有出錢。那麼便可以繼續追問-所謂的人文應該如何參與、有多少參與?而如果是政府出錢就可以解決-有時候我真的很驚訝,原來還有這麼多人,還能夠對中華民國政府抱持這麼大的信心-我們不妨看看前幾年「台灣大百科」到目前為止的經營成果。真的要對下一代好,與其冀望政府建設,倒不如直接把經費換算成小朋友的營養午餐。

當你是真的想要改善注音輸入法,面臨到的具體問題是-注音輸入法天生有怎樣的限制,你願意花上多少的成本,過程中你所需要的各種必要資源能否即如何取得,以及,最後做出來的東西,市場能不能接受。

基本原理

所有的智慧選字的輸入法,不管是注音還是拼音,基礎的原理之一是利用統計模型來從使用者輸入的讀音,來預測使用者意欲輸出的詞句。簡單地說,這樣的作法,必然會遇到一個瓶頸:各種資料和程式對於提高準確度的邊際效用愈來愈低,想要再往上提昇,所需要的樣本數量、判斷模型可能會以倍數成長-然而其實又不可能存在所謂的百分之百精確,語言-或人類行為-如果可以被機器完全預測,代表的是歷史的終結,也不需要人文了。

問題就在於,大家是否為了那多百分之一的精確度提昇,而付出數倍的資料空間成本。而,這些增生的資源消耗,在實際使用時,是不是又能夠讓使用者感受到任何提昇。

在一套注音或拼音輸入法中,會需要以下幾種資料:

一、基本的字碼、詞組及其讀音資料

這一點應該不用多做說明,簡單說,當使用者輸入了某組注音或拼音時,輸入法軟體會需要知道這組注音或拼音對應到那些字詞。詞組的數量當然愈大愈好,但是在增加詞組的時候,又同時必須考慮詞頻。

在基本讀音資料方面,又會遇到注音的基本限制-如果使用者不記得、或是記錯某個字的讀音,那就必然只會打出錯誤的字,許多人都以為「西門町」的「町」念的是「丁」的音,而不是「挺」,「焢肉飯」的「焢」念的是「控」的音,而不是「烘」。於是你會收到這樣的抱怨-為什麼明明是常用字,但是輸入法卻不支援?

一種解決之道是,既然許多人都犯這個錯,為了讓許多人在使用電腦的時候,就算是根本讀音輸入錯誤,仍然「可以接收、使用到正確的文字」,輸入法也就將錯就錯,把這些字詞對應到錯誤的音上。之後呢,你又會接受到這樣的抱怨-明明某個字就沒有這個音,為什麼就是要加入這個音?是不是工程師的國文程度都很差?是不是工程師都只能夠解決科技的問題,不能夠提供人文的答案…云云。

折衷的方法是,在輸入法中增加「偵測模糊音」選項,如果你只想要用正確的音輸入,不要勾選即可。設置這個選項看似很貼心-你看,雖然你在用注音輸入法,不過你注音不好,所以我特別告訴你我們有這樣的安排;不過呢,有哪個使用者在使用注音輸入法時,會自覺自己的注音有問題。換言之,這種具有瞧不起使用者意味的功能設計,對使用者而言,也等於是不存在…。

與此相關者,則是應該要對破音字做多大的支援。比方說。「巴布亞紐幾內亞」一詞,教育部標準只有一種念法,然而,「亞」有兩種讀音,三聲與四聲,「幾」有兩種讀音,一聲與三聲,前後三個字就會有八種排列組合,就算前後兩個亞都只輸入同一個音,那也有四個組合。你應該遵守標準,還是要支援標準之外的讀音?

而教育部標準,你又應該遵守到怎樣的程度?當所有人打的都是「污染」,你是不是還是堅持應該是「汙染」,當所有人打的都是「神秘」,你是不是應該堅持應該是「神祕」?當教育部資料中「呢」只有一聲沒有輕聲的讀音,你是不是應該加入輕聲?

二、詞頻-某字詞在樣本中出現的頻率

光有字詞,還是不夠的。某一組讀音可能會同時對應到許多不同的字詞,那麼,哪一組才是使用者想要的?需要考慮兩分面,其一是在所有人的語言習慣中,最有可能是哪一組詞,其次是使用者個人的特殊使用習慣,有些詞雖然一般不常用,但是個別使用者會經常用到,例如輸入自己的名字與專業詞彙等。前者需要具有代表性的樣本,後者需要記憶使用者的使用行為。

要判斷到底同音詞中哪一個是最可能,基本方法是,在相同讀音的字詞中,哪一組在樣本中出現的最多次,那就最有可能是使用者想要的。比方說「近世進士儘是近視」,最常出現的是「近視」,那麼就可以假定使用者想要的是「近視」。此外,要達到進一步的精確,就是要偵測某組字詞在特定前後文中的頻率。就「以」與「已」而言,就不能夠光憑某份語料中「已」的頻率高於「以」,就認為使用者要的是「已」。下面有兩個句子:

我已在台北住了十年。
我以在台北住了十年的經驗為例。

我們應該如何判斷到底應該是「以」還是「已」?這個問題無法用添加詞組解決,因為「以在」與「已在」並不是詞彙-你或許會說,那就不要輸入「我已」,改用「我已經」即可,但這恐怕又是輸入工具改變語言習慣的惡例:為了輸入正確,所以每個句子都很長,但是精鍊的寫作當然是愈短愈好。如果全都要用文法判斷,很不幸,中文又實在沒有什麼文法。

所以,目前普遍採行的作法,是統計字詞與字詞的關係,比方說,在語料中出現「為」的時候,前面的字是「以」的機會較大,如-「以史為鏡」、「以校為家」、「以吏為師」、「以你為榮」等,那麼,出現的就該是「以」。

許多人認為輸入法只要詞彙夠多就會比較好,未必盡然。如果不管原本詞庫中其他字詞的詞頻,就冒然加入幾百個汽車或化妝品品牌,或是拿某個人的個人詞庫當成一般詞庫使用,也就是以人工介入、打亂原本的統計過後的機率分配,如果使用者在使用注音輸入法時本身有選字習慣,大量加入新詞後可以方便選詞,倒也無妨,但如果你的目標是讓使用者不選字就可以得到正確的結果,那勢必會破壞此一目標。

比方說,已經有了「成品」,再手動加入「誠品」,又不同時加上前後文關係,如「誠品」一詞只在連接「敦化南路」或「書局」等詞的時候,才有較高的頻率,那就會跑出「我們在畢業展上呈現誠品」這種錯誤了。

輸入法的品質取決於從語料中得到的統計資料的品質,統計資料的品質取決於語料本身的品質。理想的語料必須量多,囊括各種領域、來自各種時間,才能夠不因為各種因素造成偏差,而達到統計上的準確。語料的內容又需要經過一定的審核,不然語料中的錯誤也便繼續變成輸入法的錯誤,另外也要篩選當中的語言習慣-使用注音輸入法者,想來不會希望輸入法中出現像「呢個」或「邊度」這類的粵語用詞。

也應該不會有人,想要在注音輸入法當中,使用來自對岸語料的詞頻吧?

而,當你的語料是以倍數增加時,審核語料的人力也一併倍數增加。

語料同時要求質量,同時題材要多元平均,而新聞報導較符合此一要求。而注音輸入法和其他使用語料的情況又不同,提供給注音輸入法的語料,最好是每個字都加上注音,因為輸入法需要的不只是統計某個字詞出現的頻率,還有某個字詞對應到某種發音時的頻率。比方說,「於」這個字有個音唸作「嗚」、「戲」這個字有個音唸作「呼」,有個詞叫做「於戲」,是「嗚呼」的古字,假如只有統計字的頻率,那麼當「於」出現的頻率比「嗚」還多,又把「於」的所有讀音都設成這個頻率,就會造成,當你打「嗚」的時候,出現的第一個字卻是「於」。

那麼,在台灣誰最有能力與資源改善注音輸入法的品質呢?誰手上有豐富大量逐字標上注音的新聞稿呢?所以,在討論注音輸入法之所以有問題、究其原因時,要找一套比「政府沒出錢」好一點的理由,或許是,有一大批珍貴的資源,其實都沒有好好使用過。

市場問題

但就算使用了這批珍貴的資源,有了突破性的分析資料,在「使用電腦的時候,可以接收、使用到正確的文字」方面,做出了真的有顯著改善的成果,你又必須考慮-使用者能不能夠接受。

比方說,你拿到了 200G 的語料,之後做出了詞庫大小為 1GB注音輸入法。

電腦速度也需要到一定程度,以應付在每多打一個字,就重新計算各種因為前後文關係改變的頻率調整。

使用者在討論輸入法軟體時,往往又用有別於討論其他軟體的奇怪標準-輸入法軟體要更準確,但是詞庫的檔案大小還是保持十年前的水準;詞庫中應該要建個一百萬條,一邊又認為檔案還是應該只要 5MB(概略算一下,一百萬就是 1M,一個 UTF-8 字元佔用 3B、一組注音用4B,假如平均每個詞都是三字詞,(3+4) *3 * 1M,就是各種龐大的詞頻資料都還沒放進去,就已經用掉 20 多MB),最好還可以更小。一邊希望一個人可以更聰明,又一邊希望這個人腦容量變小。

要讓檔案變小,一種途徑是透過壓縮技術,但是不管怎麼壓縮,也總是會有極限。問題還是出在觀念-即使使用者的硬體提昇了,卻不願意軟體使用更多的資源(那你換硬體做什麼呢?),硬碟都已經從 20G 成長到 500G,但是卻奇怪的以為,十年前輸入法可以佔用總空間的四、五十分之一,十年後卻不可以做同樣的事情。-當年倚天中文系統需要兩張軟碟片、三國志一代只要一張軟碟片,照理說現在電腦上的中文環境應該要發展成三國無雙的兩倍大,才算合理嘛…。

在網路上可以看到,以為軟體檔案愈小愈好的想法比比皆是。這種想法自然是其來有自,資料對準確度的效益會遞減,所以詞庫從 10MB 成長到 20MB,準確率可能只有幾個百分比,實際上還是大概打十個字錯一個字,但是不管怎樣,要提昇準確度,最重要的還是提供龐大的資料量。如此使用者就會估算自己的成本-為了「使用電腦的時候,可以接收、使用到正確的文字」可以有多少提昇,所以就願意花費多少自己的硬碟空間,每次有更新要花多少時間下載。

作業系統廠商在做輸入法方面還是擁有優勢,如果作業系統本身就提供這樣一個大詞庫,等於是使用者買新電腦,或是換到其他電腦上使用時,就不用額外下載或安裝一大套輸入法。但儘管如此,如果說詞庫本身有更新,還是需要重新下載,所以每次輸入法有更新,還是最好跟著作業系統的改版發佈。

你也可以考慮用雲端運算改善輸入法,把詞庫全都放在分散式網路上,當你按下一個按鍵,就有無數台主機為你想要的正確結果進行平行運算;就端看你覺得你介不介意為了提昇準確率,所以你打什麼字都會送到別人也可以碰觸到的網路主機上,還有,只要一旦沒有網路連線,就沒辦法打字了。

於是,現實就是,目前的各家輸入法,還是以有限的語料樣本,抽出市場可以接受的檔案大小的詞庫,對於輸入法準確率能夠做的改善,便是在不破壞原本分配的前提下,小心地對詞庫做有限的人工介入-比方說,你發現你的語料剛好沒有辦法自動產生前述「以…為」的句型,語料中剛好沒有這種句子,所以手動添加、修改詞頻,或者在輸入法中人工加入一條規則,就為了專門處理這一個句型。

或,如果你是搜尋引擎廠商,你便可以從搜尋記錄中,找到無數網路使用者所提供的打錯的搜尋詞,藉以在輸入法詞庫對這一部分容易打錯的字做出修正,或是添加些發音獨特的熱門搜尋詞,至少讓使用者在打出兩個月前出道的歌手名字的時候,稍微方便一些。

不過,不管怎樣人工介入,都有其實會把輸入法搞得更糟的風險-因為你是在破壞機率分配的狀況下想要把輸入法弄得更好,所以你無法計算在另外一個你沒有察覺的狀況下是不是更糟。如果換成不計容量成本地直接增加龐大的語料,效果還是相對比較好,特別是在特定的詞彙領域-尤其是專有名詞-內。用個 Google 的說法:「一斤的數據,勝過一兩的演算法」。

既然詞庫資料的提昇成本較高,而且投資下去的結果又明顯效益-檔案太大使用者不接受,檔案小更沒有什麼效果,倒不如轉而加強輸入法的其他部分,例如改善使用作介面,在操作方式上提供不同的選擇-如鍵盤排列、標點符號輸入方式,有心的話,也可以順便加入介面的荷蘭文語系支援之類的。

或是,解決與其他應用程式之間的相容性問題-拿同樣的時間解決在一百套軟體中能不能用的問題,總比解決百分之一的好不好用來得實際:或是製作些附加功能等-不然,你要怎麼證明,你推出的新版本真的是個新版本…。

如果你會抱怨現在的輸入法都做太多額外的功能,而本身沒有多少改善,不妨想一下自己預期的軟體會長成怎樣的模樣;而如果你真的想要不會出現錯字,不用選字,檔案小,輸入速度快的輸入法,衷心建議,別用注音了。真的。

以上說的,是技術上的作法。

還有一種「提昇輸入法準確率」的非科技性作法,就是,你基本上不是真正有對輸入法有什麼改善,而是,你讓別人相信你的輸入法準確率高,那就夠了。

不會有使用者會自己去找一篇三千字的文章,然後拿每套輸入法按照讀音把這三千字重打一遍,看看當中有多少錯字,用數字檢驗那套輸入法造成的錯字比較少,而這個數字還會因為測試用的不同而變化。

基本上你還是需要對詞庫做一些修正,不過,不是修正自己的問題,而是修正別人的問題。你要做的事情是,開始在宣傳中,密集醜化(或妖魔化)其他同類型產品,放大別人的某個缺點,這個缺點最好是一個黃色笑話,出現一些生理器官名詞之類的,好讓你的讀者在哈哈大笑的同時,暫時失去思考能力,然後告訴讀者,另外一套輸入法沒有這個問題,即使你的輸入法同時還有十個你所攻擊的同類型產品所沒有的輸入錯誤,但,沒關係,讀者不知道,所以等於這十個問題不存在。

此外,你的輸入法還有什麼可以拿來自誇的呢?喔,不但沒有別人的產品中的那個錯誤,檔案還比較小呢-將這種說法以病毒行銷的方式傳播,你就成功創造「檔案比較小、準確度還比較高」的神話了。

「人文的答案」

我不知道用人文的眼光,看待為什麼注音輸入法會變成今天的景況,該不該難過。因為決定注音輸入法變成今天這個樣子、而且個人以為還會繼續影響輸入法發展的原因,的確沒有什麼人文的理由,有的只是成本與效益。雖然我們可以為了人文的理由不計成本,但是我們也知道,同樣的政府經費,是可以轉換成營養午餐的。

不過,如果政府真的有一筆經費要找人做輸入法,我個人、還有目前任職的公司,倒是不怎麼介意賺這筆納稅人的血汗錢。倒是,〈改〉一文中提到了「人文的答案」,這個用詞讓我很介意。

就我所學過的人文(或是人性,Humanity),其意義是從獸性前往神性的過程。孟子曰:「人之異於禽獸者幾希」,而我所知道的人文、我所知道的人與禽獸的差別,是人會自覺知道有些事情會比單純滿足物質與生理慾望重要。

他人的痛苦與自己的痛苦一樣重要,所以人與人之間應該以什麼方式往來重要,忠恕重要、仁義重要、倫理重要、愛情重要、正義重要;某種美感的經驗與悸動重要,所以同樣是殺一頭牛這種事情,有人會以為牛的物質價值重要,孔子會以為一頭牛的犧牲成就的禮法很重要,但是莊子會以為宰殺牛時的節奏快慢、看到牛的肌理紋路很重要。這些事情都很重要,所以如何說明這些事情為什麼重要也很重要,繼續思索這些事情為什麼重要也很重要,所以教育重要,因為前述的一切都重要,所以傳承什麼重要與為什麼重要自然重要。

人文可以提供的是什麼呢?人文可以提供價值,於是可以衡量取捨,決定什麼應不應該,決定什麼優不優先,決定什麼必不必要。人文可以提供你相信什麼,讓你決定是堅持原則重要還是圓融權變重要,是慷慨赴義重要還是忍辱收拾重要。所以「雖千萬人吾往矣」是人文,因為你知道代價是什麼,仍然決定行動,仍然相信有一個較高的價值;

人文可以提供人文的關懷、人文的質疑、人文的思辨、人文的觀察、人文的洞見、人文的追尋、人文的批判。可是-人文的答案?是啊,工程師是沒有辦法提供人文的答案的,因為沒有人能夠提供「人文的答案」-科學提供的是事實,是一套經過一定程序與方法檢驗的觀念,工程提供的是解決方案,而人文所可以提供的範圍中,也不包括答案,關懷不是答案,質疑不是答案,思辨不是答案,觀察、洞見、追尋與批判都不是答案,人文是沒有答案的。人文的根源是人具有與禽獸不同的能力,而人文的答案則是根源於人為什麼能夠具有與禽獸不同的能力這個問題,是一切價值的最終起源到底是什麼這個問題。而那個答案是什麼?

人文是沒有答案的,神才有答案。

天命才有答案,上帝才有答案,那個超越的至高存在才是答案,那個萬有的唯一才有答案。

好了,說到不能也不該言說的地方,所以也該打住不說了。

總之,我還是相信人文對於輸入法應該有些幫助-比方說,人文的浸淫薰陶,應該可以讓輸入法這個圈子裡頭的每個人,都有比較有良心些。剩下的就是把能做的該做的盡量做,就是了。

以上。

9 thoughts on “跟政府要錢、開會、以及「人文的答案」

  1. 偵測模糊音的選項很好啊

    我會很誠心的承認我中文水準低落然後乖乖打開此功能的

    更進一步 我會建議有 偵測模糊音並顯示正確拼音 這樣的教學功能

    比方說你打出 西門ㄉ一ㄥ 的時候,町這個字會出來,然後你如果選他的話,輸入法就會順便告訴你(可能是小視窗或是一個tab之類的) “笨蛋,這個字唸ㄊ一ㄥˇ啦!”

  2. 「如果全都要用文法判斷,很不幸,中文又實在沒有什麼文法」大概是一時筆誤吧。中文,或者漢語,當然有grammer呀。只不過以漢語為母語的學習者,大概不太會有機會上過漢語grammer的相關課程。話說回來,本國的漢語grammer相關學程也真的很少見,三聚氰胺那個生產國這方面從建國以來,倒是累積了不少學程規劃吧。

  3. 看到(軟體)工程師無止盡的工作,似乎就源自於 … 得應付各種額外附加、(自認)理所當然的功能。

    這個問題當然用產品來解,即使強如開放香草,大部份人認定的還是輸入法取代。

    給對文字要求高的人,就給文字編輯器的外掛,像 LanguageTool、StyleWriter 這類產品。

    由此延伸下去 … IM 外掛加上 Keroro 模組應該會賣的不錯。(謎)

    適時推出海棉/天線寶寶模組,方便與小寶寶溝通。

  4. “人文的根源是人具有與禽獸不同的能力,而人文的答案則是根源於人為什麼能夠具有與禽獸不同的能力這個問題,是一切價值的最終起源到底是什麼這個問題。而那個答案是什麼?”

    答案是42嘛….

  5. 中文有文法
    但是相對於英文甚至是德文
    中文在主格受格的變動上
    相關規定甚為模糊
    我去曬太陽
    我是主格還是受格
    在德文中可以很明顯的看出我的性質
    但是中文卻不明顯
    而需透過經驗來分析

    其他像是助動詞的缺乏
    動詞欠缺時態變化
    都造成文法上的模糊

  6. 文法恐怕是個操作型定義問題。若且唯若 Chomsky 的理論為真,那麼我們可以說某某自然語言有文法。現階段學校教育和學術研究可以提供的文法,用我這陰謀論者的角度來說,可以是種權力結構的工具。好比說,黑人的某些口語不合文法,台灣國語的某些習慣不合文法,等等。

    現實上人們需要書面溝通的時候,遵循某種格式習慣比較有效率,此時我們可以說有某種操作上的文法。更進一步,從販夫走卒到藝文名家,總能歸納出一些模式,蓋人類認知學習的方式,基於現有的、少得可憐的理解,不脫模式辨識之流。

    於是在定義良好的前提和語境之下,任何語言之所以稱之為語言,都有文法;在任何規則都可能有例外的反證之下,也都沒有文法。

    或許那句話可以解讀成:如果把「文法」當成一種比較級形容詞,那麼現代漢語相對於某些強勢語言-像是英語-而言,確實比較沒文法。

    但這不代表漢語的主語賓語謂語就不明顯或只能透過經驗來分析。持平的心態大抵是,應該用更合適的手段來分析。同理,孤立語缺少曲折語和黏著語的動詞變化,未必就是「比較沒文法」;換個角度來說,事實上它是有「更複雜的文法」── 恰恰出化約論者的能力範圍而已。

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.