Pattern Recognition

(轉載自CUP magazine 2014年8月號)

最近，一位上了年紀的香港專欄作家對我說，他已學會用電腦寫稿，只要身在有網絡的地方，按一個鍵便傳到報社，真方便快捷，又慳紙！這些明日黄花的「發現」我本來沒興趣聽。之後，他更長篇大論想當年日子多辛苦，要用原稿紙寫稿，每晚要請專人送稿到報館！後來有了傳真機，省卻舟車勞動，但有時在外地的傳真費比稿費更多，得不償失，概嘆今天iPad真是他的恩物！

我耐心等他懷舊完，才問他學懂用那個中文輸入法。他說用手寫板便可以，中英文也可輸入，你用手指、用電子筆任由尊便，寫得點草都得，寫錯點擦都得！這麼厲害？用甚麼軟件？他說一個app攪掂！我一看之下，唉！原來他說的所謂用電腦寫稿，其實只是在iPad打開一張白紙，在上面畫圖，只不過他畫的圖案，中國人一看便知是中文字而已！那個app根本沒功能把那些「永」字五筆線條變成電腦中文代碼，報社收到手寫稿後再要有專人替他輸入電腦，但對他老人家來說已是踏出第一步。

能夠把線條變成電腦文字代碼，是涉及一個軟件發展史上一個今天還力求打破極限的重大命題 ―― 人工智能研究領域中的Pattern Recognition ，「認嘢」！ Recognition最顯淺的解釋是「睇」到又「認」到；Pattern就是你想「認乜嘢」。「認到嘢」有乜好處？基本上兩大好處：一是可以不經人手輸入電腦；二是用電腦替你「摷」嘢！

先說認字。

認字最初是用在支票或一些重要單據的號碼上，使電腦能「認」到自動輸入，快速兼準確。始祖是Optical Character Recognition（OCR）。OCR歷史悠長，早於一九三Ｏ年Emanuel Goldberg已設計了一副機器能「認」到一種特別字體，後來被IBM買了專利，沿用至今，我們護照上的號碼就是OCR字體。一九七四年，Ray Kurzweil更開發出可「認」到任何印刷字體的OCR（for omni-fonts），再轉發聲音讓盲人也可「閱讀」，所以現在的發聲字典和發聲電子書並不是甚麼新奇事物。

當時，可以OCR機器只限於不同印刷字體，我們還要等待另一突破，就是Handwriting Recognition（HWR）。回想起一九九三年蘋果推出全球首個PDA產品Newton，號稱能認出手寫字（只限英文），我滿心歡喜去會展看發佈會。結果大失所望，我先要學會一種特別的英文字母、數字和標點符號的書寫法（後來Palm PDA也用的Graffiti），但我沒嚇怕！但用了（炫耀了）一段日子，效果依然不理想。Newton最終慘淡收場，誰說蘋果沒滑鐵盧！

今天拿起Newton和iPhone在手，百般滋味在心頭，相隔十多年，HWR技術翻了幾翻，中英文手寫輸入已很成熟了，但依然沒有老人家說享用到的功能 ―― 寫得點草都得！

說完認字，再說認人。

比喻有人拍一張照片傳給你，想你認人的話，人的肉眼便可認到相中你熟悉的人物；想認風景或其他甚麼Pattern的話，人腦的思維活動又不同。今夭我們連人腦怎「認嘢」所知不多，希望用一件死物電腦，用軟件代替人腦的聯想力「認嘢」更是難過登夭，已開發了的特殊硬件和數學運算algorithm，只能侷限應用於少數範圍內，例如從龐大資料庫中認人緝兇是其中之一，由電腦替你把和樣本相似的人「摷」出來。

認人軟件雖然準確度還未夠理想，谷歌已把一些相關技術轉移到我們的電子相簿caption上，希望將來我們只要告訴軟件「他是誰」一次，以後「他是誰」再出現便能自動標簽。古語中「人之不同，如其面焉」這句話不無道理，亦可知「認人」軟件難度之高。

然而，放在「認指模」上，數值範圍小很多，今天「認指模」軟件已很成熟。原來人類的指模中的所謂Minutiae並不多，只有十種左右，全是二維平面，和面容三維特徵比較容易準確把握得多。

再說認聲（Voice Recognition）。我當然希望在我有生之年有套完美的廣東話輸入軟件出現，讓我可以用把口寫稿。咦！且慢！在此先扯開說說，以前要在洋行當秘書一定要懂速記，好讓洋上司口述一些甚麼memo和reply letter文件，秘書可以夠快dictate到。有了袖珍錄音機後速記的技能可省掉，但我一直奇怪當時是否在大洋行每個華洋經理也可以出口成文的。有了廣東話輸入軟件我是否也可以出口成文？我自認不能，今天和將來也不能！所以，廣東話輸入軟件對我幫助不大。

那麼，那些人需要用聲音輸入？

就此，先複述一下以上電腦能「認字」和「認人」的兩大好處，一是可以不經人手輸入，二是用電腦替你「摷嘢」，但一說到電腦能「認聲」，我們的要求便不是輸入電腦這樣簡單。很自然地，我們要求「講嘢要有人（電腦）聽」，最好對方更要有反應（互動），換言之，需要用聲音輸入就是一些要發號師令的人，期望自動有Follow up action！所以認聲軟件，除了輸入準確外，還要附有Speech Recognition（語言辨認，明你講乜）、Speaker Recognition（聲線辨認，知你邊個）功能和一系列program跟尾。

iPhone推出未成熟的Siri被人笑了好陣子，正是以上的功能未成熟之故。之後，市面推出一大堆認聲軟件，我敢說在這階段，這些產品完全是把我們消費者當白老鼠，我們還要搞清楚，一些只是省回按一個鍵的「聲控」軟件而不是真的「認聲」軟件。

當然，我也渴望有朝一日，一個「叫它做乜它懂得做乜」的機械人出現。那天，我們的人工智能軟件已不只是能認字、人和聲這樣原始；要令你感覺到是真的是在發號師令，機械人要連你自己那一刹也察覺不到的下意識Pattern也要Recognize到，唉！人啊人，我們到底想點？（完）

劉兆生 - 《IT Column @CUP》

Sunday, August 31, 2014

Pattern Recognition

No comments:

Post a Comment