Sunday, August 31, 2014

Pattern Recognition

(轉載自CUP magazine 2014年8月號)

最近,一位上了年紀的香港專欄作家對我說,他已學會用電腦寫稿,只要身在有網絡的地方,按一個鍵便傳到報社,真方便快捷,又慳紙!這些明日黄花的「發現」我本來沒興趣聽。之後,他更長篇大論想當年日子多辛苦,要用原稿紙寫稿,每晚要請專人送稿到報館!後來有了傳真機,省卻舟車勞動,但有時在外地的傳真費比稿費更多,得不償失,概嘆今天iPad真是他的恩物!

我耐心等他懷舊完,才問他學懂用那個中文輸入法。他說用手寫板便可以,中英文也可輸入,你用手指、用電子筆任由尊便,寫得點草都得,寫錯點擦都得!這麼厲害?用甚麼軟件?他說一個app攪掂!我一看之下,唉!原來他說的所謂用電腦寫稿,其實只是在iPad打開一張白紙,在上面畫圖,只不過他畫的圖案,中國人一看便知是中文字而已!那個app根本沒功能把那些「永」字五筆線條變成電腦中文代碼,報社收到手寫稿後再要有專人替他輸入電腦,但對他老人家來說已是踏出第一步。

能夠把線條變成電腦文字代碼,是涉及一個軟件發展史上一個今天還力求打破極限的重大命題 ―― 人工智能研究領域中的Pattern Recognition ,「認嘢」!   Recognition最顯淺的解釋是「睇」到又「認」到;Pattern就是你想「認乜嘢」。「認到嘢」有乜好處?基本上兩大好處:一是可以不經人手輸入電腦;二是用電腦替你「摷」嘢!

先說認字。

認字最初是用在支票或一些重要單據的號碼上,使電腦能「認」到自動輸入,快速兼準確。始祖是Optical Character Recognition(OCR)。OCR歷史悠長,早於一九三O年Emanuel Goldberg已設計了一副機器能「認」到一種特別字體,後來被IBM買了專利,沿用至今,我們護照上的號碼就是OCR字體。一九七四年,Ray Kurzweil更開發出可「認」到任何印刷字體的OCR(for omni-fonts),再轉發聲音讓盲人也可「閱讀」,所以現在的發聲字典和發聲電子書並不是甚麼新奇事物。

當時,可以OCR機器只限於不同印刷字體,我們還要等待另一突破,就是Handwriting Recognition(HWR)。回想起一九九三年蘋果推出全球首個PDA產品Newton,號稱能認出手寫字(只限英文),我滿心歡喜去會展看發佈會。結果大失所望,我先要學會一種特別的英文字母、數字和標點符號的書寫法(後來Palm PDA也用的Graffiti),但我沒嚇怕!但用了(炫耀了)一段日子,效果依然不理想。Newton最終慘淡收場,誰說蘋果沒滑鐵盧!

今天拿起Newton和iPhone在手,百般滋味在心頭,相隔十多年,HWR技術翻了幾翻,中英文手寫輸入已很成熟了,但依然沒有老人家說享用到的功能 ―― 寫得點草都得!
說完認字,再說認人。

比喻有人拍一張照片傳給你,想你認人的話,人的肉眼便可認到相中你熟悉的人物;想認風景或其他甚麼Pattern的話,人腦的思維活動又不同。今夭我們連人腦怎「認嘢」所知不多,希望用一件死物電腦,用軟件代替人腦的聯想力「認嘢」更是難過登夭,已開發了的特殊硬件和數學運算algorithm,只能侷限應用於少數範圍內,例如從龐大資料庫中認人緝兇是其中之一,由電腦替你把和樣本相似的人「摷」出來。

認人軟件雖然準確度還未夠理想,谷歌已把一些相關技術轉移到我們的電子相簿caption上,希望將來我們只要告訴軟件「他是誰」一次,以後「他是誰」再出現便能自動標簽。古語中「人之不同,如其面焉」這句話不無道理,亦可知「認人」軟件難度之高。
然而,放在「認指模」上,數值範圍小很多,今天「認指模」軟件已很成熟。原來人類的指模中的所謂Minutiae並不多,只有十種左右,全是二維平面,和面容三維特徵比較容易準確把握得多。

再說認聲(Voice Recognition)。我當然希望在我有生之年有套完美的廣東話輸入軟件出現,讓我可以用把口寫稿。咦!且慢!在此先扯開說說,以前要在洋行當秘書一定要懂速記,好讓洋上司口述一些甚麼memo和reply letter文件,秘書可以夠快dictate到。有了袖珍錄音機後速記的技能可省掉,但我一直奇怪當時是否在大洋行每個華洋經理也可以出口成文的。有了廣東話輸入軟件我是否也可以出口成文?我自認不能,今天和將來也不能!所以,廣東話輸入軟件對我幫助不大。

那麼,那些人需要用聲音輸入?
就此,先複述一下以上電腦能「認字」和「認人」的兩大好處,一是可以不經人手輸入,二是用電腦替你「摷嘢」,但一說到電腦能「認聲」,我們的要求便不是輸入電腦這樣簡單。很自然地,我們要求「講嘢要有人(電腦)聽」,最好對方更要有反應(互動),換言之,需要用聲音輸入就是一些要發號師令的人,期望自動有Follow up action!所以認聲軟件,除了輸入準確外,還要附有Speech Recognition(語言辨認,明你講乜)、Speaker Recognition(聲線辨認,知你邊個)功能和一系列program跟尾。

iPhone推出未成熟的Siri被人笑了好陣子,正是以上的功能未成熟之故。之後,市面推出一大堆認聲軟件,我敢說在這階段,這些產品完全是把我們消費者當白老鼠,我們還要搞清楚,一些只是省回按一個鍵的「聲控」軟件而不是真的「認聲」軟件。

當然,我也渴望有朝一日,一個「叫它做乜它懂得做乜」的機械人出現。那天,我們的人工智能軟件已不只是能認字、人和聲這樣原始;要令你感覺到是真的是在發號師令,機械人要連你自己那一刹也察覺不到的下意識Pattern也要Recognize到,唉!人啊人,我們到底想點?(完)





No comments:

Post a Comment