在沒有多久以前,有一個機器人的書香世家,妄想突破人類學習語言的方法。這世家的三兄弟各自揣摩,他們的學習方法不但非常怪異,而且各有不同。三人各自另闢蹊徑,卻都達到意想不到的成就,最後居然可以達成百種語言的翻譯、搜尋、文書處理,以及聊天機器人。
以下是三兄弟學習的心路歷程。
1.Bag of Words
老大看書從來不考慮文字的前順序,他將一袋一袋的字倒入腦海,然後依據出現的頻率與特異性來判斷句子之間的相似度。有趣的是,他雖然完全不知道這些文字的意義是什麼,但卻能蠻精准的抓出意義相同的句子。據說早期的搜尋引擎,就是用這種方法找到有關的文件。由於老大屬於極簡派,不喜歡複雜的運算,他的讀書方法蠻適合講求效率的垃圾文件分類。因為他總是一袋一袋處理文字,所以別人都稱這方法為「袋袋相傳」。
2.Word to Vector, 2013
老二的語言學習方式則考慮的比較周全。他訓練自己從前後文猜中間字,或者從中間字猜上下文。他每天勤學練功,古往今來的文本都吞了下去。久而久之,它的猜字能力變得非常精準。而經過這些猜字,他逐漸將每個字都編成了高維度的向量,再利用數學上的向量計算,可以輕易地找出類似的句子。比起老大的袋裝法雖然費事,但判斷上下文的能力卻更精准,世人戲稱之為「瞻前顧後」。
老二的學習方法,對自然語言的認知有很大的進展,但因爲侷限于文字的順序性,前文處理完了才能處理後語,所以速度非常緩慢。加上如果句子變長,處理完了後語又忘了前文,造成對整個句子的判斷失準。所以語義精准度和處理速度仍然是個問題。
3.Transformer,2017
提起老三,他唸書的方法就更怪異了。他繼承了老二對單字的高維向量編碼,但他對整句文字的瞭解,認為不但需要從上下文來判斷,而且參考距離應該無遠弗屆,不應限於前後字,而是要找出最值得注意的字,也就是Attention is all you need。這老三不但將文句的語義更精准的察覺出來,且由於它的上下文不需要順序進行,可以同時一目十行,過目不忘,所以效率大幅度提高。這個老三,後來就變成了眾所周知的變形金剛(Transformer)。
變形金剛一舉突破以往限制,讓自然語言的認知能力大幅增長,已經接近了人類的瞭解程度。而他所收的兩位優秀學生,OpenAI的GPT-3和谷歌的BERT,更在語言的認知學習上面做了進一步的超越。
GPT-3運用了超大量的文本,和超級的腦袋容量,對自然語言做了非常精准而廣泛的瞭解。這使得GPT-3的徒兒,也就是人人談之色變,既期待又怕受傷害,有用又好笑的ChatGPT,正式橫空出世,堂堂登上自然語言處理的擂臺。
至於後者BERT,雖然書讀的沒有比GPT-3多,腦袋容量也沒有GPT-3這麼大,但是他卻有一套獨門的學習方式,那就是將一篇文章正過來看,反過來也看,有點像西毒歐陽鋒的倒練九陰真經。他的兩種訓練方式也很特別,一種是將文章的某一個字蓋掉,讓他去猜;另一種就是拿兩個句子,讓他去判斷是否為前後句。這些獨特的訓練法,造成他對文字的理解有更精微獨到之處,最適合做翻譯、搜尋的工作。比起GPT-3,他更可以配合不同的用途,靈活地做下游(downstream)的訓練和應用。
ChatGPT
在我們把注意力擺在ChatGPT的師承、本領以及優缺點之前,讓我們來了解一下,他真具有人類的智慧和自我意識嗎,我們是不是被他聰明的表象給嚇壞了?
人們不會認為一隻學會說話的鸚鵡有智慧,因為牠無法和你對話。但如果他能夠瞭解你的語言,而且說出的話也深得你心,這個就叫做智慧嗎?
在天龍八部小說中,吐蕃國師鳩摩智號稱練就少林72項武功,但其實都是以小無相功來模擬的。ChatGPT師承GPT-3,它本身已經能夠將人類的語言做幾何轉換,精准地將語義映射到高維度的向量空間去,然後在那個空間,依據以往的訓練,以及更多對話的微調訓練(fine tune training),拼湊組合出可能的答案。
這個從認知到表達之間的過程,在人類叫做思維,在AI的世界則叫做高維度的映射運算與雜訊分佈。由於被訓練的資料非常龐大,ChatGPT已經把古往今來所有文本的最佳表達方式,都以幾何向量吸收進他的數學模型裡,所以說出來的話不但文句優美,而且環環相扣,條理清晰,非常具有說服力。
但真正可怕的是,如果他得到的資料有誤,但他的運算模型無法分辨,ChatGPT可以理直氣壯地像專業律師般,將取得的內容包裝並描述得天花亂墜,直到有知識和良心的使用者糾正他,才能夠適時阻止錯誤的蔓延。這一部分的機制叫做強化式學習(Reinforcement Learning),而我們這些使用者,正承擔了這部分訓練的責任。
在當前情況下,如果我們對他的每一筆回答都做盤查,就會輕易發現他其實是隻常說謊的鸚鵡,正確的資料比例並不高,這錯誤的比例應比搜尋引擎的還高,主要是因為除了資料的源頭錯誤之外,在資料和自然語言轉換的過程中也會犯錯,更不用說由於GPT-3需要訓練的時間非常長,目前也祇有到2021年的過時資料。這些問題都將使得我們對他回答的信任度打了折扣。
撇開資料的正確度不談,如果我們專注於利用它的自然語言理解能力及表達能力,而由我們提供資料請他加工,比方説列出文章要點,改善及美化現有文案,將兩份資料加以比較分析,或者將程式片段給予評估、改進、加注等。這些聚焦在利用它語言模型(language model)的核心能力,而非搜尋引擎擅長的資料收集能力,在目前應會得到比較好的效果與較高信任度。
總而言之,人工智慧的趨勢已不可擋,不管他是真正在思考,擁有人類意識,還是仍停留在數學模型運算的階段,AI能做的我們就要好好利用。我們無需和AI競爭,就像我們不需要和汽車賽跑,而應該學會開汽車,是同樣的道理。
延伸閱讀
作者:陳少君

經歷:
在矽谷創業20年,後因照顧父母回國服務。
曾任長鑫存儲CIO/VP
曾任資策會數教所資深總監
曾任台灣佳能資深技術總監
曾任浩鑫資深技術總監