ChatGPT 生成式AI的產業革命

ChatGPT 生成式AI的產業革命

文/謝璦竹

上(3)月某個週日下午,世界領袖教育和平基金會科技聯誼會舉辦的一場線上論壇,宣傳短短3天竟吸引了逾百位關心ChatGPT趨勢的朋友,除了科技界的工程師,還包括許多非科技界的專業人士,大家討論很熱烈。

「很多正在做相關AI應用研發的人,一度都覺得是不是都不用做了?因為ChatGPT靠豪賭式砸大錢提高算力,就竟然已經全做好了!」講者之一的陽明交通大學資訊工程博士廖家鴻在受訪時表示。一位參加論壇的金融界主管說,公司正要求資訊部針對ChatGPT在金融業的應用性提出報告。

不但如此,台北智慧城市專案辦公室主任、台北市電腦商業同業公會執行長李鎮宇說,台北市政府正在積極評估運用ChatGPT來增進市府的市民服務,例如1999專線、公宅入住服務等。「以前的Chatbot(客服機器人)都不太像人,現在ChatGPT最讓人驚豔的,就是對語意的理解很強。」

與客服機器人採用rule-based模型不同,ChatGPT是採用自然語言處理技術(Natural Language Understanding,NLP)進行訓練。

ChatGPT是由美國OpenAI公司2022年11月推出的聊天機器人,「聊天」二字可能讓人誤解它的功能性只是一般聊天,事實上,ChatGPT可以回答的問題五花八門,可說是上知天文,下知地理。

例如,有外媒引述Google內部文件稱,Google曾安排面試ChatGPT,竟發現它編寫的程式媲美Google三級工程師,相當於年薪18.3萬美元;國外有教授也測試過用ChatGPT寫作業、交報告,結果發現,就連撰寫短論文這樣的任務也做得有模有樣。

倫敦政經學院教授夏波斯(Mike Sharples)在ChatGPT 3(目前是GPT-3的升級版)的時代,就測試過用它寫課堂短論文(包含引用文獻)的能力,雖然內容並不完美,其中致命的錯誤是它引述的雜誌是杜撰的,根本沒有那一期,但已經讓夏波斯非常震驚。

如果寫短論文難免有錯,ChatGPT的翻譯功力則近乎無可挑剔。加密貨幣LikeCoin創辦人高重建用廣東話和潮語測試:「弱弱一問,咁買 NFT 書得到嘅係咪即係個唔同款嘅封面…」,翻譯為「Can I ask if buying an NFT book is like getting a different cover?」

相較於Google翻譯給出的「A weak question, so what you get when you buy an NFT book is a cover of a different style…」;以及較專業的翻譯軟體DeepL給出的「I’m sorry, but the NFT book I bought is a different cover …」,不論正確性還是優美度,ChatGPT都大勝。

根據Open AI介紹,ChatGPT使用一種稱為「人類反饋強化學習(RLHF)」的機器學習技術進行訓練,推出短短5天內,用戶人數已突破100萬人,而到今(2023)年1月,更突破1億人。2月份,該公司推出訂閱制ChatGPT Plus;3月,OpenAI發表最新的GPT-4,將用於付費版ChatGPT Plus。新版可接收圖像和文本輸入,輸出文本,據其內部評估,新版產生正確回應的可能性比GPT-3.5高40%。

台北智慧城市專案辦公室成員,後排中間雙手比Ya者為辦公室主任李鎮宇。(圖片來源:李鎮宇臉書)

生成式AI的時代已經降臨

以往訓練AI學習單一特定新的應用,要耗費大量時間與資源,台大電機系教授李宏毅說,近年AI研究領域的新概念,是先讓AI學習大量廣泛數據,培養出基本能力,成為通才般的「基礎模型」,就像ChatGPT。接著只要經過使用者微調(finetune),就能讓AI快速勝任不同任務,變得更靈活、更通用。「這是AI領域近年新的典範轉移。」

ChatGPT為什麼能一舉突破聊天機器人過去的瓶頸?所謂GPT,指的是生成式預訓練轉換器(generative pre-trained transformer)。這個預訓練的過程有4個階段,李宏毅簡介,第一階段是學習文字接龍,從網路上抓大量的內容讓其學習,例如,看到「你好」二字,會學到下一個字可能是「美」。這個階段不需要人工標註。

但由於接龍輸出的結果是依據機率,每次輸出都會不同,因此要透過第二階段的訓練來優化,由人類老師來引導文字接龍的方向,也就是提出問題,並標註正確答案。第三階段是模仿人類老師的喜好,建立一個老師模型,第四階段就是由這個老師模型去給予評分,進行增強式學習。

前台北商大校長、叡揚資訊執行長資深顧問張瑞雄說,深度學習的類神經網絡,與人類的神經網絡類似,但人類的神經網絡是立體的,包含情感迴路在內,而AI的類神經網絡則是一層一層的,無法做推理、同理。因此,AI需要透過大量人力來篩選資料,把色情、暴力或其他開發者認為不適當的資料篩除,這涉及兩個倫理議題。

完善AI治理體制

一是這些進行篩選的人力,據報導,都是血汗勞工,相較ChatGPT的大成功與潛在的可觀獲利,他們每天要面對這些色情與暴力的內容,身心可能受到傷害。

其二,這些資料的揀擇,若被有心人士利用,很可能造成論述偏見。尤其,從ChatGPT截至目前為止的構造來看,其最大的價值就在於將吸收的知識加以融會貫通(而非單純整理歸納)後,生成全新的內容,很難註明特定看法的出處。

「就和人類一樣,我們形成特定看法後,自己也很難抽絲剝繭去回溯出,究竟是什麼樣的經驗或知識來源造成該看法?」張瑞雄說。既然無法註明出處,接受者若照單全收,或是潛移默化下形成特定立場,就可能成為系統性製造偏見的利器。

不過,張瑞雄也坦承,相較YouTube或Facebook等軟體會根據閱聽者的習慣,主動推薦閱聽者偏愛的內容,ChatGPT還比較客觀中立,「除非主動搜尋,現在我們每個人都生活在舒適圈。」

針對生成式AI可能成為偏見與操控以及深度造假的溫床,成功大學資工系特聘教授郭耀煌建議,應「完備以人為本的可信任AI治理體制」。他認為,強人工智慧時代即將降臨,這是不可逆轉的趨勢,不只台灣,整個人類社會都必須儘速建立完善的AI治理體制,以安世道人心。他建議參考歐盟的可信任AI倫理準則。

比模型 還要比算力

為了避免大陸版恐出現論述偏見,國科會主委吳政忠表示,預計年底推出台灣版ChatGPT。

這個任務極具挑戰,生成式對話引擎ChatGPT的「養成」,需要有龐大的算力、數位神經網路邏輯,及可信賴的大量資料。吳政忠說,台灣不比美國,微軟投資OpenAI投入100億美元(新台幣3,018億元),政府的科技預算一年只有新台幣1,327億元。儘管如此,國科會準備藉由公私協力,在今年底開發一個共用的模型。

據大陸國盛證券報告《ChatGPT 需要多少算力》資料顯示,如以ChatGPT在今年1月的獨立訪客平均數1,300萬計算,其對應晶片需求為3萬多片輝達A100 GPU圖形處理器,初始投入成本約為8億美元,每日電費在5萬美元左右。

ChatGPT的推出,一石激起千層浪。

另據台媒報導,外資分析師推算,ChatGPT每千萬名每日活躍用戶所需求算力,約等同於2.4萬片伺服器繪圖處理器(GPU)。

相較之下,台灣的國網中心僅有2,048片GPU,運算量能否足夠撐起台版ChatGPT?台灣人工智慧學校校務長蔡明順說,「算力是矽谷最新的貨幣。」台灣一向以發展硬體為主,對於超級電腦及算力想要迎頭趕上,需有相對應的政策。

台大資工系教授兼系主任洪士灝說:「國內很少人把超級電腦和AI連結起來,但國外早在上一波1980年代的AI風潮中,就致力於發展提高算力所需的平行計算,在2000年代打造雲端服務和蒐集大數據,來為這一波的AI鋪路。」

除了算力的需求,AI聊天機器人的構建須有巨量的數據,OpenAI在2020年5月發布的GPT-3有高達1,750億參數。李宏毅解釋,ChatGPT可以想成一個函數f(x…),x…便是其參數。每個參數變動,就會有不同的輸出。

所謂微調,即指OpenAI提供的API服務(Application Programming Interface,應用程式介面),可以低廉的成本讓一般人輕鬆做出一個AI助理。

據《天下雜誌》報導,線上課程平台「孵大學」創辦人謝昆霖在臉書上說,按照網友分享的教學,申請OpenAI的API服務,將OpenAI研發的語言模型產品串接到Line,只花半小時就做出類似ChatGPT的聊天機器人,「人人都可自己做一個AI助理的時代來了。」

訊能集思智能科技創辦人張宗堯說,最終這掌握關鍵技術的AI大公司會成為霸權,「我們就像必須依靠它提供的水電來存活。」

資安問題待解

服務業、金融業等很早就引進「客服機器人」,未來是否有採用ChatGPT的可能?如前述,客服機器人多半採用規則式的訓練模型,不能自行生成回答,而只能透過按鈕互動。金融業等需要大量客服的產業,也在評估使用ChatGPT進行微調後的應用。然而,金融業最大的關切在於,資安是否能獲得保障。

由於使用者的回饋可能成為ChatGPT深度學習的素材,因此可能造成資安問題。為降低用戶對輸入特定資訊的擔憂,OpenAI宣布,除非客戶明確同意,否則它不會再使用API所提供的數據來訓練其模型。

據外媒報導,美國摩根大通銀行日前就規定,限制集團內員工使用ChatGPT,這是基於銀行內部對於第三方系統和軟體的既有規範管制。

報導引述一名負責監測金融機構內部資訊安全的工作人員稱,有愈來愈多金融機構對ChatGPT提出疑慮,主因牽涉到商業機密和用戶個資。「在牽涉到隱私的情況下,我們不建議使用,因為OpenAI可能會依據你分享的資料來改善它自己的模型。」

對此,李鎮宇認為,這要看合約怎樣規範,舉例來說,現在人人都在用Google雲端,但很少人擔心資料會被洩漏。「這不是AI本身的問題,而是背後經營者是否值得信賴。」

廖家鴻則表示,OpenAI正在研擬方案,例如出租雲端伺服器,如果這個伺服器所使用的AI模型完全只用於單一客戶,或許可以避免這類資安隱私問題,但費用可能非常高,據傳一年至少新台幣800萬元。

 

收藏本篇文章
Please login to bookmark Close
分享給更多朋友: