HHRI／大型基礎模型衝擊電腦視覺將出現第三次變革

透過人工智慧技術創造的美女網紅，帳號上線5天後，立刻吸引超過1.8萬名的紛絲。在生成式AI技術日漸成熟下，預期這種由AI生成的網紅將掀起另一波熱潮。而在這波生成式AI熱潮之下，大型基礎模型也成為各國與大企業競相投入的戰場。台灣大學資訊工程學系教授鄭文皇認為，隨著大規模基礎模型的發展，可預見將對電腦視覺帶來突破性第三次變革。

電腦視覺模型快速發展的十年

從技術面來看，透過文字、語音、影像等多種不同模態資料訓練出來的基礎模型，能跟不同的任務再進行調整以符合使用需求。目前在電腦視覺領域也有許多應用實例，例如在自駕車的物件偵測上，能有一個通用的偵測模型可適用於各種外在環境，不受氣候或是日照光線影響；或是在智慧製造上也有相關的應用案例。

《經濟學人》雜誌（Economist）早在去年就提到「Huge “foundation models” are turbo-charging AI progress.」，基礎模型將在各領域帶來改變。鄭文皇說，自2021年開始出現的基礎模型，在技術面上跟原本的自監督式學習並沒有太大差別，但在模型、資料及算力需求三個部份卻變得更大。在這股浪潮中，ViT團隊也推出了目前最大的視覺模型，其參數量更是高達220億。（如下圖）從ViT到ViT-22所需的資料也在兩年內增加了十多倍的差距；算力更是呈現爆炸性的成長。

而在電腦視覺模型的變革上，從技術面來看可以分成幾段，一開始採用傳統機器學習進行，接著約從2012年左右進入深度學習時代後，CNN卷積神經網路紅了將近七、八年之久，直到進入Transformer時代。緊接著則是Diffusion Model時期，再到當前的Foundation Model。

除了分析式AI的發展，在生成式AI的發展也十分驚人，這十年來的模型發展從GAN、BigGAN、VQGAN、DALL-E 、Stable Diffusion，以及最近的Gen-1 。鄭文皇指出，從2020年加入Transformer架構之後，所產生的圖像畫質更細膩，影像尺寸也更大。2021年之後的DALL-E則是能藉由提供條件，讓模型產出對應的圖片；緊接著，能結合不同模態的CLIP Model也被提出，以及一連串的模型相繼被提出，更是讓人期待未來新模型的發展。

要達到真正通用型AI，只有視覺還不夠

「但要達到真正的通用型AI，只有視覺是不夠的，還需要整合其他模態。」鄭文皇提到，許多人工智慧工具的出現，顛覆了我們以往對於影片製作需要很多人力投入的工作模式，透過ChatGPT生成腳本、Midjourney產生圖像、Dall-E進行影像風格調整、Clipchamp編排影像與旁白，最後使用Creator.aiva產生背景音樂，僅以一人之力整合不同工具的應用就能產生一部影片。目前已有一些商業案例出現，例如法國家樂福的行銷團隊，便用ChatGPT加上其他生成式AI工具產生行銷影片。可以預期生成式AI將對產業產生衝擊，甚至未來十年的市場價值將會大幅提升，而需要的算力曲線也會與成長曲線一樣上升。

在這波浪潮下所面臨的許多挑戰，包括如何訓練這麼大的模型，又該如何善用GPU的特性將資料進行切割，不僅是學術面也是工程面上的大挑戰。此外，由於影像可以傳遞的訊息量十分豐富，在視覺上也會遇到「一圖勝千言」的狀況，如何進行Human-Level的分析就是一大挑戰。且即使是目前的大視覺模型也沒有辦法達到跟人一樣的能力，例如認知與指令上的整合。

大者恆大的未來挑戰

此外，如果我們將現在Market ecosystem的應用模式分成三層：「Infrastructure, tools and data」、「Model Layer」、「Application Layer」，從最下層基礎設施層就能看出當誰擁有數據、算力就能建立模型，而訓練好模型的人並不會開放而是直接產生應用層的工具，其他人只能使用應用工具，像這幾個月大家爭相註冊使用的ChatGPT就是如此。真正的使用者或開發者僅能掌控的是建立於模型上的應用工具，以及模型共享平台（Model sharing platform e.g., Hugging Face），誰擁有數據及算力才是真正擁有關鍵技術。

另一方面，在真實情境中，也可能會遇到如何在邊緣裝置上實現大模型的運算等挑戰。雖然可以利用模型壓縮等方式，但因為模型特性的不同，在硬體的設計上，例如晶片的設計也會有不同考慮點。再者，是人工智慧的安全問題，常聽到的狀況就是從模型進行反向工程，進一步得到訓練資料，造成資料外洩的問題，例如透過指令，讓模型產生與資料集相同的影像等狀況。

迎接人工智慧的下一步會是什麼？鄭文皇認為，不僅基礎模型將會成為科學研究的主流之一，且多模態的基礎模型也會有越來越多的應用範疇，而基礎模型的提供者或擁有者，將會成為新AI時代的霸主。

了解更多大規模視覺基礎模型的演進，請點選連結觀賞

全文轉載自鴻海研究院TECH BLOG

留言評論

About
Latest Posts

【鴻海研究院】

鴻海研究院（Hon Hai Research Institute）
鴻海計畫往電動車、數位健康與機器人發展，而這三個領域的技術突破，則是要靠著人工智慧、通訊技術與半導體研發做突破。這就是鴻海著名的 3+3 政策。在這些領域上想要加速，資訊安全與未來新世代算力也會是突破與發展的重點。因此，鴻海研究院 5 大研究所與1個實驗室就包含人工智慧研究所、半導體研究所、新世代通訊研究所、資通安全研究所、量子計算研究所、離子阱實驗室。

Latest posts by 【鴻海研究院】 (see all)

HHRI／鴻海啟用全台業界首座離子阱實驗室締造量子科技里程碑 - 2023 年 10 月 28 日
HHRI／AI技術的發展如何影響半導體的發展？專訪鴻海研究院半導體所郭浩中所長 - 2023 年 9 月 23 日
HHRI／攜手產學界開創新模式鴻海研究院突破碳化矽半導體技術 - 2023 年 9 月 16 日

HHRI 鴻海研究院

HHRI／大型基礎模型衝擊 電腦視覺將出現第三次變革

電腦視覺模型快速發展的十年

要達到真正通用型AI，只有視覺還不夠

大者恆大的未來挑戰

馬英九正上演著「國父『傳人』的背叛」

馮建三教授的平行宇宙

延伸閱讀

HHRI／鴻海啟用全台業界首座離子阱實驗室 締造量子科技里程...

HHRI／AI技術的發展如何影響半導體的發展？專訪鴻海研究院...

HHRI／攜手產學界開創新模式 鴻海研究院突破碳化矽半導體技...

HHRI／VCSEL 助力 3D 感測技術與自駕車光達革新，...

HHRI／研發 EV 𝝅 共享平台 聯合產官學各界 布局未來...

HHRI／大型基礎模型衝擊電腦視覺將出現第三次變革

HHRI／鴻海啟用全台業界首座離子阱實驗室締造量子科技里程...

HHRI／攜手產學界開創新模式鴻海研究院突破碳化矽半導體技...

HHRI／研發 EV 𝝅 共享平台聯合產官學各界布局未來...