2024年4月11日 星期四

AI模型研究


[20240426] 群聯、聯發科合力催生平民版GAI,潘健成:傳統PC設備即能達到70B參數AI運算

群聯與聯發科合力打造AI新藍海市場,不與雲端AI直接競爭,鎖定邊緣、中小型運算需求,致力生成式人工智慧(GAI)平民化、普及化。

群聯董事長潘健成指出,不需要額外投資,用傳統PC基礎設備,即能達到70B參數AI運算。潘健成以20年前機械手臂為例,當時要價1,500萬的設備,如今已普及全部工廠;典範轉移正發生於生成式AI身上。市場如今面臨一樣的問題,頂級GPU太貴、中小企業想用卻用不起,群聯本身也遇到相同痛點,遂開始投入研發,以自身於記憶體領域優勢,在近期推出平價版生成式AI解決方案。

GPU決定算力、HBM則決定模型大小,群聯以SSD取代造價高昂的HBM系統,加上輝達消費級GPU打造,將傳統工作站升級為小規模AI伺服器,硬體成本大幅降低;儘管運算速度仍不如大型CSP運端運算,不過相當具備成本優勢;他打趣地說道,台北到高雄,坐飛機最快、但是高鐵更有性價比。

此外,聯發科資深處長梁伯嵩強調,邊緣與雲端CPU設計有非常大的不同,輕巧化、高能源效率將為未來趨勢。梁伯嵩則分析,行動處理器在AI人工智慧計算上,受到更多限制。10年之間,手機CPU在同樣面積下,電晶體數量由10億成長至200億個,但受限功耗,在設計上就需要進行取捨,尤其要以幾十億之參數模型進行推論,考驗IC設計公司技術實力。

要讓大型神經網路的AI能力湧現(Emergence),需要極大量運算需求,短短七年間成長三十萬倍以上,遠超過半導體摩爾定律的成長速度,讓AI快速進入 Large-Scale Era。梁伯嵩表示,現階段將大型神經網路透過預訓練後,再Fine Tune進行下游任務訓練,兩階段的訓練方式,將協助生成式AI普及化。

然而,根據財團法人人工智慧科技基金會(AIF)的2023台灣產業AI化大調查,台灣企業已經開始使用AI,並且有超過半數的企業已經導入生成式AI工具。這些生成式AI工具降低了AI的使用門檻,使得企業內部已經開始導入AI到公司的營運流程或個人/部門內使用。其中,企業多半使用現成工具,例如ChatGPT、Midjourney和Bing。此外,一些企業也會串連生成式AI服務商所提供的API,開發自家專屬服務,或者開發自己的生成式AI模型(含fine-tuning)。

台灣業者再度發揮科技界的重要特質,如何有創意的降低成本(lower the cost),台灣的IC設計公司群聯與聯發科,作為頂尖企業,已經看出AI的商機。這兩家公司分別位居記憶體與處理器龍頭地位,這使得它們能夠互補合作,共同切入AI的低價發展優勢,並鎖定邊緣、中小型運算需求。預計台灣的業者將會前仆後繼,並發展其產業鏈群聚效益,因為降低使用運算需求成為AI進展與普及的關鍵,更是半導體產業的全新機會。台灣身處半導體產業鏈的關鍵角色,從IC的製造者,也同時成為AI應用的領先群,使台灣科技產業更上一層樓。

此外,AI的應用不僅僅局限於成本降低,並可加速企業的ESG永續發展。因此,企業應該密切關注AI的發展,並在營運策略與企業治理的高度重新定義及定位。

[20240411] 聯發科AI達哥模型推廣至台灣約40家企業

聯發創新基地團隊打造出的繁體中文大型語言模型BreeXe,目前已經開源並提供給各路研究者使用。聯發科創新基地負責人許大山博士表示,團隊除會繼續強化並更新BreeXe模型之外,本次對外推出的MediaTek DaVinci平台(該公司內部稱:達哥),更有可能成為聯發科另外一個新的發展契機。

MediaTek DaVinci平台最開始是公司為讓員工在工作時能更方便使用生成式AI(Generative AI,GAI)而開發的,核心思維是要透過手機App讓GAI變得更方便開發及使用。

由於聯發科有近一半的員工具備Coding能力,員工都可用該平台開發不同功能的AI工具,並以App Store的模式上架給公司其他人使用,這是個提高生成式AI在企業端使用效率的平台,而這也是聯發科認為,可以將該平台向外推廣給更多台灣企業的主因。

MediaTek DaVinci平台目前已有約40家來自高科技、金融、電信、法律、製造、銷售、服務、系統整合、雲端服務等產業的企業,包括教育機構、新創公司、API媒合平台群鼎團隊、意藍資訊以及提供aiDAPTIV+服務方案的群聯電子等,都加入MediaTek Davinci生態系。

未來該平台將與系統整合商合作,包括目前合作最為緊密的賽微科技,來強化平台的各類功能並服務導入平台的客戶。

平台未來會以授權的方式,和系統整合商一起提供給客戶,並收取授權費,每一家使用平台的業者,可以自由選擇其所需的運算基礎建設,要自建多高規格的資料中心,或是和雲端服務商合作,平台都可以配合;而這個平台也會以企業內網的模式提供服務,因此可以確保各類生成式AI工具的開發及背景資料,都是企業內部才能使用,並沒有外流的風險。

目前已經有許多大客戶在針對平台進行測試,來自各種不同業界的詢問度非常高,且熱度可以說是在2024年短短三個多月的時間快速竄起,可以看出台灣各行各業對於採用生成式AI來提高生產力的需求相當明確。

以營收來說,平台和主業的IC設計業務,在規模上完全不能相比,站在聯發科的立場,還是希望可以和更多台灣的企業一起分享生成式AI技術帶來的生產力提升,未來也有機會擴大推廣的範圍,將平台推向海外。值得注意的是,聯發科首次跳脫原本終端設備商角色,逐漸藉由AI達哥模型,進行應用服務而擴展AI於各大企業。

[20240319] 群聯研發邊緣記憶體最大化效能執行AI模型,建構AI生態圈
群聯執行長潘健成表示,GAI(生成式人工智慧)出現,帶動各種AI應用領域不斷擴大,產官學、企業界對AI模型微調(Fine-Tuning)運算需求持續上升,AI逐漸成為生活中不可或缺的場景。惟礙於建置成本資安考量,滲透率尚未明顯展開。當初在DOS系統時代,只有工程師會用編碼語言,但是後來推出win95,變成全世界都會用。目前群聯現今作法,則讓AI落地且更便宜,群聯積極尋找合作夥伴加入,建立生態系,希望將整個應用更簡化,讓大家都可以用。

因此,群聯自主開發AI運算服務「aiDAPTIV」,可以在本地有限的GPU與記憶體資源下,最大化效能執行AI模型,將有效降低提供AI服務所需投入的硬體建構成本。aiDAPTIV+賦予一個全新「Home-computing」概念,一次性解決隱私、安全性、個人化及成本優化問題,將帶動AI快速普及。結構性拆分大型AI模型並協同固態硬碟(Solid State Drive,SSD)運行,大幅降低硬體成本還提高運算效率,使有限GPU與DRAM資源下也能訓練大型AI模型。

其中,SSD和USB隨身碟類似,SSD使用快閃記憶體儲存資料,並以數位方式存取資料。傳統硬碟(HDD)利用旋轉碟片與橫跨於其上的懸臂讀取每個資料片段。由於 SSD 不須透過旋轉碟片尋找資料,因此可以提供您近乎即時的開機與讀取速度。

當前AI預訓練是客製化AI模型的重要基礎,而aiDAPTIV+則是在預訓練的模型為基礎化為可理解特定領域的專業工具,諸如法律、會計、醫療、工程等,提供該領域的精確服務。透過通用工作站硬體與aiDAPTIV+軟體middleware與群聯的aiDAPTIVCache系列ai100 SSD,可使工作站AI伺服器訓練更大規模的模型。

aiDAPTIV+著重在使開發者可專注於訓練使用者資料而非費時增加工程技能,可降低AI訓練複雜度與AI運算硬體需求,同時透過aiDAPTIVCache系列ai100 SSD可在不大幅增加成本下提升GPU可用的記憶體容量,同時透過地端AI微調訓練使資料不須上傳,保有資料安全性。

然而,群聯的記憶體也與AI有所牽連,這實在是很難想像,偏材料的記憶體,也與AI有所牽連。AI手機、AI PC、AI 記憶體,不過這到底是真的有所應用,還是在炒股票呢?不過群聯與聯發科的雙方合作是真的,雙方合作的名稱為:深度整合群聯創新AI運算服務 aiDAPTIV+和聯發科生成式AI服務平台MediaTek DaVinci。

其實不只和聯發科,群聯還與技嘉、華碩 、MAINGEAR、台灣大哥大建立「aiDAPTIV+」技術合作夥伴關係。其中MAINGEAR是一間主打客製化生產的精品電腦廠商,主要業務之一為替玩家打造各式各樣的華麗的水冷散熱主機,類似於台灣的TT曜越。總之,這呼應群聯積極尋找合作夥伴加入,建立生態系,希望將整個應用更簡化。

[20240312] 生成式AI技術瓶頸消失,終端手機、PC全面展開AI應用
GAI已成為推動電子產業向前發展的主動能,發展願景逐步從雲端延伸到邊緣端,AI手機、AI PC等。但是生成式AI模型的硬體需求門檻高,運算成本居高,尤其對訓練大型語言模型為運算基礎設施帶來無法忽視的記憶體挑戰,主要是因權重大小和優化器狀態不斷增加,這是無論運算晶片多強都難以繞過的問題。不過,各硬體晶片廠紛紛試著在不同領域投入相關研究,有望從AI演算法本身來解決硬體門檻。

這對於主流的手機規格,如果要運轉70億參數的INT8 LLM模型並順暢地運作,需要用到7~8GB的記憶體容量。這等於要在單一功能上用掉全部的記憶體容量,為維持其他功能的運作,手機的RAM最好要拉高到24GB才會夠用,對於邊緣端生成式AI的普及來說,會是很大的成本負擔。

目前AI的演進在足夠的資源及人力開發之下,每一季會往上跳一個世代,2023年Q4聯發科與Qualcomm尚未推出LoRA技術,但在MWC 2024已可看聯發科和Qualcomm提出Microsoft的LoRA技術。LoRA技術的概念是凍結原本預訓練模型權重,減少訓練參數量和優化器狀態,也能達到很好的微調(fine-tuning)效果。LoRA被用於微調生成AI圖片的參數,能夠在更小的記憶體需求下,讓生成的結果更加精準且迅速,相關技術對於手機生成式AI帶來的功能升級。

此外,曾在NVIDIA擔任AI研究資深總監的Anima Anandkumar提出GaLore(Gradient Low-Rank Projection)預訓練技術,可讓模型使用全部參數進行學習,同時比 LoRA 更省記憶體。在同樣運算效能的前提之下,GaLore可以將訓練期間的記憶體使用量減少達65%左右。而GaLore的另外優點是讓原本只能用在大型伺服器上的大型語言模型,透過家用電腦的高階顯示卡(例如 NVIDIA RTX 4090)也能進行訓練,研究人員首次證明在具有 24GB 記憶體的 GPU 預訓練 7B 參數模型是可行的。

因此可預見的未來,晶片廠商MTK和Qualcomm除了將LoRA導入,也會將改良lLoRA的GaLore導入。未來AI手機將有望和Wi-Fi一樣成為手機的標配,成為真正的智慧型手機。

[20240221] Google AI之探究,Gemini 1.5 Pro包含MoE模型
2024年2月,推出Gemini 1.0 Ultra模型,並且將「Bard」AI服務更名為「Gemini」之後,Google再宣布推出新版Gemini 1.5 Pro模型,強調能提供更進階執行效能,除上下文處理長度大幅增加,混合專家(Mixture of Experts; MoE)模型架構也是亮點。Google基礎設施強大、可調動眾多資料中心TPU訓練模型,但在新模型也採用MoE架構可視為指標

此外,Gemini 1.5 Pro更具備在大量資料中準確處理內容能力,例如可從多達402頁的阿波羅11號登月任務推斷各類細節,或是分析由巴斯特基頓主演長度為44分鐘的無聲電影主要情節、故事重點,另外也能對應長度更長的前後文關係判斷,藉此呈現與人類相仿的內容判斷能力,對於資訊分析、語意理解都能有更大提升效果。

Google在技術報告中提到,Gemini 1.5 Pro採稀疏式MoE,仍為Transformer架構,包含影像和語言模型,從Gemini 1.0原生多模態模型的基礎進展而來。過去數年來,團隊持續發表MoE相關研究,屬早期採用者。訓練Gemini 1.5 Pro時,如同Gemini 1.0 Ultra、1.0 Pro,運用4,096顆晶片為一組的Google TPUv4加速器,橫跨數個資料中心的資源。

Gemini 1.5可處理達 100 萬個 token 數,Google 表示長度約等同於一次性處理 1 小時的影片、11小時的音訊、超過 3 萬的行程式碼,或超過 70 萬個單字的程式碼庫。反觀 Gemini 1.0 Pro的token數為3萬 2000 個,GPT-4 Turbo 則是 12 萬 8000 個。

其實,傳統Transformer架構是一個大型的神經網路,MoE架構則切分成數個小型神經網路,可將輸入資料導向特定子集,只喚醒最相關的參數,形成條件式計算(conditional computation),大幅提升模型訓練和運作的效率。

MoE架構雖可提升預訓練階段的運算效率,但也可能導致overfitting,也就是過於符合訓練資料,在微調階段的泛化、通用化能力受限。

Gemini 1.5 之後將取代 Gemini 1.0,因此使用 Gemini 聊天機器人(原名 Bard)時就能與新版模型互動。不過標準版 Gemini 1.5 的 token 數僅會有的 12 萬 8,000 個,若要達百萬個 token 需額外付費[11]。

除Google,法國獨角獸新創Mistral AI也是MoE架構代表,已推出Mixtral 8x7B模型,稱可媲美、甚至超越Meta Llama 2參數量700億的模型表現。開源平台Hugging Face資料顯示,MoE架構包含混合專家層(每個神經網路代表一種專家),以及閘門或路由網路層,決定輸入資料要送到哪一專家層。

整體而言,在2022年底OpenAI發布ChatGPT後,看到AI的三巨頭的微軟(Open AI)、Google(Gemini )、META的蓬勃發展,不禁擔心會不會將來的一切全部都被AI掌握,那我們該何去何從呢?人們在享受便利的同時,也會失去某項優勢。不過,與其排斥AI,倒不如全心全意擁抱AI吧。

[20240220] AI模型探究
Meta研究員Martin Signoux於2023年底提出2024年AI趨勢預測,八大預測圍繞著模型發展融合消費性裝置兩大重點,包括多模態AI賦能的智慧眼鏡將成趨勢;繼LLM之後,大型多模態模型(LMM)、小型語言模型(SLM)將成新焦點;AI助理百花齊放,ChatGPT不再是唯一品牌,打破OpenAI一支獨秀現況的期待與開源模型、評測基準等議題。

Meta首席AI科學家楊立昆也轉發他的貼文,並表示同意其預測。針對小模型,Signoux談到用戶對成本效益和永續議題愈加重視,將加速SLM發展趨勢;此外,模型量化(Quantization)技術持續改善,帶動消費裝置融入小模型。

此外,Microsoft近期發表AI趨勢預測,強調小語言模型、多模態、科學應用為3大值得關注方向。事實上,許多業者皆期盼更多小模型可供選擇,原因不外乎是為了降低開發和維運成本,希望需要強化AI功能、但不增加太多成本,是整體業界的心之所向。

Microsoft在官方部落格表示,2023年是生成式AI重大進展的一年,相關技術從研發人員的實驗室走到現實生活。其以OpenAI ChatGPT、微軟Copilot為商品化兩大代表,並認為AI將愈趨普及、細緻化,並將與改善日常生活或重大問題的科技整合。

預計將出現可打敗GPT-4的開源模型,但開源與閉源陣營之間的辯論料將逐漸熄火。過去一年來開源陣營的動能強勁,與閉源模型的差距將逐漸消弭。市面上模型目前並無單一基準可滿足所有評測需求。既有基準如HELM持續改善,也有新評測機制如GAIA出現。

小語言模型(Small language model; SLM)
相較於參數量在數十億以上的LLM,小模型的參數量在數億等級,一大指標是可在手機端「離線」運作。微軟研究人員指出,小語言模型可讓AI更為普及、更多人可負擔,團隊正在開發新方法,讓小模型可如同大模型具備強大功能。

其已發表的小模型有Phi、Orca,稱某些任務的表現可媲美、甚至優於大模型。SLM訓練採高品質、挑選過的資料集,資料量就不須像訓練LLM來得大。

事實上,愈來愈多業者加入SLM發展行列,Google、Meta以及法國新創Mistral AI皆已發表相對輕量級的模型。Meta開源的Llama系列模型,獲許多開發人員使用,參數量70億等級者為常用款。

Google則為手機端推Gemini Nano模型,Nano-1參數量為18億個,Nano-2則有32.5億個,支援錄音檔摘要、訊息智慧回覆等功能。

此外,雖有許多新模型出現,但Meta研究員認為,2024年不會出現真正有突破性的發展,達到通用人工智慧(AGI)等級;LLM仍難擺脫既有限制,如模型的幻覺(Hallucination)問題。事實上,ChatGPT爆紅後,不但改寫AI發展路徑,也讓之前許多科技趨勢預測失效。雖然如此,Signoux的看法仍反映Meta團隊或AI領域所關注的重點。

近期許多專家皆談到,通用LLM的訓練資料綜合多種學科領域,但特定領域應用、企業級應用並不需要那麼多通識背景,可改用參數量較小的模型。要讓模型大小與精準度可達到最佳平衡,參數量該是多少?目前仍未有統一共識,但不同專家多指向百億等級的範圍。

有專家認為,模型參數量在50億~100億個之間,開始有人類智慧的跡象;另有開發者則指出,參數量在70億個~130億個的模型,通常只能解決單一任務;估計要到220億個參數以上,才會突破某個門檻、湧現能力。此外,開源模型讓開發者有較多彈性調整模型,愈來愈多模型開發者透過開源擴大夥伴生態系。

Unite AI網站盤點目前最佳5大開源模型,Meta Llama 2居冠,而後依序是開源社群的BLOOM、MosaicML的MPT-7B、阿拉伯聯合大公國技術創新研究院的Falcon系列、LMSYS Org的Vicuna-13B。

由於Meta與微軟擴大合作,Llama 2也可在微軟Azure和Windows取用。此外,高通也已宣布與Meta合作,預計2024年起,透過其晶片,將Llama 2賦能的AI應用帶入旗艦型手機和PC。

多模態(Multimodal AI)
正如其他業者,微軟也強調LLM朝多模態發展的趨勢。多模態指的是文字、圖片、影像、聲音等不同資料型態。近期OpenAI推出文字轉影片模型Sora,獲得外界高度關注;Google Gemini系列模型也主打支援多模態。

目前多數LLM仍基於Google Transformer架構,Meta則提出另一架構Joint Embedding Predictive Architectures(JEPA),近期公布影像處理版V-JEPA模型,希望透過「預測」影像缺失或被遮蔽部分,增進AI學習。相較於上述競業以新模型推進多模態,微軟則強調產品整合,如Copilot、Designer可支援語音、影像、搜尋資料處理。據此合理推測,多模態相關功能的模型仍由OpenAI提供。

科學應用(AI in science)

微軟表示許多專家希望AI工具可加速研發進程,常見議題如全球暖化、能源危機、公共疫情等。應用場景包括天氣預測、碳排預測、增進永續農業的數位工具。近期也有人為農民開發一款聊天機器人,可找出不知名的雜草、比較不同灌溉方式效率等。而在生物科技領域,癌症病理影像偵測、新藥開發、新興電池材料尋找等需求,也使用到廣義的AI工具。事實上,Google、Meta也常發表AI相關科研成果。Google近期即宣布與Environmental Defense Fund合作,運用衛星和AI演算法偵測甲烷排放。Meta則曾發表保存全球少數語言的計畫並開源相關模型。

Key:

  • 如果要運轉70億參數的INT8 LLM模型並順暢地運作,需要用到7~8GB的記憶體容量,等於要在單一功能上用掉全部的記憶體容量,為維持其他功能的運作,手機的RAM最好要拉高到24GB才會夠用,對於邊緣端生成式AI的普及是很大的成本負擔。
  • LLM並不適合自駕車、機器人等運算資源有限的邊緣AI終端裝置應用麻省理工學院計算機科學與人工智能實驗室(CSAIL)已開發規模小的液態神經網路(Liquid Neural Network;LNN)模型,可望推動AI領域的創新,尤其在傳統深度學習模型難以實現的領域,如機器人和自駕車等。
  • LNN最顯著的特點為結構緊湊,如典型深度神經網路約需10萬個人工神經元和50萬個參數,才能完成讓汽車維持在車道任務。然而,MIT只用19個神經元就能訓練出一個LNN完成同樣任務。
  • 2026年前,預計超過80%的企業將融入生成式AI技術,進而大幅提升創新能力與工作效率(數據來自Gartner)
  • 傳統Transformer架構是一個大型的神經網路,MoE架構則切分成數個小型神經網路,可將輸入資料導向特定子集,只喚醒最相關的參數,形成條件式計算,大幅提升模型訓練和運作的效率。
  • 模型參數量在50億~100億個之間,開始有人類智慧的跡象;另有開發者則指出,參數量在70億個~130億個的模型,通常只能解決單一任務;估計要到220億個參數以上,才會突破某個門檻、湧現能力。

  • MediaTek DaVinci(達哥)平台目前已有約40家來自高科技、金融、電信、法律、製造、銷售、服務、系統整合、雲端服務等產業的企業,包括教育機構、新創公司、API媒合平台群鼎團隊、意藍資訊以及提供aiDAPTIV+服務方案的群聯電子等,都加入MediaTek Davinci生態系。
  • 群聯董事長潘健成指出,不需要額外投資,用傳統PC基礎設備,即能達到70B參數AI運算。潘健成以20年前機械手臂為例,當時要價1,500萬的設備,如今已普及全部工廠;典範轉移正發生於生成式AI身上。
  • GPU決定算力、HBM則決定模型大小,群聯以SSD取代造價高昂的HBM系統,加上輝達消費級GPU打造,將傳統工作站升級為小規模AI伺服器,硬體成本大幅降低;儘管運算速度仍不如大型CSP運端運算,不過相當具備成本優勢
    • 台北到高雄,坐飛機最快、但是高鐵更有性價比。
  • 聯發科資深處長梁伯嵩強調,邊緣與雲端CPU設計有非常大的不同,輕巧化、高能源效率將為未來趨勢。
    • 行動處理器在AI計算上,受到更多限制。10年之間,手機CPU在同樣面積下,電晶體數量由10億成長至200億個,但受限功耗,在設計上就需要進行取捨,尤其要以幾十億之參數模型進行推論,考驗IC設計公司技術實力。
    • 要讓大型神經網路的AI能力湧現(Emergence),需要極大量運算需求,短短七年間成長三十萬倍以上,遠超過半導體摩爾定律的成長速度,讓AI快速進入 Large-Scale Era。現階段將大型神經網路透過預訓練後,再Fine Tune進行下游任務訓練,兩階段的訓練方式,將協助生成式AI普及化。

Reference:

[11][20240216]Google 新模型「Gemini 1.5」亮相!token 數破百萬、採 MoE 架構效率更佳

https://www.inside.com.tw/article/34200-gemini-1.5



沒有留言:

電子與通訊

這裡就是我的新的Blog 將以電子與通訊 做為本人研究探討之地!!
希望能夠更加了解神奇的宇宙 歡迎各位光臨 ^^"