Google 的 TPU(Tensor Processing Unit)和 AlphaChip 是兩個在 AI 和計算領域中非常重要的技術。TPU 是 Google 專為加速機器學習任務而設計的特殊應用積體電路(ASIC)。TPU 的設計目的是提高深度學習模型的訓練和推理速度,特別是在處理大規模數據集和複雜模型時。AlphaChip是Google DeepMind開發的一種利用 AI 技術設計晶片的系統。AlphaChip 使用強化學習算法來自動化晶片佈局設計。這兩項技術的結合展示AI 在硬體設計中的巨大潛力,並且為未來的計算技術發展提供新的方向。
Google自家設計的張量處理單元(TPU)歷史
在加州山景城(Mountain View)Google總部,數百台伺服器機櫃正默默執行關鍵任務,即測試Google自家設計的TPU。這些晶片並不像Google搜尋引擎或Google Cloud的服務那樣廣為人知,但在Google的AI實驗室中扮演至關重要角色。
TPU是Google於2015年首次推出的客製化AI晶片,TPU 已經經歷了多次迭代,目前最新的是第六代 TPU,稱為 Trillium。其旨在提升運算效率、滿足公司內部及雲端客戶需求。與通用的CPU和GPU不同,TPU屬於ASIC,專門為處理AI工作負載而設計。Google TPU能在特定AI應用中,提供比其他硬體高出100倍的運算效率。
在加州山景城(Mountain View)Google總部,數百台伺服器機櫃正默默執行關鍵任務,即測試Google自家設計的TPU。這些晶片並不像Google搜尋引擎或Google Cloud的服務那樣廣為人知,但在Google的AI實驗室中扮演至關重要角色。
TPU是Google於2015年首次推出的客製化AI晶片,TPU 已經經歷了多次迭代,目前最新的是第六代 TPU,稱為 Trillium。其旨在提升運算效率、滿足公司內部及雲端客戶需求。與通用的CPU和GPU不同,TPU屬於ASIC,專門為處理AI工作負載而設計。Google TPU能在特定AI應用中,提供比其他硬體高出100倍的運算效率。
Google的努力不僅限於提升內部性能。自2018年起,Google開始將TPU提供給雲端客戶,並成功吸引Apple這類大客戶。蘋果近期透露,其利用TPU來訓練支撐Apple Intelligence的AI模型,這顯示TPU在市場上的實力和競爭力。
Gemini依靠TPU進行訓練,但推出時間卻晚於OpenAI的ChatGPT
儘管Google在AI晶片領域的先行者地位無可否認,但在生成式AI的競爭中,Google未能立即取得絕對優勢。Google新一代聊天機器人Gemini雖然依靠TPU進行訓練,但其推出晚於OpenAI的ChatGPT,這一差距引發外界對Google產品發布策略的質疑。然而,Google雲端的成長動能仍顯著,最新一季母公司Alphabet財報顯示,Google Cloud收入成長29%,帶動季營收首次超過100億美元。
Google 將在2024年底推首款CPU「Axion」
Google的成功不僅是依賴TPU,還包括其客製化視訊編碼單元以及其他專用晶片。Google還計劃於2024年底推出首款通用CPU「Axion」,旨在提升其內部服務的性能。這一新產品的推出,意謂Google正在完善其晶片策略,從而進一步提升其在雲端運算市場中的競爭力。
Google與Broadcom合作
Google在晶片開發上的努力並非易事。為實現這一目標,Google與晶片開發商Broadcom合作,由Broadcom負責所有週邊任務,負責I/O、SerDes,進行晶片封裝等。晶片的最終設計則送交台積電進行晶圓製造。這一過程涉及大量資金和技術投入,對於Google這樣的超大規模企業來說,是一個極具挑戰性的任務。
Google冷卻技術
此外,Google在AI晶片開發中也面臨地緣政治風險。台積電晶圓製造工廠主要位於台灣,導致Google在處理可能的地緣政治衝突時必須謹慎應對。儘管如此,Google稱其已為這些風險做好了準備,希望這些挑戰不會對其業務造成重大影響。
能耗方面,Google也積極採取措施,應對AI伺服器所需高電力消耗。Google從第三代TPU開始採取直接到晶片冷卻(D2C)技術,大幅減少水資源消耗,這也是NVIDIA冷卻其最新Blackwell GPU的技術。
總結而言,Google在AI晶片發展上走在前沿,憑藉TPU等客製化晶片技術,在提升內部運算效率和服務客戶方面取得顯著進展。儘管面臨來自競爭對手和全球市場挑戰,Google仍致力推動技術創新,並以其尖端晶片技術為基礎,持續在AI領域拓展其領導地位。[1]
Google AlphaChip加快晶片布局規劃的設計
究竟採用AI設計晶片的實際進程如何?多家電子設計自動化(Electronic Design Automation;EDA)大廠新思科技(Synopsys)、益華電腦(Cadence)等業者均強調,EDA工具在整合AI之後,AI模型可協助IC設計時間大為縮減,AI可發揮人力無法達到的效益。
Google旗下DeepMind於9月26日在官網公開介紹,其用於晶片設計布局的強化學習方法,並將該模型命名為AlphaChip。據稱AlphaChip可望加快晶片布局規劃的設計,並進一步在性能、功耗和面積更加優化。
目前AlphaChip已發布在Github上與公眾共用。據官網介紹,AlphaChip在設計Google的TPU方面發揮重要作用,已被聯發科在內的其他公司採用。對此,聯發科表示,AlphaChip的突破性AI方法,徹底改變晶片設計的關鍵階段。
晶片設計布局(layouts)原理
通常晶片設計布局(layouts)或平面圖,可說是晶片開發中花費時間最長、勞動強度最高的階段。近年新思科技也開發AI輔助晶片設計工具,能加速開發並優化晶片的布局規劃。但是,這些工具相對昂貴,而Google希望在一定程度上,讓這種AI輔助晶片設計方法大眾化。
一般來說,如果由人類工程師替GPU等複雜晶片設計平面圖,大約需要24個月;一般不太複雜的晶片平面規劃,也至少需要幾個月的時間。相對地,Google表示AlphaChip加快這一時間表,能在短短幾個小時內,完成創建晶片布局(layout)。
AlphaChip代表AI設計AI晶片時代來臨
layout過程類似於 AlphaGo下棋。AlphaChip 可以在幾小時內完成傳統方法需要數週甚至數月的設計工作。AlphaChip 的設計理念是將晶片佈局視為一種「對弈」,AI 會從一個空白的晶片網格開始,逐步放置電路元件,並根據佈局的優劣獲得獎勵。通過不斷的訓練和學習,AlphaChip 能夠設計出在功耗、性能和面積(PPA)等關鍵指標上達到甚至超過人類專家水準的晶片。
基本上,晶片設計是一項位於現代科技之巔的領域,其複雜性在於將無數精密元件,透過極其細微的導線巧妙連接。
AlphaChip與傳統之差異
DeepMind聯合創辦人兼執行長Demis Hassabis所言,與傳統方法不同的是,AlphaChip透過解決更多的晶片布局任務,持續不斷優化自身,如人類專家不斷透過實踐過程,進而提升技能。
對此,Google已圍繞AlphaChip模型,建立一個強大的回饋循環。首先,訓練先進的晶片設計模型 AlphaChip,其次使用AlphaChip設計更優秀的AI晶片,然後再利用這些AI晶片訓練更出色的模型,最後再去設計更出色的晶片。
AlphaChip採用的處理器
Google日前披露自家TPU設計的秘密武器AlphaChip,並深度解析AI設計晶片的發展歷程,並強調截至目前為止,AlphaChip已被用於開發各種處理器,包括Google自家的TPU,包括 TPU v5e、TPU v5p 和 Trillium和聯發科旗艦型天璣5G SoC晶片設計,均已採用。這些晶片在功耗、性能和面積上都有顯著提升,並且設計周期大大縮短。
雖有AlphaChip幫忙,但目前人類設計比重仍然過高
儘管Google和聯發科目前仍只依賴AlphaChip設計晶片當中「相對有限」的一些區塊,人類工程師仍承擔了大部分的設計工作,但總體來看,AI設計完整晶片的能力依然有限。隨著技術不斷進步,AI在晶片設計領域的潛力,倘能得到進一步挖掘和利用,可望最終改變整個晶片的設計過程。[2]
儘管Google和聯發科目前仍只依賴AlphaChip設計晶片當中「相對有限」的一些區塊,人類工程師仍承擔了大部分的設計工作,但總體來看,AI設計完整晶片的能力依然有限。隨著技術不斷進步,AI在晶片設計領域的潛力,倘能得到進一步挖掘和利用,可望最終改變整個晶片的設計過程。[2]
Reference:
[2][20241001]聯發科天璣晶片採用 Google曝TPU設計AI秘密武器
[1][20240827] Google自研TPU多年 如何自建AI運算競爭力?
沒有留言:
張貼留言