學海無涯: Google AI發展

[20241001] Google AI晶片兩大方向：TPU與AlphaChip

Google 的 TPU（Tensor Processing Unit）和 AlphaChip 是兩個在 AI 和計算領域中非常重要的技術。TPU 是 Google 專為加速機器學習任務而設計的特殊應用積體電路（ASIC）。TPU 的設計目的是提高深度學習模型的訓練和推理速度，特別是在處理大規模數據集和複雜模型時。AlphaChip是Google DeepMind開發的一種利用 AI 技術設計晶片的系統。AlphaChip 使用強化學習算法來自動化晶片佈局設計。這兩項技術的結合展示AI 在硬體設計中的巨大潛力，並且為未來的計算技術發展提供新的方向。

Google自家設計的張量處理單元（TPU）歷史
在加州山景城（Mountain View）Google總部，數百台伺服器機櫃正默默執行關鍵任務，即測試Google自家設計的TPU。這些晶片並不像Google搜尋引擎或Google Cloud的服務那樣廣為人知，但在Google的AI實驗室中扮演至關重要角色。

TPU是Google於2015年首次推出的客製化AI晶片，TPU 已經經歷了多次迭代，目前最新的是第六代 TPU，稱為 Trillium。其旨在提升運算效率、滿足公司內部及雲端客戶需求。與通用的CPU和GPU不同，TPU屬於ASIC，專門為處理AI工作負載而設計。Google TPU能在特定AI應用中，提供比其他硬體高出100倍的運算效率。

Google的努力不僅限於提升內部性能。自2018年起，Google開始將TPU提供給雲端客戶，並成功吸引Apple這類大客戶。蘋果近期透露，其利用TPU來訓練支撐Apple Intelligence的AI模型，這顯示TPU在市場上的實力和競爭力。

Gemini依靠TPU進行訓練，但推出時間卻晚於OpenAI的ChatGPT
儘管Google在AI晶片領域的先行者地位無可否認，但在生成式AI的競爭中，Google未能立即取得絕對優勢。Google新一代聊天機器人Gemini雖然依靠TPU進行訓練，但其推出晚於OpenAI的ChatGPT，這一差距引發外界對Google產品發布策略的質疑。然而，Google雲端的成長動能仍顯著，最新一季母公司Alphabet財報顯示，Google Cloud收入成長29%，帶動季營收首次超過100億美元。

Google 將在2024年底推首款CPU「Axion」
Google的成功不僅是依賴TPU，還包括其客製化視訊編碼單元以及其他專用晶片。Google還計劃於2024年底推出首款通用CPU「Axion」，旨在提升其內部服務的性能。這一新產品的推出，意謂Google正在完善其晶片策略，從而進一步提升其在雲端運算市場中的競爭力。

Google與Broadcom合作
Google在晶片開發上的努力並非易事。為實現這一目標，Google與晶片開發商Broadcom合作，由Broadcom負責所有週邊任務，負責I/O、SerDes，進行晶片封裝等。晶片的最終設計則送交台積電進行晶圓製造。這一過程涉及大量資金和技術投入，對於Google這樣的超大規模企業來說，是一個極具挑戰性的任務。

Google冷卻技術
此外，Google在AI晶片開發中也面臨地緣政治風險。台積電晶圓製造工廠主要位於台灣，導致Google在處理可能的地緣政治衝突時必須謹慎應對。儘管如此，Google稱其已為這些風險做好了準備，希望這些挑戰不會對其業務造成重大影響。

能耗方面，Google也積極採取措施，應對AI伺服器所需高電力消耗。Google從第三代TPU開始採取直接到晶片冷卻（D2C）技術，大幅減少水資源消耗，這也是NVIDIA冷卻其最新Blackwell GPU的技術。

總結而言，Google在AI晶片發展上走在前沿，憑藉TPU等客製化晶片技術，在提升內部運算效率和服務客戶方面取得顯著進展。儘管面臨來自競爭對手和全球市場挑戰，Google仍致力推動技術創新，並以其尖端晶片技術為基礎，持續在AI領域拓展其領導地位。[1]

Google AlphaChip加快晶片布局規劃的設計
究竟採用AI設計晶片的實際進程如何？多家電子設計自動化（Electronic Design Automation；EDA）大廠新思科技（Synopsys）、益華電腦（Cadence）等業者均強調，EDA工具在整合AI之後，AI模型可協助IC設計時間大為縮減，AI可發揮人力無法達到的效益。

Google旗下DeepMind於9月26日在官網公開介紹，其用於晶片設計布局的強化學習方法，並將該模型命名為AlphaChip。據稱AlphaChip可望加快晶片布局規劃的設計，並進一步在性能、功耗和面積更加優化。

目前AlphaChip已發布在Github上與公眾共用。據官網介紹，AlphaChip在設計Google的TPU方面發揮重要作用，已被聯發科在內的其他公司採用。對此，聯發科表示，AlphaChip的突破性AI方法，徹底改變晶片設計的關鍵階段。

晶片設計布局（layouts）原理
通常晶片設計布局（layouts）或平面圖，可說是晶片開發中花費時間最長、勞動強度最高的階段。近年新思科技也開發AI輔助晶片設計工具，能加速開發並優化晶片的布局規劃。但是，這些工具相對昂貴，而Google希望在一定程度上，讓這種AI輔助晶片設計方法大眾化。

一般來說，如果由人類工程師替GPU等複雜晶片設計平面圖，大約需要24個月；一般不太複雜的晶片平面規劃，也至少需要幾個月的時間。相對地，Google表示AlphaChip加快這一時間表，能在短短幾個小時內，完成創建晶片布局（layout）。

AlphaChip代表AI設計AI晶片時代來臨

layout過程類似於 AlphaGo下棋。AlphaChip 可以在幾小時內完成傳統方法需要數週甚至數月的設計工作。AlphaChip 的設計理念是將晶片佈局視為一種「對弈」，AI 會從一個空白的晶片網格開始，逐步放置電路元件，並根據佈局的優劣獲得獎勵。通過不斷的訓練和學習，AlphaChip 能夠設計出在功耗、性能和面積（PPA）等關鍵指標上達到甚至超過人類專家水準的晶片。

AlphaChip的問世，不僅預示著AI在晶片設計領域的應用將變得更加廣泛，也標誌著IC設計產業正邁向一個由「AI設計AI晶片」的全新時代。做為Google旗下DeepMind的巔峰之作，AlphaChip正以其在晶片設計領域的革命性進展，囊括全球科技界的矚目。

基本上，晶片設計是一項位於現代科技之巔的領域，其複雜性在於將無數精密元件，透過極其細微的導線巧妙連接。

AlphaChip與傳統之差異
DeepMind聯合創辦人兼執行長Demis Hassabis所言，與傳統方法不同的是，AlphaChip透過解決更多的晶片布局任務，持續不斷優化自身，如人類專家不斷透過實踐過程，進而提升技能。

對此，Google已圍繞AlphaChip模型，建立一個強大的回饋循環。首先，訓練先進的晶片設計模型 AlphaChip，其次使用AlphaChip設計更優秀的AI晶片，然後再利用這些AI晶片訓練更出色的模型，最後再去設計更出色的晶片。

AlphaChip採用的處理器
Google日前披露自家TPU設計的秘密武器AlphaChip，並深度解析AI設計晶片的發展歷程，並強調截至目前為止，AlphaChip已被用於開發各種處理器，包括Google自家的TPU，包括 TPU v5e、TPU v5p 和 Trillium和聯發科旗艦型天璣5G SoC晶片設計，均已採用。這些晶片在功耗、性能和面積上都有顯著提升，並且設計周期大大縮短。

雖有AlphaChip幫忙，但目前人類設計比重仍然過高
儘管Google和聯發科目前仍只依賴AlphaChip設計晶片當中「相對有限」的一些區塊，人類工程師仍承擔了大部分的設計工作，但總體來看，AI設計完整晶片的能力依然有限。隨著技術不斷進步，AI在晶片設計領域的潛力，倘能得到進一步挖掘和利用，可望最終改變整個晶片的設計過程。[2]

Reference：

[2][20241001]聯發科天璣晶片採用　Google曝TPU設計AI秘密武器

[1][20240827] Google自研TPU多年　如何自建AI運算競爭力？

學海無涯

2024年10月1日星期二

Google AI發展

沒有留言:

電子與通訊

關於我自己

網誌存檔

2024年10月1日 星期二

Google AI發展

沒有留言:

電子與通訊

2024年10月1日星期二