CoolJobz.com - 【創科新思維】NVIDIA Eos超級電腦打破了自己的AI訓練基準記錄

【創科新思維】NVIDIA Eos超級電腦打破了自己的AI訓練基準記錄

該電腦由超過10,000個 H100 Tensor Core GPU 提供支持，能夠在四分鐘內訓練1750億個參數的GPT-3 模型，在9個基準測試中創造了6項記錄

根據您使用的硬件，訓練任何規模的大型語言模型可能需要數週、數月甚至數年才能完成。這不是做生意的方式，沒有人有足夠的電力和時間來等待那麼久。NVIDIA早前推出了最新版本的 Eos 超級電腦，該電腦由超過10,000個 H100 Tensor Core GPU 提供支持，能夠在四分鐘內用10億個代幣訓練1750億個參數的GPT-3 模型。這比NVIDIA 六個月前製定的MLPerf AI 產業標準基準快了三倍。

Eos 代表著龐大的計算量。它利用NVIDIA 的 Infiniband 網路（每秒傳輸 1 PB 資料）和 860 TB 高頻寬記憶體（36PB/秒聚合頻寬和 1.1PB 秒互連）串在一起的 10,752個 GPU，提供40 exaflops的 AI 處理能力。整個雲端架構由 1344 個節點組成，公司可以以每月約 37,000 美元的價格租用單一伺服器來擴展其人工智慧功能，而無需建立自己的基礎設施。

NVIDIA在9個基準測試中創造了6項記錄：GPT-3 的 3.9 分鐘分數、使用 1,024 個 Hopper GPU 訓練穩定擴散模型的 2.5 分鐘分數、甚至訓練 DLRM 的一分鐘、RetinaNet 的 55.2 秒、46 3D U-Net 和BERT-Large 模型的訓練時間僅7.2 秒。

NVIDIA 很快指出，基準測試中使用的 GPT-3 的 1750 億參數版本並不是模型的全尺寸迭代（穩定擴散模型也不是）。更大的 GPT-3 提供了大約 3.7兆個參數，但對於用作基準測試來說太大且笨重。例如，在具有 512個 GPU 的舊 A100 系統上訓練它需要 18個月，而 Eos 只需要8天。

因此，NVIDIA 和管理 MLPerf 標準的 MLCommons 使用了一個更緊湊的版本，該版本使用 10億個代幣（產生 AI 系統理解的最小資料分母單位）。該測試使用 GPT-3 版本，具有相同數量的潛在開關來翻轉（即 1750 億個參數），只是在其中使用更易於管理的數據集（10億個代幣 vs 3.7兆個）。

當然，令人印象深刻的效能改進來自於這樣一個事實：最近一輪測試使用了 10,752個 H100 GPU，而該公司在6月的基準測試中使用了3,584 個 Hopper GPU 。然而 NVIDIA 解釋說，儘管 GPU 數量增加了兩倍，但透過大量使用軟體優化，它仍設法保持 2.8 倍的效能擴展，即 93% 的效率。

NVIDIA加速計算產品總監 Dave Salvatory 說擴展是一件美妙的事情，但擴展意味著更多的基礎設施，這也意味著更多的成本。有效擴展意味著用戶充分利用你的基礎設施這樣您基本上可以快速地完成工作，並從您的組織所做的投資中獲得最大價值。

這家晶片製造商並不是唯一一家進行開發工作的公司。微軟的Azure團隊為本輪基準測試提交了類似的10,752個H100 GPU系統，取得的成績與NVIDIA的相差不到百分之二。

Dave Salvator 在簡報中表示，Azure 團隊已經能夠實現與 Eos 超級電腦相當的性能。更重要的是團隊們正在使用Infiniband，但這是一個商業實例。這不是一些原始的實驗室系統，永遠不會讓實際客戶看到它的好處。這是Azure 向其客戶提供的實際實例。」

NVIDIA 計劃將這些擴展的運算能力應用於各種任務，包括該公司在基礎模型開發、人工智慧輔助 GPU 設計、神經渲染、多模態生成人工智慧和自動駕駛系統方面正在進行的工作。

Salvator 表示，任何想要保持市場相關性的良好基準都必須不斷更新它將向硬體施加的工作負載，以最好地反映其希望服務的市場。他指出MLCommons 最近添加了一個用於測試模型性能的額外基準穩定擴散任務。這是產生人工智慧的另一個令人興奮的領域，公司看到各種各樣的東西被創造出來。

這些基準很重要，因為正如Salvator所指出的那樣，生成式人工智慧行銷的現狀有點像「狂野的西部」。缺乏嚴格的監督和監管意味著，人們有時會看到某些人工智能性能聲明，但你不太確定產生這些特定聲明的所有參數。Salvator 表示，MLPerf 提供了專業保證，即公司使用其測試生成的基準數據「經過了審查、審查，在某些情況下甚至受到聯盟其他成員的質疑或質疑」，正是這種同行評審過程真正為這些結果帶來了可信度。

近幾個月來，NVIDIA 一直在穩步關注其 AI 能力和應用。「我們正處於人工智慧的 iPhone 時刻，」執行長黃仁勳在 3 月的 GTC 主題演講中說道。當時該公司宣布推出 DGX 雲端系統，該系統分配了超級電腦的部分處理能力，特別是透過運行 60GB VRAM（總共 640 個記憶體）的 8 個 H100 或 A100 晶片。該公司於 5 月在 Computex 上發布了 DGX GH200，擴大了其超級計算產品組合。

文字：編輯部

CoolJobz 正在提供全備的招聘服務（包括獵頭服務），

若你是求職者，

請按 Sign Up 登記成為會員並填妥你的個人履歷，

我們將有專人為你配對工作。

若你是僱主，

請致電 31884978、WhatsApp 63550329 或電郵至 cs@cooljobz.com 與我們聯絡。

熱門文章：

【熱點新態勢】Cruise機器人計程車被加州停牌後發現的問題越揭越多