AWS 宣布 Amazon EC2 P5 執行個體正式可用 加速生成式 AI 和高性能運算應用

由 NVIDIA H100 Tensor Core GPU 驅動

香港 – Media OutReach – 2023年7月31日 – 亞馬遜(納斯達克股票代碼:AMZN)旗下公司 Amazon Web Services 近日在紐約峰會上宣布 Amazon Elastic Compute Cloud(EC2)P5 執行個體正式可用。這是一款新一代 GPU 執行個體,由最新的 NVIDIA H100 Tensor Core GPU 驅動,可以滿足客戶在運行人工智能、機器學習和高性能運算工作負載時對高性能和高擴展性的需求。與上一代基於 GPU 的執行個體相比,Amazon EC2 P5 執行個體可以將訓練時間縮減 6 倍(從數天縮短到數小時),從而幫助客戶節省高達 40% 的訓練成本。

Amazon EC2 P5 執行個體提供 8 個 NVIDIA H100 Tensor Core GPU,具有 640 GB 高帶寬 GPU 內存,同時提供第三代 AMD EPYC 處理器、2TB 系統內存和 30 TB 本地 NVMe 儲存。Amazon EC2 P5 執行個體還提供 3200 Gbps 的聚合網絡頻寬並支援 GPUDirect RDMA,從而能夠繞過 CPU 進行節點間通訊,實現更低的延遲和高效的橫向擴展性能。

AWS  NVDIA 攜手開發下一代基礎設施

AWS 和 NVIDIA在今年 3 月宣布了一項多方合作,構建全球最具可擴展性且按需要付費的人工智能基礎設施,以便訓練日益複雜的大語言模型和開發生成式AI應用程式。

當時,AWS預先發布了由 NVIDIA H100 Tensor Core GPU 驅動的 Amazon EC2 P5 執行個體,可為構建和訓練更大規模的機器學習模型提供高達 20 exaFLOPS 的運算能力。AWS 和 NVIDIA合作十多年來成果豐富,推出了包括支持視覺運算、人工智能和高性能運算集群的各種 GPU 執行個體,如 CG1 執行個體(2010 年)、G2(2013 年)、P2(2016 年)、P3(2017 年)、G3(2017 年)、P3dn(2018 年)、G4(2019 年)、P4(2020 年)、G5(2021 年)和 P4de(2022 年)執行個體。

現在,機器學習模型的規模已經達到數萬億參數,這種複雜性大大增加了客戶訓練模型所需的時間,例如,最新的大語言模型訓練時間長達數月之久。類似的趨勢也出現在高性能運算領域。隨著高性能運算客戶數據收集準確度的提高以及數據集達到 EB 級規模,客戶已在尋找解決日益複雜應用程式的更快方法。

關於Amazon EC2 P5 執行個體

Amazon EC2 P5 執行個體非常適合訓練和運行越來越複雜的大語言模型和電腦視覺模型,以滿足最苛刻的運算密集型生成式 AI 應用的需求,包括問答、編碼生成、影片和圖像生成、語音識別等。與上一代基於 GPU 的執行個體相比,Amazon EC2 P5 執行個體在這些應用中的訓練時間縮短了 6 倍。那些可以在工作負載中使用較低精度 FP8 數據類型的客戶,例如使用 Transformer 框架的語言模型,將通過 NVIDIA Transformer Engine 的支援獲得高達 6 倍的性能提升。

高性能運算客戶通過使用 Amazon EC2 P5 執行個體可以在藥物開發、地震分析、天氣預報和金融建模等領域更大規模地部署高要求的應用程式。此外,對於使用基於動態規劃(Dynamic Programming)算法進行基因組測序或加速數據分析等應用的客戶,Amazon EC2 P5 將通過新的 DPX 指令集提供支援。

第二代Amazon EC2 UltraClusters Elastic Fabric Adapter

Amazon EC2 P5 執行個體為多節點分佈式訓練和緊密耦合的高性能運算工作負載提供先進的橫向擴展功能,其使用的第二代 Elastic Fabric Adapter(EFA)網絡設備提供高達 3200 Gbps 的網絡速度,為 Amazon EC2 P4d 執行個體的 8 倍。

為了滿足客戶對大規模和低延遲的需求,Amazon EC2 P5 執行個體部署在第二代 Amazon EC2 UltraClusters 中,該集群目前可在超過 2 萬個NVIDIA H100 Tensor Core GPU 上為客戶提供更低的延遲。作為雲端中最大規模的機器學習基礎設施之一,Amazon EC2 UltraClusters 中的 Amazon EC2 P5 執行個體可提供高達 20 exaFLOPS 的聚合運算能力。

Amazon EC2 UltraClusters 使用了 Amazon FSx for Lustre,這是一種完全託管的共享儲存,構建在常用的高性能並行文件系統上。客戶通過 Amazon FSx for Lustre ,可以按需要大規模快速處理海量數據集,並實現亞毫秒級延遲。Amazon FSx for Lustre 的低延遲和高吞吐量特性經過優化,可在Amazon EC2 UltraCluster 上為深度學習、生成式 AI 和高性能運算工作負載提供支援。

Amazon FSx for Lustre 可以為 Amazon EC2 UltraCluster 中的 GPU 和機器學習加速器持續提供數據,從而加速最苛刻的工作負載,包括大語言模型訓練、生成式 AI 推理,以及基因組學和金融風險建模等高性能運算負載。

Amazon EC2 P5 執行個體現已正式可用

Amazon EC2 P5 執行個體現已在以下區域正式可用:美國東部(北弗吉尼亞)和美國西部(俄勒岡)。如欲了解更多,請瀏覽 Amazon EC2 定價。

客戶也可以選擇 AWS 提供的各種內置生成式 AI 的雲端服務,它們都運行在具有成本效益的生成式 AI 雲端基礎設施上,協助客戶加快創新和重塑應用。如欲了解更多,請瀏覽 AWS 生成式 AI 網站。