AWS Monthly (April '25): AIの発熱を冷ます
4月、AWSはデータセンターエンジニアリングの舞台裏を垣間見せてくれた。最新のAIクラスタの熱出力に対応するため、Direct-to-Chip液冷が発表された。
4月、AWSはデータセンターエンジニアリングの舞台裏を垣間見せてくれた。最新のAIクラスタの熱出力に対応するため、Direct-to-Chip液冷が発表された。
これは単なるハードウェアの好奇心ではない。パフォーマンスの観点から、液冷はラックあたり3倍のコンピュート密度を可能にする。TrainiumやInferentiaのようなカスタムシリコンが、空冷環境でしばしば発生するサーマルスロットリングなしに、長時間のトレーニングジョブでピーククロック速度を維持できるようになる。
EC2 UltraClusters 2.0も発表され、Elastic Fabric Adapter(EFA)経由のノンブロッキング ペタビット級ネットワーキングをサポートする。数兆パラメータのモデルを分散トレーニングしている場合、ノード間の通信ボトルネックは事実上解消された。
4月は「クラウド」が最終的に物理法則に制限されること、そしてAWSがAIに追いつくために文字通りインターネットの配管を再設計していることを思い出させてくれた。
Ercan の他のサイト
同じ著者、別の領域のサイトが2つ。