AWS Monthly (April '25): AIの発熱を冷ます

4月、AWSはデータセンターエンジニアリングの舞台裏を垣間見せてくれた。最新のAIクラスタの熱出力に対応するため、Direct-to-Chip液冷が発表された。

これは単なるハードウェアの好奇心ではない。パフォーマンスの観点から、液冷はラックあたり3倍のコンピュート密度を可能にする。TrainiumやInferentiaのようなカスタムシリコンが、空冷環境でしばしば発生するサーマルスロットリングなしに、長時間のトレーニングジョブでピーククロック速度を維持できるようになる。

EC2 UltraClusters 2.0も発表され、Elastic Fabric Adapter（EFA）経由のノンブロッキングペタビット級ネットワーキングをサポートする。数兆パラメータのモデルを分散トレーニングしている場合、ノード間の通信ボトルネックは事実上解消された。

4月は「クラウド」が最終的に物理法則に制限されること、そしてAWSがAIに追いつくために文字通りインターネットの配管を再設計していることを思い出させてくれた。

AWS Monthly (April '25): AIの発熱を冷ます

Ercan の他のサイト

AI、LLM、エージェント、応用 ML。

ハブ。プロフィール、コンサルティング、お問い合わせ。