Im April gewahrte uns AWS einen Blick hinter die Kulissen ihres Rechenzentrums-Engineerings. Um die thermische Leistung der neuesten KI-Cluster zu bewaltigen, enthullten sie Direct-to-Chip Liquid Cooling.

Das ist mehr als nur eine Hardware-Kuriositat. Aus Leistungssicht ermoglicht Flussigkeitskuhlung eine 3x hohere Rechendichte pro Rack. Sie stellt sicher, dass Custom Silicon wie Trainium und Inferentia Spitzen-Taktraten fur lang laufende Trainingsjobs aufrechterhalten kann, ohne das thermische Throttling, das luftgekuhlte Umgebungen oft plagt.

Wir sahen auch den Start von EC2 UltraClusters 2.0, die nicht blockierendes Netzwerk im Petabit-Maasstab uber Elastic Fabric Adapter (EFA) unterstutzen. Wenn du Modelle mit Billionen von Parametern verteilt trainierst, wurde der Kommunikationsengpass zwischen den Knoten praktisch eliminiert.

Der April erinnerte uns daran, dass "die Cloud" letztlich durch die Gesetze der Physik begrenzt ist und AWS buchstablich die Infrastruktur des Internets neu konstruiert, um mit der KI Schritt zu halten.