En avril, AWS nous a donne un apercu des coulisses de l'ingenierie de leurs datacenters. Pour gerer la dissipation thermique des derniers clusters IA, ils ont devoile le Refroidissement Liquide Direct-to-Chip.

C'est plus qu'une simple curiosite materielle. Du point de vue des performances, le refroidissement liquide permet une densite de calcul 3x superieure par rack. Il garantit que le silicium personnalise comme Trainium et Inferentia peut maintenir des frequences d'horloge maximales pour les travaux d'entrainement de longue duree sans l'etranglement thermique qui afflige souvent les environnements refroidis par air.

Nous avons egalement vu le lancement des EC2 UltraClusters 2.0, qui prennent en charge un reseau non bloquant a l'echelle du petabit via Elastic Fabric Adapter (EFA). Si vous faites de l'entrainement distribue de modeles avec des billions de parametres, le goulot d'etranglement de communication entre les noeuds a ete virtuellement elimine.

Avril nous a rappele que "le cloud" est en fin de compte limite par les lois de la physique, et AWS est litteralement en train de re-concevoir la plomberie d'Internet pour suivre le rythme de l'IA.