Τον Απρίλιο, η AWS μας έδωσε μια ματιά πίσω από την κουρτίνα της μηχανικής των data center της. Για να διαχειριστούν τη θερμική απόδοση των τελευταίων AI clusters, αποκάλυψαν το Direct-to-Chip Liquid Cooling.

Αυτό είναι κάτι περισσότερο από μια hardware περιέργεια. Από άποψη απόδοσης, η υγρή ψύξη επιτρέπει 3x υψηλότερη compute πυκνότητα ανά rack. Διασφαλίζει ότι custom silicon όπως τα Trainium και Inferentia μπορούν να διατηρούν μέγιστες ταχύτητες ρολογιού για μεγάλης διάρκειας training jobs χωρίς το thermal throttling που συχνά ταλανίζει τα air-cooled περιβάλλοντα.

Είδαμε επίσης το λανσάρισμα των EC2 UltraClusters 2.0, που υποστηρίζουν non-blocking petabit-scale networking μέσω Elastic Fabric Adapter (EFA). Αν κάνεις distributed training μοντέλων με τρισεκατομμύρια παραμέτρους, το communication bottleneck μεταξύ των nodes έχει ουσιαστικά εξαλειφθεί.

Ο Απρίλιος μας θύμισε ότι «το cloud» περιορίζεται τελικά από τους νόμους της φυσικής, και η AWS κυριολεκτικά επανασχεδιάζει τις υποδομές του internet για να συμβαδίσει με το AI.