Meta’s Forschungs-Supercluster für Echtzeit-Sprachübersetzungs-KI-Systeme

Meta’s Forschungs-Supercluster für Echtzeit-Sprachübersetzungs-KI-Systeme

Ein kürzlich erschienener Artikel von Engineering at Meta zeigt, wie das Unternehmen die Forschungs-Supercluster-Infrastruktur (RSC) aufbaut, die für Fortschritte bei Echtzeit-Sprachübersetzungen, Sprachverarbeitung, Bildverarbeitung und erweiterter Realität (AR) verwendet wird. Meta betont die Notwendigkeit, Hardwarefehler während des Trainingprozesses zu minimieren und führt rigorose Tests, Qualitätskontrollmaßnahmen sowie automatische Fehlererkennung und Behebung an. Die schnelle Wiederherstellung von Vorfällen wird durch die Reduzierung von Umplanungsüberhängen und einer schnellen Training-Wiederinitialisierung angestrebt. Es wird darauf hingewiesen, dass ein langsamer Datenaustausch zwischen einer Untermenge von GPUs das gesamte Projekt verlangsamen kann. Das Unternehmen betont die Bedeutung einer robusten und hochgeschwindigen Netzwerkinfrastruktur sowie effizienter Datenübertragungsprotokolle und -algorithmen.

Meta hebt die Notwendigkeit leistungsstarker Computersysteme hervor, die in der Lage sind, Quintillionen Operationen pro Sekunde durchzuführen, um die Entwicklung fortschrittlicher KI-Technologien voranzutreiben. Zur Erreichung dieses Ziels erweiterte Meta seine KI-Infrastruktur durch den Bau von zwei 24k-GPU-Clustern. Meta identifizierte RoCE und InfiniBand-Gewebe als die beiden vorrangigen Optionen, die ihren Anforderungen entsprechen, wobei jedoch jedes von ihnen eigene Kompromisse mit sich bringt.

Meta’s Entscheidung basiert auf seiner Erfahrung mit beiden Technologien. Während Meta in den letzten vier Jahren RoCE-Cluster gebaut hat, unterstützte ihr größter Cluster nur 4K GPUs, was ihren aktuellen Anforderungen nicht gerecht wurde. Im Gegensatz dazu hatte Meta zuvor Forschungscluster mit InfiniBand gebaut, die bis zu 16K GPUs unterstützten, aber noch nicht vollständig in ihre Produktionsumgebung integriert oder für die neuesten GPU- und Netzwerktechnologien optimiert waren.

Um diese Herausforderungen anzugehen, entschied Meta, zwei 24k-Cluster zu bauen, wobei einer RoCE und einer InfiniBand verwendet. Das Unternehmen zielt darauf ab, aus beiden Implementierungen Betriebserfahrungen für ihre GenAI-Gewebe zu gewinnen.

Meta berichtete, dass es beide Cluster erfolgreich abgestimmt hat, um eine äquivalente Leistung für GenAI-Workloads zu liefern, trotz der unterschiedlichen Netzwerktechnologien. Das Unternehmen bekräftigt sein Engagement für Open Compute und Open-Source-Prinzipien und betont, dass diese Cluster unter Verwendung von Grand Teton, OpenRack und PyTorch gebaut wurden, um die Förderung offener Innovationen in der Branche zu unterstützen.

Für die Zukunft plant Meta, seine Infrastruktur erheblich auszubauen und bis Ende 2024 350.000 NVIDIA H100-GPUs einzubeziehen, wodurch eine Gesamtrechenleistung von nahezu 600.000 H100s erreicht wird.