Optimierung der Kühlung in Rechenzentren: Wie Meta Reinforcement Learning für mehr Nachhaltigkeit einsetzt
Optimierung der Kühlung in Rechenzentren durch Verstärkendes Lernen: Ein Fortschritt von Meta
In einem kürzlich veröffentlichten Blogbeitrag beschreibt Meta, wie Ingenieure mithilfe von Verstärkendem Lernen (RL) die Umgebungssteuerung in den Rechenzentren optimieren. Ziel ist es, den Energieverbrauch und den Wasserbedarf zu reduzieren und gleichzeitig größere Herausforderungen wie den Klimawandel zu adressieren. Reinforcement Learning ist ein Teilbereich des maschinellen Lernens und der optimalen Steuerung, der sich darauf konzentriert, wie ein intelligenter Agent in einer sich verändernden Umgebung Entscheidungen treffen kann, um ein Belohnungssignal zu maximieren.
Bedeutung der Kühlung in Rechenzentren
Die neueste RL-basierte Technologie von Meta hat sich als effektiv erwiesen, um die Kühlsysteme in Rechenzentren zu optimieren, die erhebliche Energiemengen und Wasser verbrauchen, insbesondere wenn sie sich an wechselnde Wetterbedingungen anpassen müssen. Seit 2021 setzen die Ingenieure von Meta RL ein, um die Luftzirkulation für die Kühlung in unterschiedlichen Wetterlagen zu verbessern. Diese Kühlsysteme stellen den zweitgrößten Ressourcenverbrauch in den Rechenzentren von Meta dar, nach der IT-Ausrüstung. Eine Optimierung dieser Systeme hat einen tiefgreifenden Einfluss auf die Reduzierung nicht nur des Energieverbrauchs, sondern auch des Wasserverbrauchs und der Treibhausgasemissionen. In einer Pilotregion wurden bereits beeindruckende Ergebnisse erzielt, mit einer Reduktion des Energieverbrauchs für die Zuluftventilatoren um 20 % und des Wasserverbrauchs um 4 %.
Die Technologie hinter der Kühlung
Die Rechenzentren von Meta nutzen in erster Linie Außenluft und verdampfungsbasiertes Kühlsysteme, um Temperaturen zwischen 18 °C und 30 °C und eine relative Luftfeuchtigkeit zwischen 13 % und 80 % aufrechtzuerhalten (basierend auf Daten aus dem Nachhaltigkeitsbericht). Diese Methode ist sowohl wasser- als auch energieeffizient, jedoch ist eine weitere Optimierung notwendig, um die Menge an zu konditionierender Luft zu reduzieren. Hier kommt das Verstärkende Lernen ins Spiel.
Metas Rechenzentren verwenden ein zweistufiges Penthouse-Design, das 100 % Außenluft ansaugt. Diese Luft wird durch das Regulieren von Dämpfern und das Mischen mit Wärmeeinträgen von Server-Abgasen bei Bedarf temperiert. Nach der Filtrierung und Kühlung in einer Nebelkammer wird die Luft in den Serverraum gepumpt. Ein besonderes Augenmerk liegt auf der effizienten Luftzirkulation, indem heiße Luft aus dem Gebäude abgeführt wird. Wasser spielt eine wesentliche Rolle in der evaporativen Kühlung und der Befeuchtung, um die optimalen Lufttemperatur- und feuchtigkeitswerte zu gewährleisten.
Die Rolle des Verstärkenden Lernens
Bei der Optimierung des Luftstroms werden drei Regelkreise — Temperatur, Luftfeuchtigkeit und Luftstrom — angepasst, um sicherzustellen, dass das Kühlsystem effizient arbeitet. Die Festlegung der Luftstromsetpoints erweist sich jedoch als besonders herausfordernd, da sie durch lokale Bedingungen innerhalb des Rechenzentrums beeinflusst werden. RL hilft, diese Komplexität zu bewältigen, indem es den Luftstrom basierend auf Echtzeitdaten und Umweltbedingungen dynamisch anpasst.
Das Verstärkende Lernen ist ideal für die Kühlung von Rechenzentren, da es das Steuerungssystem als eine Reihe aufeinanderfolgender Zustände modelliert. Der RL-Agent erwirbt wertvolles Wissen, indem er Feedback aus der Umgebung in Form von Belohnungen — insbesondere durch Energie- und Wassereinsparungen — erhält. Durch die Analyse von Daten, die von Tausenden von Sensoren gesammelt werden, verfeinert RL die Luftstromsetpoints, um eine optimale Kühlleistung zu erreichen, während es innerhalb der Betriebsparameter bleibt.
Um die Zuverlässigkeit zu gewährleisten, verwenden die Ingenieure von Meta einen simulatorbasierten RL-Ansatz. Diese Methode ermöglicht es, das RL-Modell in einer simulierten Umgebung zu trainieren, die reale Bedingungen eines Rechenzentrums widerspiegelt. Der Simulator nutzt physikbasierte Modelle, um vorherzusagen, wie die Systeme des Gebäudes auf Veränderungen in den Wetterbedingungen und der IT-Belastung reagieren. Durch die Integration historischer und simulierter Daten kann das RL-Modell trainiert werden, um mit einer Vielzahl von Bedingungen umzugehen, wodurch die Effizienz des Kühlsystems auch in Ausnahmeszenarien gewährleistet bleibt.
Erfolgreiche Ergebnisse und Zukunftsausblick
Die Ergebnisse des RL-Pilotprojekts sind vielversprechend. Durch die Kontrolle der Luftstromsetpoints konnten die Ingenieure stabile Temperaturbedingungen aufrechterhalten und die benötigte Luftmenge für die Kühlung reduzieren. Dies führt zu erheblichen Energieeinsparungen für die Zuluftventilatoren und einer Verringerung des Wasserverbrauchs während der evaporativen Kühlung.
Meta plant, dieselbe RL-Methodologie auch zur Optimierung des Designs neuer Rechenzentren anzuwenden, die speziell für die Unterstützung von KI-Workloads entwickelt werden. Durch die Integration von RL in die Entwurfsphase wollen die Ingenieure von Meta sicherstellen, dass diese neuen Rechenzentren von Anfang an nachhaltig sind. Zudem wird dieser RL-Ansatz in bestehenden Rechenzentren umgesetzt, um in den kommenden Jahren Energie und Wasser noch weiter zu sparen.
Vergleich mit anderen Unternehmen: Auch Google und Microsoft nutzen KI zur Verbesserung ihrer Rechenzentren. DeepMind hat beispielsweise 40 % der Kühlenergie in Googles Rechenzentren eingespart, während Microsoft KI-gestützte Anomalieerkennungsmethoden eingeführt hat, um Unregelmäßigkeiten im Strom- und Wasserverbrauch zu überwachen.
Fazit
Zusammenfassend lässt sich sagen, dass der Einsatz von Verstärkendem Lernen zur Optimierung der Kühlung in Rechenzentren ein zentraler Bestandteil von Metas langfristiger Nachhaltigkeitsstrategie ist. Durch den Einsatz von KI zur Effizienzsteigerung in den Rechenzentren leistet das Unternehmen einen bedeutenden Beitrag zur Reduzierung seines ökologischen Fußabdrucks, während die wachsenden Anforderungen an die digitale Infrastruktur erfüllt werden.
Hinterlasse eine Antwort