(Auszug aus der Pressemitteilung)

Der nächste Höhepunkt der KI ist die Ära der GenAI-Anwendungen. Große Modelle gehen von einem Training-basierten zu einem Anwendung-basierten Narrativ über. So hat etwa ChatGPT in seine Version GPT-4.0 multimodale Fähigkeiten integriert, die es den Nutzern ermöglichen, mit Bildern und Text zu interagieren und Probleme im Rahmen eines einheitlichen Nutzererlebnisses zu lösen. Midjourney und Dall-E 3 demonstrieren die anwendungsorientierte Ausrichtung der KI, die es den Benutzern ermöglicht, aus Textbeschreibungen qualitativ hochwertige Bilder zu erstellen.
KAYTUS, Experte für End-to-End KI- und Flüssigkühlungs-basierte Lösungen, ist der Meinung, dass diese Entwicklung den Reifungsprozess der GenAI widerspiegelt. Denn diese verbessert sich dank nutzerorientierter Anwendungen zur Lösung spezifischer Probleme von der reinen Betonung der Modellfähigkeiten hin zur Schaffung eines greifbaren Mehrwertes. Diese Verschiebung bringt jedoch auch neue Herausforderungen für die KI-Rechenzentren mit sich, die mehr als ausreichende Rechenressourcen für die Unterstützung der großen Modelle bieten müssen.
Das Skalierungsgesetz dominiert die aktuelle Entwicklung der künstlichen Intelligenz. Es beschreibt, wie sich die Leistung von KI-Systemen verbessert, wenn die Menge der Daten, der Modellparameter oder der Rechenressourcen zunimmt. Die drei wesentlichen Skalierungsabschnitte – Vortraining, Nachtraining und Inferenz – führen zu einem kontinuierlichen Anstieg des Bedarfs an Rechenleistung und stellen die IT-Infrastruktur vor neue Herausforderungen, da sich der Schwerpunkt der Nutzung auf die Post-Training- und Inferenzphasen verlagert. Dank Innovationen bei Algorithmen wie Reinforcement Learning und Gedankenkette (Chain-of-Thought, CoT), kann eine höhere Rechenleistung in den Nachtrainings- und Inferenzphasen die Denkfähigkeiten großer Modelle deutlich verbessern.
KAYTUS skizziert die sechs wichtigsten Veränderungen, die die nächste Generation von Rechenzentren umsetzen sollte, um der wachsenden Nachfrage nach GenAI-Anwendungen gerecht zu werden.
1. Verbesserung der Single-Node Computing Performance (Scale-up)
Das Training und die Anwendung großer KI-basierter Modelle erfordern oft die Verarbeitung riesiger Datensätze, was den Bedarf an Rechenbandbreite erhöht. Um dies zu erfüllen, muss die Rechenleistung eines einzelnen Chips oder Racks verbessert werden. Ob beim Training oder bei der Inferenz, KI-Server müssen mehr KI-Chips innerhalb des Knotens einsetzen, um die Skalierung zu ermöglichen (Scale-up). Während der Trainingsphase ist eine Kommunikation mit hoher Bandbreite erforderlich, um Expert Parallelismen (EP) und Sequenzparallelität für MoE (Mixture of Experts) Anwendungen sowie lange Sequenztrainings zu unterstützen. Während der Inferenzphase ist eine höhere Rechenleistung erforderlich, um die Latenzzeit für die Eingabe/Ausgabe langer Sequenzen zu verringern. Typischerweise kann ein mit 8 Hochleistungs-GPUs ausgestatteter Server das Training großer Modelle mit 200 Milliarden Parametern unterstützen, während eine Skalierung auf 72 Hochleistungs-GPUs das Training großer Modelle mit Billionen von Parametern effektiv unterstützen kann, was die Realisierung intelligenter Emergenz beschleunigt.
2. Horizontale Skalierbarkeit der Rechenleistung (Scale-out)
Die Verarbeitung großer Datensätze und komplexer KI-basierter Modelle erfordert, dass Rechenzentren mehr Knotenpunkte hinzufügen und Zehntausende von KI-Chips unterstützen, die zusammenarbeiten. Dafür sollten Rechenzentren die RDMA-Netzwerktechnologie für die Interkonnektivität nutzen, um eine effiziente Handhabung der Pipeline-Parallelität und der Datenparallelität während des Trainings großer Modelle zu gewährleisten. Die Netzwerktechnologie muss Cluster mit Tausenden von Knoten bis hin zu Zehntausenden oder sogar Hunderttausenden von Knoten effektiv unterstützen. Darüber hinaus sollte die Netzwerktopologie für diese spezifischen Kommunikationsmuster optimiert werden, um die Kommunikationslatenz zwischen den Knoten zu minimieren und die Trainingseffizienz insgesamt zu verbessern.
3. Entwurf von Chips & Systemarchitekturen für Inferenzanforderungen
Rechenzentren sollten in der Lage sein, KI-Chips und Serverarchitekturen mit unterschiedlichen Rechencharakteristiken zu übernehmen, um die unterschiedlichen Anforderungen von Trainings- und Inferenzaufgaben erfüllen zu können. Speziell für Inferenzaufgaben wird es immer wichtiger, Chips und Systemarchitekturen auf der Grundlage von Anwendungs- und Inferenzanforderungen zu entwickeln. Die Inferenz von großen Sprachmodellen umfasst zwei Schlüsselphasen: Prefill und Decode. Die Prefill-Phase wird auf leistungsfähigeren Servern ausgeführt, um die Verarbeitung zu beschleunigen, während die Decode-Phase Server mit höherer Speicherbandbreite benötigt, um die Decodierungseffizienz zu optimieren. Durch diese gezielte Ressourcenkonfiguration wird nicht nur die Gesamtleistung des Servers verbessert, sondern auch die Inferenzlatenz für die Benutzer erheblich reduziert, was eine bessere Servicequalität für groß angelegte KI-Anwendungen ermöglicht.
4. Einsatz KI-gesteuerter Verwaltungs- und Planungsplattformen
Die Verbesserung der Verfügbarkeit und Zuverlässigkeit von Clustersystemen ist von entscheidender Bedeutung. Wenn die Größe eines Clusters von Tausenden auf Zehntausende oder sogar Hunderttausende von Knoten ansteigt, nimmt die Wahrscheinlichkeit von Knotenausfällen zu. Rechenzentren benötigen deshalb ein effizienteres Überwachungssystem und fortschrittliche Mechanismen zur Fehlerbehebung sowie fortschrittliche Verwaltungs- und Planungsplattformen. Diese Plattformen müssen nicht nur über Echtzeitüberwachungs- und Fehlererkennungsfunktionen verfügen, sondern auch Algorithmen des maschinellen Lernens zur Vorhersage potenzieller Hardwareausfälle nutzen. Für das Fehlermanagement sollten sie innovative fehlertolerante Trainingsmechanismen verwenden, die schadhafte Knoten intelligent identifizieren und isolieren können. Währenddessen sollten andere GPUs normal weiterlaufen, um eine schnelle Reaktion auf Knotenausfälle zu gewährleisten und Effizienzverluste durch herkömmliche globale Neustartlösungen zu vermeiden.
5. Unterstützung einer gemischten Orchestrierung für Training und Inferenz
Bei der Durchführung von Modelltraining, Inferenz und anderen Aufgaben, haben verschiedene Arten von Rechenressourcen wie CPUs, GPUs und ASICs (Application-Specific Integrated Circuit) jeweils ihre spezifischen Vorteile. Daher müssen Rechenzentren über heterogene Infrastrukturen hinweg zusammenarbeiten, um eine gemischte Planung von Trainings- und Inferenz-Workloads zu unterstützen. Dies erfordert ein Gleichgewicht zwischen den hohen Durchsatzanforderungen von Trainingsaufgaben und den Anforderungen an niedrige Latenzzeiten von Inferenzaufgaben, wobei auch der unterschiedliche Bedarf an Rechen- und Speicherressourcen in jeder Aufgabe zu berücksichtigen ist.
6. Verbesserung der Kühlungsmethoden
Da die Leistung einzelner Racks erheblich zunimmt, wird der Energieverbrauch weiter steigen. In der Regel liegt der Stromverbrauch von GPUs zwischen 250 und 700 W, und die Leistung eines Server-Racks kann bis zu 130 KW erreichen. Rechenzentren müssen den Energieverbrauch kontinuierlich optimieren, indem sie die Raumplanung und die Stromversorgungssysteme verbessern und fortschrittliche Kühltechnologien einsetzen, um das Wärmemanagement zu verbessern und die Herausforderungen des Energieverbrauchs zu bewältigen.
Laut dem Institut der Deutschen Wirtschaft (IW) eröffnet KI als Katalysator für mehr Produktivität, Innovationskraft und Effizienz nicht nur für Unternehmen, sondern auch für Deutschland als Wirtschaftsstandort enorme Wachstumspotenziale[i]. Die Infrastrukturen nehmen als Motor der digitalen und intelligenten Transformation bei dieser Entwicklung eine zentrale Rolle ein, da sie die notwendige Rechenleistung, Datenverarbeitung und Vernetzung bereitstellen. KAYTUS glaubt, dass die nächste Generation von Rechenzentren über ein holistisches System mit der richtigen Hard- und Software sowie den oben skizzierten Hauptmerkmalen verfügen oder entsprechend skalierbar sein muss, um diese wichtige Rolle wahrnehmen und die notwendigen Modernisierungen in Angriff nehmen zu können.
[i] https://www.iwkoeln.de/studien/johannes-ewald-henry-goecke-hanno-kempermann-christian-kestermann-spillover-effekte-von-rechenzentren-rueckgrat-der-ki-revolution-in-deutschland.html
Neueste Kommentare
24. April 2025
24. April 2025
18. April 2025
15. April 2025
14. April 2025
14. April 2025