KAYTUS erweitert KSManage Management-Plattform für verbesserte Betriebs- & Wartungsfunktionen bei KI-Rechenzentren

Intelligentes, vierstufiges Monitoring Framework verbesserte Effizienz & Stabilität von Rechenzentren durch frühzeitige Fehlererkennung

(Auszug aus der Pressemitteilung)

KAYTUS, ein führender Anbieter flüssigkeitsgekühlter End-to-End-Infrastrukturlösungen für Künstliche Intelligenz, stellt eine neue und verbesserte Version seiner Managementplattform für Rechenzentren vor. KSManage 3.0 bietet vollständige Transparenz in allen für Betrieb & Wartung (Operations & Maintenance = O&M) relevanten Bereichen: Komponenten, Server und Schränke, Cluster und KI-Jobs. Die KI-Rechenzentrums-Managementplattform von KAYTUS hilft Kunden somit, die Verfügbarkeit ihrer Rechenzentren sicherzustellen sowie die betriebliche Effizienz und Stabilität zu verbessern, um kostspielige Ausfallzeiten zu vermeiden.

Anzeige

Die rasante Entwicklung großer Sprachmodelle (LLMs) und KI-Anwendungen beschleunigt den Bedarf an hochleistungsfähigen Rechenzenten sowie die Einführung heterogener CPU-, GPU- und DPU-Architekturen. Allerdings sehen sich Anwender dabei häufig mit Herausforderungen konfrontiert, die durch den anspruchsvollen Betrieb von KI-Rechenzentren verursacht werden: wie komplexe Fehlerbehebungen, höhere Ausfallraten von Komponenten, komplizierte Anwendungsabhängigkeiten und verzögerte Reaktionen auf Betriebs- und Wartungsvorfälle (O&M). Das oft noch für traditionelle IT-Systeme ausgelegte Systemmanagement in Rechenzentren kann die erforderliche Transparenz in diesen relevanten Bereichen nicht gewährleisten. Deshalb ist eine für KI-Rechenzentren entwickelte Managementplattform für Kunden von entscheidender Bedeutung.

KSManage hilft dank eines neu entwickelten intelligenten vierstufigen Überwachungsframeworks bei der Lösung dieser Herausforderungen. Neben der automatisierten Fehlererkennung ermöglicht die Softwareplattform auch Frühwarnungen sowie intelligente Fehlerbehebung und zeichnet sich durch die folgenden Schlüsselfaktoren aus:

Volle Transparenz für Fehlerbehebung und 3D-Visualisierung

Um der komplexen Fehlerbehebung in großen KI-Rechenzentren mit heterogener Infrastruktur gerecht zu werden, sammelt die KSManage Plattform kontinuierlich Echtzeit-Kernmetriken wie GPU- und CPU-Auslastung, Videospeichernutzung, Stromverbrauch, Netzwerkbandbreite und Speicherzustand. Gleichzeitig aggregiert sie Betriebsereignisse und Netzwerkprotokolle. Mithilfe automatisierter Topologie-Erkennung verfolgt die Plattform End-to-End-Workloads über mehrere Knoten hinweg und baut so eine integrierte „Measurement-Log-Trace”-Datenbasis auf. Durch die Korrelation von Gerätezustand und Telemetrie während eines kompletten KI-Jobs visualisiert KSManage die Ressourcenzuweisung dynamisch durch Echtzeit-3D-Modellierung. Dieser End-to-End-Ansatz überwindet die Einschränkungen der traditionellen isolierten IT-Überwachung, ermöglicht eine vollständige Korrelationsanalyse und verwandelt die Ursachenanalyse von einer zeitaufwändigen Untersuchung in eine schnelle, genaue Fehlerlokalisierung, wodurch die Effizienz der Fehlerbehebung um bis zu 90 Prozent verbessert wird.

KAYTUS KSManage Überblick

Frühwarnsystem gegen Ausfall von Kernkomponenten

KSManage verfügt über ein intelligentes Monitoringsystem, um proaktive Frühwarnungen umzusetzen und steigenden Ausfallraten sowie beschleunigtem Komponentenverschleiß bei Geräten mit hoher Leistungsdichte entgegenzuwirken. Die Plattform erfasst umfangreiche Hardware-Telemetriedaten und verwendet fortschrittliche Algorithmen, um Leistungstrends kritischer Komponenten zu analysieren. Frühe Anzeichen für abnormalen Verschleiß werden genau identifiziert, sodass Hardwareausfallrisiken bis zu sieben Tage im Voraus vorhergesagt werden können. Parallel dazu überwacht KSManage kontinuierlich wichtige Betriebsparameter wie Auslastung und Temperatur, um potenzielle Ausfälle dauerhaft hochbelasteter Komponenten zu reduzieren.

End-to-End-Monitoring von Anwendungs- und Netzwerkabhängigkeiten

Herausforderungen, die sich aus vielfältigen KI-Anwendungsszenarien, komplexen Geschäftsabläufen und erschwerter Korrelation von Hardware-Anomalien mit KI-Trainingsaufgaben ergeben, meistert KSManage dank vollständig korrelierter Transparenz über Hardware, Plattformen und Workloads hinweg. Die Lösung überwacht präzise kritische Netzwerkmetriken wie Bandbreite, Latenz und den Verlust von Datenpaketen. Dabei gewährleistet sie eine Bandbreitenreserve von 20 Prozent für eine stabile Datenübertragung, eine interne Latenz im Millisekundenbereich und einen Paketverlust von unter 0,01 Prozent, was eine genaue Zuordnung von Hardware-Anomalien zu bestimmten Trainingsaufgaben ermöglicht. So kann die Softwareplattform die Ursachen von LLM-Trainingsunterbrechungen schnell lokalisieren, Trainingsrückgänge verhindern, Verschwendung von Rechenressourcen vermeiden und eine durchgängige Transparenz bieten, die über die Fähigkeiten herkömmlicher Überwachungstools hinausgeht.

KAYTUS KSManage Alerts

Automatisierter Betrieb & Wartung mit präziser Fehlerbehebung

Um der Abhängigkeit von manuellen Vorgängen, dem Mangel an Fachpersonal und verzögerten Reaktionen auf Störfälle entgegenzuwirken, bietet KSManage ein robustes, intelligentes O&M-System, dessen einheitliche IT-Architektur durchgängig automatisierte Abläufe und präzise Fehlerdiagnosen im gesamten KI-Rechenzentrum ermöglicht. Die Erfolgsquote automatisierter Backups liegt bei 99,8 Prozent. Durch die kombinierte Anwendung von Wissensdiagrammen und Algorithmen können bis zu 90 Prozent der Anomalien innerhalb von fünf Minuten automatisch identifiziert werden. Dies erhöht die Effizienz von Betrieb und Wartung, verkürzt die durchschnittliche Reparaturzeit erheblich und minimiert die Abhängigkeit von manuellen Eingriffen und Fehlern. Risiken für die Speicherkapazität können bis zu drei Tage im Voraus vorhergesagt werden. Die Kosten für Betrieb & Wartung können so gesenkt und die Gesamtbetriebskosten (TCO) um bis zu 40 Prozent reduziert werden.