KAYTUS stellt All-QLC-Flash Speicher für Cluster mit 10.000 GPUs vor

QLC-Flash-Lösung bietet komplett lineare Leistungsskalierung, senkt Gesamt-Betriebskosten um 70 % und ermöglicht Hochleistungen im Bereich agentischer KI

(Auszug aus der Pressemitteilung)

KAYTUS, ein führender Anbieter flüssigkeitsgekühlter KI-Infrastrukturlösungen, hat auf der AI EXPO KOREA 2026 seine All-QLC-Flash-Speicherlösung vorgestellt, die für hohe Rechenleistung, massive Skalierbarkeit und Kosteneffizienz bei Clustern mit 10.000 GPUs ausgelegt ist. Die Lösung beseitigt etwa Engpässe bei Datenübertragungen im Rahmen großvolumiger KI-Trainings und trägt so zur maximierten Nutzung der GPU-Ressourcen bei.

Anzeige

Basierend auf den Serverplattformen KR2280 und KR1180, ist die Lösung tief in branchenführende, KI-basierte parallele Dateisysteme integriert und beseitigt so Datensilos, die bei herkömmlichen mehrstufigen Speichersystemen üblich sind. Sie wurde speziell für leseintensive KI-Workloads entwickelt und überwindet die horizontalen Skalierungsgrenzen massiver Cluster. Verifizierte Testdaten zeigen, dass die Lösung bei einer Bereitstellung im Exabyte-Bereich eine aggregierte Bandbreite von 10 TB/s und 100 Millionen IOPS (Input/Output Operations Per Second) liefert. Darüber hinaus senkt sie die Gesamtbetriebskosten (TCO) über fünf Jahre um 70 % im Vergleich zu herkömmlichen TLC (Triple Level Cell) -basierten Lösungen und beschleunigt so die Modellinnovation für KI-Cloud-Anbieter und intelligente Rechenzentren.

Limitierungen herkömmlicher KI-Speicherarchitekturen

Das explosive Wachstum der KI verändert die Anforderungen an die Rechen- und Speicherleistung in Unternehmen grundlegend. Das Training groß angelegter KI-Modelle ist durch extrem leseintensive Workloads gekennzeichnet, die den gleichzeitigen Zugriff Zehntausender von GPUs auf Datensätze im Exabyte-Bereich mit einer Latenz von unter einer Millisekunde erfordern. Herkömmliche Speicherarchitekturen stehen dabei vor drei großen Herausforderungen:

  • Getrennte Datensilos: Herkömmliche ETL (Extract, Transform, Load) -Prozesse erfordern, dass Daten vor dem Training vom Objektspeicher in parallele Dateisysteme verschoben werden, was zu einer zeitaufwändigen physischen Datenmigration führt. Untersuchungen von IDC zeigen, dass Datenteams 81% ihrer Zeit mit der Datenaufbereitung verbringen, was die Geschäftsprozesse verlangsamt.
  • Diskrepanz zwischen Workload und Speichermedium: Mehr als 90% des KI-Trainings beinhalten hochfrequente gleichzeitig stattfindende Lesevorgänge. Im Gegensatz dazu bieten herkömmliche TLC-Flash-Lösungen eine übermäßige Schreiblebensdauer, die für diese leseintensiven Workloads unnötig ist. Dies treibt die Anschaffungs-, Platz- und Stromkosten für Cluster im Exabyte-Bereich in die Höhe und führt zu einer ineffizienten Ressourcennutzung.
  • Skalierungsengpässe: Herkömmliche Dateisysteme wurden nicht für die Bewältigung der durch Cluster mit 10.000 GPUs erzeugten I/O-Spitzenlasten konzipiert. Mit zunehmender Clustergröße führen Konflikte bei der Sperrung von Metadaten und ein vergrößerter Kommunikationsaufwand zu Latenzspitzen und einer Verschlechterung der Gesamtleistung.

KAYTUS All-QLC-Flash-Speicher für hohe Leistung, Skalierbarkeit und Kosteneffizienz.

Die KAYTUS All-QLC-Flash-Speicherlösung der nächsten Server-Generation wurde speziell entwickelt, um das volle Potenzial leseintensiver Workloads bei KI-Trainings auszuschöpfen. Durch die enge Integration von Flaggschiff-Rechenknoten mit branchenführenden, KI-nativen parallelen Dateisystemen nutzt die Lösung ein fortschrittliches Co-Design von Hardware und Software, um hohe Rechenleistung, nahtlose Skalierbarkeit und sehr gute Kosteneffizienz für extrem große KI-Rechenumgebungen zu bieten.

Innovative IT-Architektur: Überwindung von Effizienzengpässen beim KI-Training.

Die Lösung von KAYTUS schafft einen Unified Namespace (UNS) mit nativem Multi-Protokoll-Zugriff über Datei-, Objekt- und Blockspeicher hinweg. Durch den Einsatz von QLC (Quad Level Cell) -Flash-Pools mit hoher Kapazität und vollständig gemeinsam genutzten NVMe-oF (NVMe over Fabrics) -Verbindungen definiert sie die einheitliche Datenebene für KI-Speicher neu und beseitigt so effektiv Datensilos, die bei herkömmlichen mehrstufigen IT-Architekturen unvermeidlich sind. Daten können nun bei Bedarf ohne systemübergreifende Migration zu GPU-Knoten fließen, was einen Zugriff in weniger als einer Millisekunde ermöglicht und die Effizienz beim Abruf von KI-Trainingsdaten erheblich verbessert. Die Lösung bietet:

  • Hardware-Optimierung: Die Lösung wurde für leseintensive Workloads entwickelt und verfügt über eine PCIe 5.0-Direktverbindung, die die I/O-Bandbreite pro Knoten im Vergleich zur Vorgängergeneration verdoppelt. In Kombination mit einer NUMA (Non-Uniform Memory Access) -ausgewogenen Optimierung beseitigt sie interne Durchsatzengpässe effektiv.
  • Software-Synergie: Die Lösung integriert das NFS (Network File System) über RDMA (Remote Direct Memory Access) sowie native GPU-Direct-Storage-Technologie und ermöglicht so direkte Datenpfade vom QLC-Flash zum GPU-Speicher. Durch die Nutzung einer disaggregierten IT-Architektur, die die Protokollverarbeitung vom Speicherstatus entkoppelt, eliminiert sie den East-West-Verkehr und erreicht eine vollständig lineare Skalierung von Bandbreite und Durchsatz im Petabyte- bis Exabyte-Bereich.

10.000 GPU-Cluster bietet Leistung, Skalierbarkeit & Kosteneffizienz

Bei Benchmark-Tests in einer Exabyte-Speicherumgebung eines Rechenzentrums mit 10.000 GPUs demonstrierte die auf KR2280- und KR1180-Knoten basierende und mit branchenführenden, KI-nativen parallelen Dateisystemen optimierte Lösung ihre Fähigkeit der nahtlosen Skalierung zur Unterstützung von Rechenclustern mit bis zu 10.000 GPUs. Haupteigenschaften sind:

  • Extreme Leistung bei hoher Skalierbarkeit: Das System bietet eine dauerhafte Gesamt-Lese-Bandbreite von 10 TB/s und 100 Millionen IOPS bei zufälligen Lesezugriffen, was den gleichzeitigen Zugriff für Zehntausende von GPUs ermöglicht. Die Leistung skaliert linear mit der Anzahl der hinzugefügten Knoten, während die GPU-Auslastung konstant über 95 % bleibt – ohne speicherseitige Sperrkonflikte oder Warteschlangen, wodurch ein Datenmangel bei den GPUs effektiv vermieden wird.
  • Hervorragende Kosteneffizienz: Im Vergleich zu herkömmlichen TLC-All-Flash-Lösungen senkt die Lösung die Gesamtbetriebskosten (TCO) über fünf Jahre um 70 % und reduziert die Strom- und Kühlungskosten um mehr als 75 %, wodurch Unternehmen keine unnötigen Mehrkosten für zusätzliche Schreiblebensdauer zahlen müssen.

KAYTUS All-Flash-Portfolio: Von hoher Dichte bis zu massiver Kapazität.

KAYTUS bietet ein umfassendes QLC-Produktportfolio mit einer Kapazität von bis zu 122,88 TB pro Laufwerk.

  • KR1180 (1U10) – Spitzenleistung bei hoher Dichte: Die Lösung bietet 1 PB Kapazität und 140 GB/s Bandbreite in einem 1U-Gehäuse, mit optimierter Luftkühlung und einer um 18% reduzierten Latenz bei GPU-Workloads.
  • KR2280 (2U24) – Vielseitiges Flaggschiff: Die Lösung unterstützt 24 QLC-Laufwerke und sieben PCIe 5.0-Steckplätze. Sie ist sowohl mit Intel- als auch mit AMD-Plattformen kompatibel und bietet Flüssigkeitskühlungsoptionen für hocheffiziente Rechenzentren.
  • KR4266 (4U60) – Massiver Speicher für Big Data: Die Lösung bietet branchenführende physische Dichte mit bis zu 7 PB pro Einheit und liefert eine sequenzielle Lesebandbreite von 260 GB/s sowie 20 Millionen IOPS.