MLPerf Storage V2: Western Digital validiert Storage-Leistung für Künstliche Intelligenz

Die Ergebnisse bestätigen die hohe Skalierbarkeit, einfache Handhabung und hohe Durchsatzraten der OpenFlex Data24 4000 Series NVMe-oF Speicherplattform in Kombination mit NVMe SSDs von KIOXIA und dem AI Data Server von PEAK:AIO für KI-Workloads

(Auszug aus der Pressemitteilung)

Künstliche Intelligenz (KI)-Anwendungen werden immer komplexer und datenintensiver. Damit steigen auch die Anforderungen an die verwendeten Speichersysteme. Sie müssen mit den beschleunigten Recheninfrastrukturen Schritt halten. Um die Leistungsfähigkeit der OpenFlex™ Data24 4000 Series NVMe-oF™ Speicherplattform zu validieren, veröffentlichte Western Digital (Nasdaq: WDC) heute Testergebnisse auf Basis des branchenweit anerkannten MLPerf® Storage V2 Benchmarks. Sie belegen, dass das OpenFlex Data24 EBOF (Ethernet Bunch of Flash) den hohen Anforderungen moderner KI-Workloads gewachsen ist.

Anzeige

Reale Testszenarien für KI

Die OpenFlex Data24 NVMe-oF Speicherplattform von Western Digital nutzt die hohe Leistung von NVMe®-Flash über Ethernet-Fabric, um so latenzarmen, gemeinsam nutzbaren Speicher für skalierbare, disaggregierte KI-Infrastrukturen bereitzustellen. Sie wurde mit Blick auf einfache Implementierung, reduzierte Kosten und flexible Anpassung bei steigendem GPU-Bedarf entwickelt. Rechenleistung und Speicher können unabhängig voneinander skaliert werden.

Um realistische und anspruchsvolle Einsatzszenarien abzubilden, in denen Speichersysteme mit der hohen Datenrate moderner GPU-Infrastrukturen mithalten müssen, arbeitete Western Digital mit PEAK:AIO zusammen. Die softwaredefinierten Storage-Lösungen (SDS) des Unternehmens sind in der Lage, große Datenmengen schnell aufzunehmen, zu verarbeiten und bereitzustellen.

Die Tests basierten auf einer Konfiguration mit KIOXIA CM7-V Series NVMe SSDs, die aufgrund ihrer starken Perfomance in KI-Anwendungen ausgewählt wurden. In der OpenFlex Data24-Plattform liefern sie dauerhaft hohe Datenraten an zahlreiche GPU-Client-Nodes – und demonstrieren die Stärken disaggregierter Speicherarchitekturen im KI-Betrieb.

Benchmark-Ergebnisse des MLPerf Storage V2

MLPerf gilt branchenweit als Goldstandard für KI-Benchmarking. Die Testergebnisse zeigen, dass die Architektur sowohl hohe Leistung unter Last als auch eine effiziente Skalierung ermöglicht – unabhängig davon, ob SDS eingesetzt wird oder nicht.

WD OpenFlex Data24-NVMe-oF-Speicherplattform

MLPerf Storage verwendet GPU-Client-Nodes – Systeme, die das Verhalten eines KI-Servers beim Zugriff auf den Speicher während des Trainings oder der Inferenz simulieren – und erzeugt so realitätsnahe I/O-Lastprofile. So lässt sich beurteilen, wie gut ein Speichersystem verteilte KI-Umgebungen mit mehreren gleichzeitig aktiven GPU-Clients bewältigen kann. Im Rahmen der MLPerf Storage Tests werden über verschiedene Deep-Learning-Modelle hinweg unterschiedliche Anforderungen an die Storage-I/O-Performance gestellt – etwa in Bezug auf Durchsatz und parallele Zugriffe. Zur Bewertung verwendet MLPerf mit 3D-UNet und ResNet-50 zwei zentrale Benchmarks.

3D-UNet Workload

3D-UNet ist ein Deep-Learning-Modell für medizinische Bildgebung und volumetrische Segmentierung. Aufgrund der großen 3D-Datensätze und der intensiven, sequenziellen Lesezugriffe stellt es hohe Anforderungen an die Speicherinfrastruktur – und eignet sich daher besonders gut zur Bewertung von Systemen mit dauerhaft hoher Bandbreite und niedriger Latenz in Multi-Node-KI-Workflows.

Ergebnisse:

  • Das OpenFlex Data24 von Western Digital erreichte eine konstante Lesedurchsatzrate von 106,5 GB/s (99,2 GiB/s) und versorgte 36 simulierte H100-GPUs über drei physische Client-Nodes – ein Beleg für die Fähigkeit des EBOF, bandbreitenintensive und hochparallele Trainingsaufgaben mühelos zu bewältigen.
  • In Kombination mit dem PEAK:AIO AI Data Server lieferte das OpenFlex Data24 eine Durchsatzrate von 64,9 GB/s (59,6 GiB/s) – genug, um 22 simulierte H100-GPUs mit nur einem Head-Server und Single Client Node vollständig auszulasten.

ResNet-50 Workload

ResNet-50 ist ein weit verbreitetes Convolutional Neural Network (CNN) zur Bildklassifikation. Als Benchmark misst es den Trainingsdurchsatz und stellt ausgewogene Anforderungen an Rechenleistung und Datentransfer. Aufgrund der Kombination aus zufälligen und sequentiellen I/O-Mustern bei mittelgroßen Bilddateien eignet sich der Test besonders gut, um die Effizienz eines Systems im Umgang mit kleinen Dateien und schnellen Iterationszyklen zu bewerten.

Ergebnisse:

  • Das Western Digital OpenFlex Data24 erzielte Spitzenwerte bei 186 simulierten H100-GPUs über drei Client-Nodes – mit einem herausragenden Verhältnis von GPU zu Laufwerk, was die effiziente Nutzung der vorhandenen Speichermedien unterstreicht.
  • Mit dem PEAK:AIO AI Data Server konnte das System 52 simulierte H100-GPUs über einen einzigen Head-Server und Single Client Node vollständig auslasten.

„Die Ergebnisse zeigen eindeutig, dass unsere disaggregierte Architektur eine starke Grundlage für kommende KI-Infrastrukturen darstellt. Bei maximierter GPU-Nutzung können Platzbedarf und Komplexität reduziert und so Gesamtbetriebskosten gesenkt werden,“ erläutert Uwe Kemmer, Director EMEA Field Engineering bei Western Digital. „Unsere OpenFlex Data24 4000 NVMe-oF-Plattform liefert Leistung nahe der Auslastungsgrenze bei anspruchsvollen KI-Benchmarks – sowohl im Standalone-Betrieb als auch in Kombination mit einem PEAK:AIO AI Data Server – was schnellere Resultate und eine kompaktere Infrastruktur zur Folge hat.“

„Die MLPerf-Ergebnisse zeigen, wie effizient sich der softwaredefinierte AI Data Server von PEAK:AIO in Verbindung mit der Skalierbarkeit von Western Digitals OpenFlex Data24 und der Leistungsdichte der CM7-V Series SSDs von KIOXIA einsetzen lässt“, ergänzt Roger Cummings von PEAK:AIO. „Gemeinsam liefern wir eine hochleistungsfähige KI-Infrastruktur, die schneller einsatzbereit, effizienter im Betrieb und einfacher skalierbar ist. Höchste Performance muss nicht länger mit hoher Komplexität einhergehen.“

Egal, ob Unternehmen beim Einsatz Künstlicher Intelligenz noch ganz am Anfang stehen, oder schon Hunderte GPUs im Einsatz haben: Western Digitals OpenFlex Data24 bietet in Kombination mit den leistungsstarken RapidFlex™-Netzwerkadaptern branchenführende Konnektivität und erlaubt den direkten Anschluss von bis zu 12 Hosts ohne zusätzlichen Switch. Die Speicherplattform ermöglicht die vereinfachte, planbare und leistungsfähige Skalierung von KI-Infrastrukturen – ohne hohe Anfangsinvestitionen oder übermäßigen Stromverbrauch. So können Unternehmen ihre KI-Lasten ohne Bedenken skalieren.