Frankfurter Goethe-Zentrum für wissenschaftliches Rechnen setzt auf NVIDIA-Lösung

(Auszug aus der Pressemitteilung)

München, 8. März 2010 – In der Neuronenzellen-Forschung müssen Milliarden Daten analysiert werden. Das Frankfurter Goethe-Zentrum für wissenschaftliches Rechnen setzt hierbei auf eine NVIDIA-Lösung. Auf Basis von NVIDIAs CUDA-Technologie werden komplexe und datenintensive Berechnungen heute schneller und wesentlich kostengünstiger als mit einer CPU-Lösung in der Vergangenheit durchgeführt.

Anzeige

Das Frankfurter Goethe-Zentrum für wissenschaftliches Rechnen (G-CSC) ist unter anderem in der Grundlagenforschung im Bereich der Neurowissenschaften tätig. Eine besonders rechenintensive Anwendung ist dabei der Algorithmus NeuRA (Neuron Reconstruction Algorithm). Mit ihm werden aus dreidimensionalen Bildern von einzelnen Neuronenzellen, die zum Beispiel mittels 2-Photonen-Mikroskopie aufgenommen werden, Dreiecksgitter der Zellenoberflächen generiert. Die Rekonstruktionen können vielfältig genutzt werden: etwa zur Untersuchung neuronaler Plastizität, das heißt geometrischer Veränderungen im Gehirn, die durch Lernprozesse entstehen.

Der preisgekrönte Algorithmus wurde ursprünglich von Prof. Dr. Gabriel Wittum und seinem Team am Interdisziplinären Zentrum für Wissenschaftliches Rechnen (IWR) in Heidelberg entwickelt und am Frankfurter Goethe-Zentrum weiter optimiert. Er arbeitet in mehreren Stufen: In einem ersten Schritt erfolgt eine Vorfilterung zur Rauschverminderung und Qualitätsverbesserung der Ausgangsdaten durch einen Diffusionsfilter. Dies ist insgesamt der speicher- und rechenintensivste Verarbeitungsschritt. Für das Filtern eines Datensatzes der Dimension 256 x 256 x 216 benötigt ein Intel-Xeon-Prozessor mit 3 GHz fast zwei Stunden – bei einem Speicherbedarf von etwa 2 GB. Die Frankfurter Wissenschaftler setzen dafür heute den Computing-Prozessor Tesla C1060 von NVIDIA ein, den weltweit ersten Mehrkern-Teraflops-Prozessor. Mit 240 Recheneinheiten bietet er eine skalierbare Rechenleistung auf Grundlage von NVIDIAs paralleler Prozessorarchitektur CUDA. Die große Rechenleistung der GPU ergibt sich aus der Parallelverarbeitung zahlreicher Datenverarbeitungseinheiten auf dem Grafikchip. Eine Tesla C1060 benötigt im Vergleich zur genannten Intel-CPU für den Filterprozess 70 Sekunden. Sie ist damit fast 100-mal schneller.

Daniel Jungblut, wissenschaftlicher Mitarbeiter und Doktorand von Prof. Dr. Gabriel Wittum, betont: “Die massiv-parallele Architektur moderner Grafikprozessoren eignet sich hervorragend für Anwendungen der digitalen Bildverarbeitung, da hierbei häufig auf jedem Bildpunkt die gleiche Operation ausgeführt werden muss. Eine parallele Verarbeitung ist dafür prädestiniert. Insbesondere bei großen Datenmengen ermöglicht dies eine immense Zeitersparnis.”

Auch unter Kostenaspekten zeigen sich die Vorteile einer NVIDIA-GPU-Lösung für komplexe Rechenanforderungen in der Frankfurter Neuronenzellen-Forschung deutlich. Die verwendeten modernen 2-Photonen-Mikroskope liefern Daten in einer Auflösung von 2.048 x 2.048 x 368, die knapp 1,5 GB groß sind und deren Filterung über 200 GB Speicher benötigt. Für das Filtern des Datensatzes ist das Aufstellen und Lösen von vier linearen Gleichungssystemen mit jeweils knapp 1,5 Milliarden Unbekannten erforderlich. Unter Verwendung des im Rechenzentrum Frankfurt, das heißt am Center for Scientific Computing CSC, installierten Parallelrechners Scout ist die Filterung eines solchen hochaufgelösten Datensatzes in weniger als drei Minuten möglich. Zur Konfiguration des Scout-Rechners gehören 96 Tesla-C1060-GPUs, die auf 16 Knoten verteilt sind und eine Spitzenleistung von 100 Teraflops bieten. Die Kosten für das Gesamtsystem beliefen sich auf circa 270.000 Euro. Ein vergleichbarer CPU-basierter Parallelrechner wäre rund 20-mal teurer.