Integrierte System- und Anwendungsanalyse für Massivparallele Rechner (ISAR)
(slides)
Massivparallele Rechner sind sehr teure Forschungsmittel deren Rechenzeit effektiv genutzt werden muss. Hierzu ist eine kontinuierliche Suche nach Optimierungspotential sowohl auf System- als auch auf Anwendungsebene erforderlich.
Das Ziel des ISAR-Projekts war die Realisierung einer skalierbaren integrierten System- und Anwendungsanalyse für den Einsatz in Produktionsumgebungen auf der Basis von Periscope. In dem Projekt waren der Lehrstuhl für Rechnertechnik und Rechnerorganisation der Technischen Universität München (TUM), das Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften (LRZ), das Rechenzentrum Garching der Max-Planck-Gesellschaft (RZG) sowie die Industriepartner IBM-Deutschland und ParTec Cluster Competence Center GmbH involviert.
Periscope ist ein automatisches Werkzeug zur Leistungsanalyse paralleler Programme. Im Gegensatz zu anderen Werkzeugen, analysiert Periscope die Leistung direkt während der Programmlaufzeit. Ausgehend von einem Prototyp wurde im Rahmen von Periscope ein stabiles Werkzeug für den Produktionseinsatz geschaffen. In Zusammenarbeit mit RZG, LRZ und IBM wurden funktionale und nichtfunktionale Verbesserungen ausgeführt. Als Beispiel sei hier die automatische Instrumentierung erwähnt, die in Abhängigkeit von dem durch das Monitoring induzierten Overhead, die Instrumentierung dynamisch verringert.
Auf der anderen Seite wurde das Systemanalyse-Tool PerSyst vom LRZ entwickelt, wobei die Grundideen von Periscope, wie die Verwendung von Agentenhierarchie, Properties und Strategien, genutzt wurden. PerSyst bestimmt in regelmäßigen Abständen Leistungsdaten aller auf dem parallelen Rechner gerade ausgeführten Programme, um so Systemengpässe und Anwendungen mit Optimierungspotential zu identifizieren. Eine implementierte statistische Aggregierungroutine, z.B. bzgl. einer Job-Id, ermöglicht eine Informationsreduktion, um sehr große Mengen von anfallenden Performance-Daten aller CPUs zu interpretieren und einen adäquaten Speicheraufwand zu haben. Die Ergebnisse von PerSyt werden den Benutzern des Hochleistungsrechners des LRZ über ein Webinteface zu Verfügung gestellt. Über eine gemeinsame MySQL-Datenbank können die Ergebnisse interaktiv über den integrierten Gridmonitor der Firma ParTec visualisiert werden. Mit Hilfe des Gridmonitors können Administratoren Bottlenecks innerhalb des Systems sowie Jobs mit Performancedefiziten online detektieren.
Beide Werkzeuge wurden in ISAR integriert, um ausgehend von der in PerSyst gewonnenen Information, eine gezieltere Suche in Periscope zu ermöglichen. Dies betrifft vor allem die Leistungsdynamik, also die dynamische Veränderung des Leistungsverhaltens. PerSyst bestimmt Zeitpunkte in der Programmausführung, an denen sich das Verhalten ändert. In Periscope wurde nun eine neue Suchstrategie realisiert, die diese Information nutzt, um die Leistungsanalyse zu diesen Zeitpunkten erneut zu starten.
Die Ergebnisse, die innerhalb von ISAR entstanden, wurden auf Konferenzen vorgestellt und in Journalen veröffentlicht. Die Werkzeuge stehen auch externen Nutzern zur Verfügung.