Next Generation Sequencing-Datenanalyse auf HPC-Infrastrukturen (NGSgoesHPC)
K. R. Heidtke, V. Achter, U. Lang
(slides)
Aktuelle Geräte zur DNA-Sequenzierung, wie sie bei den Projektpartnern Cologne Center for Genomics (CCG), dem biotechnologischen Zentrum (BioTec) der Technischen Universität Dresden und der ATLAS Biolabs GmbH im Einsatz sind, können ein Genom in wenigen Tagen entschlüsseln. Die Kombination des Einsatzes von Sequenzierautomaten der neuesten Generation mit einer effizienten Nutzung aktueller Rechnerarchitekturen ermöglicht es, genetisch bedingte Erkrankungen schneller aufzuklären und, wie beispielsweise im Falle von Krebserkrankungen, Therapieentscheidungen von einem solchen „Genom-Check“ abhängig zu machen. Dabei anfallende große Datenmengen müssen, bei vertretbaren Kosten, in kurzen, klinisch sinnvollen Zeiträumen komplexen Analysen unterworfen werden. Dazu ist die Effizienzsteigerung geeigneter Programme auf Hochleistungsrechnern unabdingbar.
Im Vortrag wird ausgehend vom Workflow des Next Generation Sequencing erläutert, welche Arbeiten in den Bereichen Skalierung und Optimierung des Assembly geplant sind und welche Codes bearbeitet werden sollen. Es ist beabsichtigt, wesentliche Arbeitsergebnisse in Form einer Bibliothek hochskalierender Algorithmen und Tools zur Verfügung zu stellen, die im Rahmen der Gauss-Allianz weiter gepflegt werden sollen.