Aktuelles

Der SFB und Big Data

Um die Fülle an unterschiedlichsten Forschungsdaten verarbeiten zu können, nutzen die Informatiker im SFB die dokumentenorientierte Datenbank MongoDB, haben sie wirksam eingebunden und erweitert. MongoDB selbst ist von der datengestützten Forschung des SFBs beeindruckt.

Als der Sonderforschungsbereich 1232 "Farbige Zustände" mit der Planung seiner Dateninfrastruktur begann, war die zentrale Frage, wie man die extrem heterogenen Datensätze in einer Datenbank würde zusammenfassen können. Es war klar, dass nicht nur schlichte Zahlenlisten, sondern unterschiedlichste Datentypen, wie z. B. Bilder oder Temperaturverläufe,  Prozessparamenter und auch spezifische Probenzustände erfasst werden müssten, die sich aus den Prozessschritten ergeben. Jedem Prozessschritt sollten auch Metainformationen und experimentelle Informationen beigefügt werden können, denn wer, wann, wie und wo etwas an einer Probe verändert hat, sind entscheidende Zusatzinformationen, die für die Erforschung der Methode "Farbige Zustände" unerlässlich sind.

Seabstian Huhn, wissenschaftlicher Mitarbeiter im TP01 und auch schon in der Vorbereitungsphase des SFB dabei, war sicher: Dies würde zu einem riesigen Datenvolumen führen. Ihm war klar, dass herkömmliche SQL-Datenbanken, denen Tabellen zugrunde liegen, schnell damit überfordert wären. Außerdem brauchte es eine Datenbank, die sich flexibel an die Forschung und die daraus resultierenden Daten anpassen lassen würde. Dass sich im Verlauf der Forschung neue Erkenntnisse ergeben, die direkt zurückfließen und neue Experimente und andere Daten hervorbringen, ist ein Kern der Forschung des SFB.

Mit der MongoDB hatte Sebastian Huhn die geeignete Datenbank identifiziert. Sie ist das, was man als eine dokumentenorientierte Datenbank bezeichnet. Dadurch können die heterogenen Daten aus allen Teilprojekten, die Historien der Proben und die Metadaten der Prozessschritte flexibel einzeln betrachtet oder zusammengeführt werden. Und sie ist dem großen Datenvolumen, das auch durch den Hochdurchsatz der Proben entsteht, gewachsen. Dafür waren allerdings noch ein paar Änderungen an der Datenbank notwendig. Für den studierten Informatiker Sebastian Huhn war das zwar eine Herausforderung, aber kein Hindernis: "Im TP01 haben wir ein umfangreiches Datenmodell entwickelt, das es uns erlaubt, unsere heterogenen Daten strukturiert abzulegen", sagt er und erklärt: "Durch eine enge Symbiose von neu entwickelten Basisoperatoren und dem aktuellen Erkenntnisgewinn des Sonderforschungsbereiches, konnten neuartige Zugriffstechniken umgesetzt werden. Erst diese neuen Zugrifftechniken erlauben es uns, die vielfältigen Forschungsfragen zu adressieren."

Die Marketing Abteilung bei MongoDB hat über eine Veröffentlichung durch Sebastian Huhn vom Einsatz ihrer Datenbank im SFB "Farbige Zustände" erfahren. Sie ist von dem völlig neuen Ansatz für die Erhebung, Sammlung und Verwendung von Daten in der Materialforschung des SFB "Farbige Zustände" und dass die MongoDB dazu entscheidend beiträgt, begeistert, und berichtet über das Projekt als Success Story in Ihrem Customer Bereich.

Nils Ellendt, Geschäftsführer des SFB, bereut die Entscheidung für die MongoDB nicht: "Zum ersten Mal in der Geschichte der Werkstoffforschung ist es gelungen, die notwendige Datenstruktur für eine experimentelle Methode der Werkstoffentwicklung zusammenzuführen. Damit bricht eine neue Epoche an."

Wenn die Datenbank genug Daten enthält, wird es möglich sein, Deskriptoren abzufragen, um ein Material zu finden, das einem Bedarf entspricht oder zumindest eine Richtung für die Suche vorzugeben. MongoDB wird die Forschung in der zweiten Phase des SFB durch Prädiktion unterstützen. Damit wäre der SFB seinem Forschungsziel einen Riesenschritt nähergekommen.


Hier geht es zum (englischsprachigen) Bericht über den SFB und die Anwendung der Datenbank.

 

Sebastian Huhn
Sebastian Huhn hält einen Probenbehälter, in dem bis zu 96 Proben aufbewahrt werden können. Der QR-Code führt zum Datenbankeintrag der Proben