Data Life Cycle Lab
- Ansprechperson:
- Projektgruppe:
- Förderung:
HGF POF III
- Projektbeteiligte: SCC, IPE, ITI, IPD, IVS
HGF-Programm SCI,
KASTEL, AIFB
FZI Living Lab Smart Energy - Starttermin:
2015
Programm: Supercomputing & BigData (SBD)
Beschreibung:
Der Datenlebenszyklus
In Big-Data-Anwendungen spielt der gesamte Lebenszyklus der Daten eine große Rolle. Jeder Schritt stellt eigene Herausforderungen für das Datenmanagement dar.
Im Energiebereich treten sehr häufig Zeitreihen auf. Die Erfassung von Messdaten, wie beispielsweise Spannungswerte eines Electrical Data Recorders (EDR) oder von Simulationsergebnissen liefert häufig sehr große Datenmengen mit teilweise sehr hohen Datenraten.
Für die Datenübertragung sind außer den Datenraten vor allem hohe Sicherheitsanforderungen kennzeichnend. Messdaten und Daten zur Charakterisierung der Energiesysteme sind häufig vertraulich oder unterliegen als personenbezogene Daten hohen Datenschutzanforderungen.
Die eigentliche Datenverwaltung mit verteilter Speicherung, der Realisierung hoch performanter lesender und schreibender Zugriffe und bedarfsgerechter Löschung oder langfristiger Archivierung von Daten benötigt vor allem eine durchdachte Definition qualitativ hochwertiger, aussagekräftiger Metadaten sowie deren intelligente Verwaltung und Verwendung.
Unterschiedlichste Arten von Datenanalysen benötigen hoch performanten Zugriff auf Messdaten und andere grundlegende Daten zu den Energiesystemen. Sie diktieren damit maßgeblich die Anforderungen an die Datenverwaltung. Außerdem liefern Datenanalysen wiederum Ergebnisse, die ebenfalls intelligent zu verwalten sind.
Am Ende ist der Zugriff zum Zwecke der Publikation, der Verwendung in der Lehre oder bei der Planung neuer Projekte ein weiterer wesentlicher Faktor, der die Aufgaben des Datenmanagements mit bestimmt. Damit schließt sich auch wieder der Kreis zu einem neuen Datenzyklus, denn neue Projekte werden in der Regel auch wieder eine neue Kaskade der Datenerfassung anstoßen.
Generische Datenservices
Die Gruppe Datenmanagement in der Energieinformatik konzipiert und entwickelt die Generischen Datenservices (GDS) im Hinblick auf die oben dargelegten Herausforderungen in Big-Data-Anwendungen. Die zu entwickelnden Services sollen möglichst auch über die Anwendungen aus der Energieforschung hinaus einsetzbar sein.
Faktoren, die diesen generischen Charakter der Datenmanagementsoftware wesentlich unterstützen, sind dabei ein klar definiertes Metadatenkonzept, die Möglichkeit der einheitlichen Identifikation von Datenobjekten, der Einsatz von Servicetechnologien für ein verteiltes System und eine systematische objektorientierte Vorgehensweise in der Programmentwicklung.
Für die Speicherung der Daten setzten die GDS auf verschiedene, den jeweiligen Zwecken und Anforderungen angepasste Datenspeichersysteme, wie SQL-Datenbanken, dokumenten- und graphenorientierte Datenbanken, spaltenorientierte Datenbanklösungen und verschiedene dateibasierte Speichersysteme.