Services für 40.000 exabytes

Man hätte die Einheiten auch umrechnen können aber es handelt sich hier um ein Zitat. Gesprochen hat der Chef des e-Infratrukturprogramms der EU, Kostas Glinos und Anlass war die zweite EUDAT Konferenz (http://eudat.eu/2nd-conference/) vom 28. bis zum 30. Oktober. Er spielte damit auf die Entwicklung der Menge an zu handhabenden Daten an (http://eudat.eu/blog/eudat-2nd-conference-%E2%80%93-tuesday-29th-october-2013).

EUDAT ist ein Infrastrukturprojekt der EU und hat sich zur Aufgabe gemacht, eine flexible Plattform für Forscher sowohl grenz- als auch disziplinübergreifend zu entwickeln. Aus den ursprünglich vier Kerndiensten (Replication http://www.eudat.eu/b2safe, Data Staging http://www.eudat.eu/b2stage, Simple Store http://www.eudat.eu/b2share und Metadaten http://www.eudat.eu/b2find) sind mit einer AAI http://www.eudat.eu/authentication-and-authorization-infrastructure-aai inzwischen fünf geworden.

Nach zwei Dritteln der Laufzeit von 10.2011 bis 10.2014 wurde der Stand der 5 Kerndienste vorgestellt, verschiedene Adaptionen der Services in disziplinspezifischen Anwendungen gezeigt, sowie neue Erweiterungen diskutiert und teilweise in Workshops weiterentwickelt.

Der rote Faden der Konferenz waren allerdings nicht so sehr die schieren Mengen, sondern eher die Art damit umzugehen. WIE bekomme ich die Forscher dazu Daten zu teilen, WIE erhält man möglichst gute Metadatensätze und WIE können die entwickelten Infrastrukturen und Dienste auch nachhaltig genutzt werden.

Hier folgen jetzt einige ausgewählte Highlights der Konferenz:

‘Hands on’ Workshop zu dem geplanten Policy Beratungs Werkzeug (‘Cookbook’, den Link liefere ich, sowie er verfügbar ist) von SIM4RDM http://sim4rdm.eu/. Es wird eine Umfrage vorbereitet, die einem helfen soll, das Forschungsdatenmanagement seiner Institution zu bewerten und in Relation zu stellen. Die Perspektiven in dieser Evaluation sind Infrastrukturanbieter, Forschungsförderer, Publisher und Forscher. Ich stand zunächst in der Gruppe der Infrastrukturanbieter, wechselte dann aber zu ‘Forscher’, weil dort sonst niemand gewesen wäre. Grob gesagt gibt es in der Evaluation drei Klassen: 1) Wir haben nichts derartiges, 2) Wir sind auf dem Weg, 3) Wir sind gut. Je nach Positionierung bekommt man dann angepasste Hinweise und weiterführende Links. 1) Hier könnt Ihr Euch schlau machen 2) Hier könnt Ihr verbessern 3) Bitte teilt Euer Wissen mit anderen.

New Services – Semantic Annotation

Das Bild einer Datenwüste wurde bemüht, um den gegenwärtigen Zustand zu verdeutlichen. Viele viele Datensätze, aber nicht, oder nur lose miteinander verbunden. Die Veränderung der EUDAT Dienste führt beispielsweise dazu, dass das Simple Storage zu einer Art Science Tube wird. Es soll auch einen ‘light replication Service’ geben, der eine Art europäischer Drop Box werden kann.

Wenn all diese Dienste semantic annotation unterstützen sollen, muss zum Zeitpunkt des uploads Hilfestellung dafür gegeben werden. Die Probleme sind schnell skizziert: Ontologien geraten in Vergessenheit, Ontologien verändern sich mit der Zeit und wie bekommt man die Experten dazu, sich an der Entwicklung von Ontologien zu beteiligen?

Gedacht ist eine Art Plugin für die EUDAT Ser vices, mit dessen Hjilfe sich typische ‘long-tail’ Daten anreichern lassen.

Zu diesem Zweck formt sich eine Ontologie Arbeitsgruppe in EUDAT. Mitstreiter werden dringendst gesucht. Federführend aktiv ist hier James Malone http://ced.aston.ac.uk/ukont2014/index.html.

New Services – Dynamische und Echtzeit Daten

Hier ging es um das spannende Thema Zitation von Zeitreihen. Es wurde die zunächst der generelle Workflow von Daten einer Zeitrreihe skizziert: Messen / Übertragen / Sammeln / Bewerten / Speichern / Zur Verfügung stellen.

Nun entsteht zumindest in ausgedehnten Messnetzen das Problem, dass Daten nicht immer sequentiell eintreffen, oder generell mit einem Fehler behaftet sind. Menschliche Nachbearbeitung kann also nötig werden.

Unter Umständen kann ein Datensatz bereits zitiert sein, bevor er abschließend bearbeitet worden ist. Wenn beispielsweise erst geraume Zeit später klar wird, dass das Messgerät einen Offset hatte. Wie geht man jetzt mit den Daten um? Die Zuweisung eines PIDs ist nicht einfach.

Als Vorschlag zur Lösung wird das Konzept der zwei zwei Zeiten propagiert. Messzeit zu der gemessen wurde und Systemzeit zu der die Daten im System aufgenommen wurden. Eigentlich bräuchte es dann noch eine weitere Zeit, falls die Daten geändert wurden.

Es folgt der Vorschlag in die PIDs die ‘observation time begin’ und ‘observation time end’ einzubauen. Als ‘semi’- Beschluss wird über die in Gründung befindliche Working group data citation in der RDA gesprochen und dass man das Problem der Zeitreihen PIDs dort besprochen sehen möchte, um deren Ergebnisse dann in EUDAT zurückzuspiegeln.

New Services – Workflows

Es wird von einem Experten Workshop in Barcelona berichtet, auf dem verschiedene Bedürfnisse der Gemeinschaft identifiziert und diskutiert wurden. Beispiel für neue Services in EUDAT sind ein Workflow Repositorium, welches es ermöglicht Komponenten zu teilen und nachzunutzen. Als Beispiel hierfür wird die PID -vergabe genannt oder Testdatensätze, um besser zu verstehen, was der jeweilige Workflow macht.

Weiter soll es einen ‘Empfehlungsservice’ für Workflows geben, wo man entlang einer kurzen Fragenstrecke seine Bedürfnisse besser beschreiben kann und dann werden einem gleich Empfehlungen mitgeliefert für Wfs, die andere in ähnlicher Lage bereits genutzt haben → Repositorium. So soll eine Sammlung von best practices entstehen.

Auch hier entsteht das Problem, spezialisierte Wfs generalisieren zu wollen. Der Ansatz über Modularisierung gefällt mir dabei ganz gut. Die bisherige Denkweise ist allerdings aus der Großforschung gewachsen, Klimamodellierung, CERN, u.ä. Ob sich die Werkzeuge wie beispielsweise Kepler https://kepler-project.org/ oder Taverna http://www.taverna.org.uk/ auch auf unsere Workflows anwenden lassen, werde ich demnächst an diese Stelle beleuchten.

Es folgt eine Plenarsitzung, in der John Wood über den Stand von RDA berichtet (Training is important for open Science), Er sagt auch das Lehre seine Lieblingsbeschäftigung ist, aber in Bezug auf Open Science zunächst Inhalte entwickelt werden müssen, die man dann lehren kann.

Simon Hodson von Codata sagt die hätten schon ‘datat aware’ Curricula. Er möchte diese Erfahrungen in EUDAT einbringen.

Hieran schließt sich am Mittwoch Nachmittag noch der Workshop ‘Digital Preservation of Cultural Heritage’ an. DCH-RP (Digital Cultural Heritage Roadmap for Preservation, http://dch-rp.eu/) ist eine Koordinierungs Unternehmung des 7 FRP mit dem Ziel, die Datenspeicherung und Erhaltungsverfahren im Bereich des digitalen Kulturerbes auf europäischer und internationaler Ebene zu harmonisieren. Hauptergebnis soll eine Roadmap für die Implementierung einer föderierten E-Infrastruktur zur Erhaltung digitaler Bestände sein.

Antonella Fresa von DCH-RP eröffnet mit der Begründung, dass Archivierung allein schon wegen der Kosten der Digitalisierung notwendig ist. Sie beziffert die akkumulierten Kosten der der Europäischen Museen, Archive und Bibliotheken mit zusammen 10 Milliarden € pro Jahr während der nächsten 10 Jahre.

Schnittstellen zu den E-Sciences aus EUDAT sieht sie bei PIDs für Objekte und Anbieter, Kostenreduzierung durch automatisierte Metadatenextraktion, sowie Standardisierung. Das langfristige Ziel ist eine räumlich verteilte sichere Speicherung, nahtloser Zugang sowie ‘preserevation services’.

Ein Standard Vorgehen von DCH-RP ist das Erstellen sog. Proof of Concepts http://ecsg.dch-rp.eu/. In einem der nächsten PoCs sollen die EUDAT Services verwendet werden. Als Beispiel wird AAI genannt, da im Kulturerbe Bereich speziell Authentifizierung nötig ist, weil so viele Hände beteiligt sind. Auch ist für Museen die Nutzung ihrer Inhalte offensichtlich etwas, was man gerne über Zugangskontrolle regeln möchte. Um ein besseres Bild der Bedürfnisse im Bereich AAI und Kulturerbe zu bekommen führt DCH-RP zusammen mit ‘digitalmeetsculture’ eine Online Umfrage durch: http://www.digitalmeetsculture.net/heritage-showcases/dch-rp/dch-rp-questionnaire/

Macieej Brezazniak spricht über die Integration der verschiedenen EUDAT Services in eine Langzeit Archivierungs Umgebung. PID Vergabe über epic, Redundanz über Safe Replication.

Simon Lambert berichtet über die Fortschritte des SCAPE Projekts.

Börje Justrell von den Swedish National Archives spricht vom Kontext, der wichtig ist zum Verständnis der archivierten Bestände. Er stellt Migration der Emulation gegenüber und spricht von ‘durable digital objects’, die selber wissen, was sie zu ihrer Repräsentation benötigen.zeigt die Komponenten des OAIS Schemas anhand eines komplett selbst aufgebauten Archivsystems. Von bereits bestehenden Ansätzen zur Lösung des Archivierungsproblems haben sie dort keinen Gebrauch gemacht, weil Teile wie Storage ja schon vorhanden waren. Klang etwas unheimlich, die ganze Konstruktion.

Dann kam noch ein ganz spannender Vortrag von Luigi Briguglio über die AAI Infrastruktur bei APARSEN. Als Motivation bemüht er das Magenta Book in dem es über Authentizität heißt: „The degree to which a person (or system) may regard an object as what it is purported to be. The degree of authenticity is judged on the basis of evidence.“

Um diese Beweise liefern zu können schlägt er eine PREMIS Ereignis Kette vor, die auf einer SCIDIP-ES Lösung aufsetzt. Das Entwickelte Werrkzeug heißt SCIDIP-ES HAPPI (Handling Authenticity Provenance and Persistent Identifiers). Es soll dazu dienen Ereignisse, die die ‘Provenance’ eines Objekts betreffen zu registrieren in einer Datenbank in offenen Satndards zu speicher und verfügbar zu machen.

Abschließend berichtet noch Sanja Halling aus Schweden über ein Projekt, was äußerst ähnliche Inhalte hat, wie das digiS Projekt (http://www.servicestelle-digitalisierung.de/) am ZIB. Digisam (http://www.digisam.se/) läuft von 2012 bis 1015 und soll ‘Management Empfehlungen zur Handhabung von digitalen Sammlungen aussprechen, Vorschläge zur Langzeitarchivierung derselben Inhalte machen sowie Rollen und Verantwortlichkeiten im digitalen Kulturerebebereich identifizieren.

This entry was posted in Data Management Plan, Forschungsdaten, Veranstaltungen and tagged , , , , . Bookmark the permalink.

Comments are closed.