XML-Metadaten in der Langzeitarchivierung

Fragen zum Umgang mit XML-Schema wurden auf diesem Blog in einem Post von Jens ja schon thematisiert. Der verlinkte Artikel beschrieb Probleme bei der Validierung von XML-Dateien aus der DMZ eines Firmennetzwerks heraus. Netzwerkregeln, die Hackern das Leben schwer machen sollten, verhinderten die Validierung von XML-Daten des Langzeitarchivs.

Kürzlich verursachte eine nachträgliche Berichtigung (DIF/Summary/Abstract ist Pflicht geworden) am Schema des GCMD DIF  in der Version 9.8.2 Probleme mit unserer DOIDB. Die Probleme lagen hier ähnlich – unsere Metadaten, die u.a. als DIF im XML-Format vorgehalten werden, ließen sich plötzlich nicht mehr validieren. Für die Langzeitarchivierung werfen solche Ereignisse die Frage auf, ob man zur Validierung benötigte Schema-Dateien nicht generell mit im Archiv speichern sollte?

XML-Schema definiert Datenformate in XML für XML. In unserem Fall hat sich also das Datenformat der Metadaten geändert, und diese Änderung war außerhalb unseres Einflussbereichs und wäre auch außerhalb des Einflussbereichs eines Archivs gewesen. Sind nun Konvertierungen der Metadaten einfach eine Aufgabe des Archivs, oder brauchen wir Schema-Registries für beschreibende Metadaten in der Langzeitarchivierung?

Posted in Langzeitarchivierung | Comments Off

Sind das Forschungsdaten oder kann das weg?

Den Satz habe ich auf dem letzten Bibliothekartag in Leipzig aufgeschnappt. Eigentlich ist damit doch schon alles gesagt. Er beinhaltet das Problem der Auswahl (engl. appraisal) und stellt gleich die Frage zur Langzeitverfügbarkeit, oder eben nicht.

Das Problem der Auswahl zu archivierender Inhalte ist zum einem extrem zentral und zum anderen kaum von einem externen Dienstleister zu erledigen. Eine, wie ich finde, äußerst spannende Anekdote zur ‚designated community‘ und deren von uns natürlich genau zu beschreibenden Anforderungen an die ‚significant properties‘ gibt es unten. Lesen Sie also weiter  : ).

Bei naturwissenschaftlichen Daten etwa der Meteorologie stellt sich die Frage der Auswahl bereits direkt im Workkflow. Sollen wir die Rohdaten des Sensors archivieren, oder lieber die durch einen Menschen bereinigten Daten? Die Minutenwerte, oder eher die aggregierten 10 Minuten oder gar Stundenwerte? Eine ganz ähnliche Fragestellung ist uns in einem Expertengespräch am astronomischen Institut Potsdam begegnet, wobei die Datenmengen dort immens viel größer waren.

Für jede Entscheidung gibt es gute Argumente, aber wir sollten auch unsere Kompetenz im Beurteilen späterer Forschergenerationen nicht überbewerten. Jetzt kommt die Anekdote:

Wer sammelt eigentlich aus welchen Gründen Postkarten? Und sind Postkarten Forschungsdaten? Per Intention eigentlich nicht, aber in neue Zusammenhänge gestellt, können sie es durchaus werden.

Es gab vor einigen Jahren ein Projekt  einiger Münchner Wissenschaftler, die in diesem Fall alte Postkarten von Gletschern neueren Aufnahmen gegenübergestellt haben und so zum Teil recht drastische Gletscherveränderungen dokumentieren konnten.

http://www.gletscherarchiv.de/fotovergleiche/gletscher_liste

Die Frage stellt sich also nach der Definition von Forschungsdaten. Geht es dabei nur um Daten, die im Forschungsumfeld mit einer vorher definierten Fragestellung erhoben wurden, oder sind es alle Datensätze, mit denen Forschung betrieben wird, werden kann?

Ein spannendes Thema, dem wir auch in der Curriculums Sparte von EWIG Raum geben werden.

Auf keinen Fall sollten wir aber Opas Postkarten wegwerfen….

Posted in Data Management Plan, Forschungsdaten, Langzeitarchivierung | Comments Off

Datenportale – Segen oder Fluch? Ein Bewertungsschema zur Nutzerfreundlichkeit.

Im Zuge der Diskussionen um Open Access – Pro und Kontra – wird neben dem freien Zugang zu wissenschaftlicher Literatur auch die Bereitstellung wissenschaftlicher Daten (Mess- und Modelldaten) ergänzt durch Metadaten im Internet gefordert                           (Berliner Erklärung 2003).

Gerade in den Geowissenschaften werden zunehmend Daten über sogenannte Datenportale zur Verfügung gestellt. Sie unterscheiden sich natürlich bezüglich Art und Umfang der angebotenen Daten. Aber auch die Nutzbarkeit dieser Datenportale ist sehr unterschiedlich. So werden zwar vermehrt Datensätze über das Internet verfügbar, der Vorteil gegenüber dem direkten Datenaustausch zwischen den Wissenschaftlern ist für den Nutzer aber nur gegeben, wenn die Datenbeschaffung, angefangen von der Recherche bis hin zum Download, einfacher und weniger zeitintensiv ist bei gleicher Qualität.

Im Rahmen des Projektes EWIG wurden diverse für meteorologische Fragestellungen relevante Datenportale hinsichtlich ihrer Nutzerfreundlichkeit bewertet.

Das Bewertungsschema umfasst

  • den Zugang (frei/mit Anmeldung/kostenpflichtig),
  • die Datenbeschreibung/Metadaten,
  • die Möglichkeiten zum Download (Browser/ftp/andere),
  • die Dokumentation des Portals an sich und
  • das Vorhandensein/die Qualität eines „Getting started“.

Letztlich wurden die vergebenen Punkte umgesetzt in ein 5 *-System, das ausschließlich Auskunft gibt über die Nutzerfreundlichkeit eines Datenportals. Aussagen zur Datenqualität bleiben davon unberührt.

Ergänzt wurden die zu bewertenden Faktoren der mit Webadresse aufgelisteten Datenportale um die Angabe der verfügbaren Daten, somit steht Wissenschaftlern und Studenten ein Hilfsmittel für die Datenbeschaffung zur ersten Orientierung zur Verfügung.

Posted in Forschungsdaten, ohne Kategorie, Produkte und Tools | Comments Off

Datenworkshop – gemeinsam zu einem verbesserten institutionellen Datenmanagement

Ein Datenworkshop am Institut für Meteorologie, FU Berlin, brachte im Dezember 2012 Datenerzeuger und –nutzer der einzelnen Arbeitsgruppen zusammen, um gemeinsam über Verbesserungen beim Datenmanagement zu diskutieren. Ausgangspunkt waren die Ergebnisse aus der vorab durchgeführten Fragebogenaktion am Institut.

Einzelne Arbeitsgruppen stellten Bereiche vor, in denen sie mit dem Thema „Daten“ zu tun haben. Dazu zählten u.a. die Gruppen Stadtmessnetz, Klimamodellierung und Extremwetter aber auch diejenigen, die für die IT verantwortlich sind. Es wurden bestehende Probleme vorgetragen als auch Lösungen präsentiert.

Vorrangig zu behandelnde Punkte wurden definiert. In erster Linie waren dieses die Strukturierung bestehender Datenprojekte, der Umgang mit „hinterlassenen“ Daten ehemaliger Institutsmitglieder und die Dokumentation von Daten. Als Resultat der Veranstaltung fand sich ein Team zusammen, das zunächst ein gemeinsames Konzept zur Struktur der Datenprojekte erarbeitet. Dieses wird einfließen in die Erstellung und Einführung institutioneller Policies, wie sie im Projekt EWIG als Musterlösung angestrebt werden.

Schulungen zum Thema Datenmanagement werden den mit diesem Workshop gestarteten, Arbeitsgruppen übergreifenden Dialog fortführen und vertiefen.

Posted in Data Management Plan, Forschungsdaten, ohne Kategorie, Veranstaltungen | 1 Comment

Fragebogenaktion – Basis zur Optimierung institutionellen Datenmanagements

Eine Fragebogenaktion zum Datenmanagement am Institut für Meteorologie der FU Berlin im Herbst 2012 diente der Bestandsaufnahme und Erforschung der Anforderungen und Bedürfnisse der Institutsmitglieder. Gleichzeitig bilden die Ergebnisse die Basis zur Optimierung des zukünftigen institutionellen Datenmanagements.

Fragen wie:

  • „Haben Sie sich schon einmal Gedanken zu einer Verbesserung Ihres persönlichen Datenmanagements gemacht?“
  • „Wie häufig verlagern Sie Daten aus dem Arbeitsbereich in einen Archivbereich?“
  • „Wo werden Daten von Ihnen archiviert?“
  • „Wie dokumentieren Sie Ihre Daten?“
  • „An welcher Stelle würden Sie zuerst aktiv werden, um das Datenmanagement zu
  • verbessern?“

sollten Aufschluss geben über die aktuelle Situation.

Es wurde deutlich, dass ein strukturierter Umgang mit Daten als sinnvoll und notwendig angesehen wird. Im Durchschnitt verbringen Wissenschaftler 50 % ihrer Arbeitszeit mit der Datenbe- und -verarbeitung. Hierbei nimmt die Recherche und Aufbereitung neben der eigentlichen Auswertung und Interpretation meist einen größeren Anteil ein als die Dokumentation und Archivierung nach Abschluss eines Projektes.

Grund für die mangelnde Nachbearbeitung ist in den wenigstens Fällen fehlender Speicherplatz, auch wenn die Datenmenge durch kontinuierliche Ergänzung nicht nur im Bereich des im 1-Minutentakt Daten liefernden Stadtmessnetzes ständig wächst. Ein Grund für die unregelmäßige oder gar nicht stattfindende Umlagerung von Daten in einen Archivbereich könnte ein fehlender vorgegebener Workflow sein, der diese Datenumlagerung vereinfachen und überschaubar machen würde, sodass hier die Bereitschaft zur Archivierung gesteigert wird.

Ein weiterer Grund ist die Verantwortlichkeit für Daten, die häufig im Bereich des Wissenschaftlers liegt, der, bedingt durch zeitlich begrenzte Projektstellen, am Ende seiner Anstellung gar keine Zeit mehr findet, Daten über die veröffentlichte Auswertung hinaus zu dokumentieren und von seinem Arbeitsplatzrechner in ein Langzeitarchiv zu überführen.

So wurden als Quintessenz der Fragebogenaktion auch drei Punkte vorrangig genannt, die im Rahmen eines institutionellen Datenmanagementes verbessert werden sollten: Dokumentation, Metadatenerfassung und Schulung.

Gerade der Wunsch nach Einweisung in das Thema Datenmanagement macht deutlich, wie hoch die Unsicherheit unter den Wissenschaftlern und der Bedarf an strukturierten Vorgaben sind. An diesen Stellen bietet das Projekt EWIG Ansatzpunkte: hier werden u.a. die Erstellung von Policies als auch die Entwicklung von Lehrveranstaltungen für Forscher als auch Studierende behandelt.

Posted in Data Management Plan, Forschungsdaten, Langzeitarchivierung, ohne Kategorie, Projekte | Comments Off

Symposium Forschungsdaten-Infrastrukturen, 22. Januar 2013, Postdam

Gemeinsam organisiert von den DFG-Projekten Radieschen, re3data.org, KomFor, EWIG und BoKeLa.

22. Januar 2013, 9:30 – 17:00 Uhr
am GFZ in Potsdam

Die Flut an digitalen Daten, die z.B. bei Untersuchungen in den Sozialwissenschaften oder bei Satellitenmissionen in den Naturwissenschaften entstehen, wächst rasant. Die dauerhafte Speicherung dieser Daten für zukünftige Generationen von Forscherinnen und Forschern stellt das gesamte Wissenschaftssystem vor Herausforderungen. Jüngst hat die EU-Kommission Empfehlungen an ihre Mitgliedsstaaten zur dauerhaften Zugänglichkeit von Forschungsdaten verabschiedet. Doch noch sind viele Fragen ungelöst. So müssen Aspekte der Finanzierung, Organisation und Technologie der zu schaffenden Forschungsdaten-Infrastrukturen sowie deren rechtliche und politische Rahmenbedingungen geklärt werden.

Diese Themenfelder werden in einem gemeinsam organisierten Symposium der DFG-Projekte Radieschen, re3data.org, KomFor, EWIG und BoKeLa diskutiert. Im Hauptprogramm  des Symposiums werden, mit dem Datenlebenszyklus als Leitlinie, die jeweiligen Herausforderungen und neuesten Erkenntnisse durch Vorträge und daran anschließende Diskussionen erörtert. In begleitenden Workshops werden zentrale Themenfelder von Expertinnen und Experten bearbeitet und deren Ergebnisse anschließend dem Publikum als Poster-Präsentation vorgestellt.

Das Symposium versammelt die Experten-Community zu Forschungsdaten aus dem deutsch-sprachigen Raum. Kern der Veranstaltung sind die Vorträge der Experten zu  Forschungsdaten-Infrastrukturen, sowie die Präsentation der Ergebnisse der laufenden Forschungsprojekte.  Das Symposium dient als Plattform zum Gedankenaustausch und zum Netzwerken innerhalb der Forschungsdaten-Infrastrukturen Community.
Das Symposium adressiert eine Vielfalt von Themen. Ziel ist es, die Diskussion über diese Themen und über die in den Workshops erarbeiteten Thesen zwischen allen Teilnehmern des Symposiums im Rahmen des Foyergesprächs zu fördern.

Weitere Informationen, das Programm sowie die Möglichkeit zur Anmeldung finden Sie hier.

Posted in Forschungsdaten, Veranstaltungen | Comments Off

Erste Phase von EWIG abgeschlossen – zweite Phase gestartet…

Die erste Projektphase von EWIG ist abgeschlossen, gleichzeitig sind die Planungen für die nächsten beiden Projektjahre »in der Pipeline« – die Projektförderung durch die DFG wurde gerade um zwei Jahre verlängert.

Neben der Vorbereitung institutioneller Policies auf Basis der Workflows bei den geowissenschaftlichen Projektpartnern stand im ersten Jahr auf Seiten des ZIB/KOBV vor allem die Identifizierung von Problemen beim Ingest und die Vernetzung mit Anwendern und Datenproduzenten im Vordergrund. Um einen Überblick zu den aktuellen Lücken und Problemen in den Workflows zu bekommen, haben wir 2011 und 2012 insgesamt 18 Expertengespräche geführt; weitere sollen während der zweiten Projektphase folgen.

Wesentliche Erkenntnisse aus den Expertengesprächen lassen sich folgendermaßen zusammenfassen:

  • Die schrittweise Vorverlagerung des Ingest hin zum Datenproduzenten etabliert sich unter der Bezeichnung Pre-Ingest oder Pre-Pre-Ingest zunehmend. Die Pre-Ingestprozesse gewinnen unter dem Aspekt der Qualitätssicherung an Bedeutung.
  • Langzeitarchivierung von Forschungsdaten ist in bestimmten Bereichen sehr fortgeschritten gelöst (z.B. Klimaforschung), befindet sich ansonsten aber weiterhin in einer experimentellen Phase mit sehr unterschiedlichen Workflows.
  • Es gibt überdisziplinär eine ausgeprägte Heterogenität der Anforderungen bei der Metadatenbeschreibung, bei der technischen und inhaltlichen Konsistenz, den Datenformaten, den Fachstandards beim Zugriff auf Forschungsdaten sowie bei den unterschiedlichen Niveaus der Datenkuratierung.
  • Die definitorische Trennung von Repositorien/Datenspeichern und Langzeitarchiven ist unscharf. Generell besteht weiter Klärungsbedarf in Terminologiefragen.

Neben neuen Expertengesprächen werden wir im EWIG-Team nun direkt Hand an die Daten legen und versuchen, die technische Qualitätssicherung beim Einspielen von Forschungsdaten zu verbessern bzw. überhaupt erst aufzubauen. Starten wollen wir mit Testdaten vom GFZ und Institut für Meteorologie. Parallel wird an Datenpolicies für die geowissenschaftlichen Projektpartner gearbeitet, mit denen institutionelle Rahmenbedingungen abgesteckt werden.

Nicht zuletzt sehen wir als wesentliche Aufgabe in der zweiten Phase die Weitergabe unserer Erfahrungen und neuen Erkenntnisse an Studierende und Doktoranden. Ein erster Schritt dazu ist die Integration eines »Datenmanagement-Moduls« in die universitäre Ausbildung an der FU Berlin.

Posted in Forschungsdaten, Langzeitarchivierung, Projekte | Tagged , | Comments Off

The writing on the wall

Maybe I am getting a little focussed in what to see (like the world is full of letterboxes just after you needed one), but I feel there are more and more articles on archiving tools that deal with the actual usability instead of compiling a comprehensive but somewhat abstract list of features.

Like Matthew Hutchins said in his blog post:

 I tried to make this project complementary to those [other surveys] , by selecting some different tools (but some in common), and by analysing the results in terms of the comparative usefulness of the outputs, rather than computational performance. This makes the results somewhat subjective, but at the same time illuminates many of the issues that make using these tools challenging.

I for my part don’t see any problems in some more subjective descriptions of experinces in the archiving business. On the contrary I believe it could ease the way to just experiment with the tools of the trade instead of regarding them as rocket science. Which is an easy mitske if you judge them by their output…

If I have to choose from two ways of illustrating, say automotive performance, I like “If you hit the pedal you don’t just get pressed into the leather, you become part of it” a lot better than “The tested specimen of the hmhmhm Carrera took under 4 seconds to accelerate from 0 to 100 km/h”. Not that I don’t like numbers but sometimes you get a better picture if you use …  pictures. Therefore again a thumbs up for more subjective assessments. Thank you Matthew!

Posted in Langzeitarchivierung, ohne Kategorie, Produkte und Tools, Projekte | Comments Off

Neue Werkzeuge oder neue Besonnenheit?

Vor kurzem bin ich über einen Eintrag im Open Planets Blog gestolpert, der mich nicht recht loslässt. Es heißt da:

*If* our challenges are actually related to knowing about tools rather than formats, then a formal registry with a complex and rigid structure containing “facts” is probably not what we need. We want to know what experiences people have had in applying specific tools to actual data. What works, what doesn’t, and so on.

Viele Gespräche, die wir im Rahmen des Projekts geführt haben zeigen, dass jeder einzelne für seinen speziellen Ingestprozess sein eigenes Wissen aufbauen musste und dieses Wissen genau zu den im Moment verwendeten Tools passt. Gut, klar, verblüfft einen zunächst nicht besonders, aber wer die Fülle von verfügbaren Werkzeugen kennenlernt, fragt sich, warum haben die dieses tool genommen und nicht ein anderes?

Und wer neu in die Archivierungsszene kommt steht vor denselben Problemen, die andere bereits hatten. Ich weiß nicht, wie Ihnen ging, aber ich brauchte nicht selber auf die heiße Herdplatte fassen. Mir reichte die überlieferte Erfahrung.

Von daher gefällt mir Paul Wheatleys post ziemlich gut, fordert er doch einen regeren Austausch in regerer Sprache. Weniger vielleicht vom akademischen Ansatz, welches Werkzeug zur Analyse von PDFs wieviele Prozessorzyklen braucht und dafür mehr von der Sicht des Archivierenden, welches Tool zwar sehr elegant ist, aber absolut unbrauchbar, da die Fehlermeldungen nur mit JAVA Programmierkenntnissen zu verstehen sind.

Wir könnten jetzt natürlich ein neues Fass aufmachen und fragen wieviel Programmiererfahrung ein Archivar im digitalen Zeitalter besitzen muss, aber das spare ich mir für einen späteren Eintrag… : )

Posted in Langzeitarchivierung, Produkte und Tools | Comments Off

Empfehlungen des Wissenschaftsrats zur Weiterentwicklung der wissenschaftlichen Informationsinfrastrukturen in Deutschland bis 2020

Der Wissenschaftsrat hat in Ergänzung zu den strategischen Vorschlägen in den »Übergreifende[n] Empfehlungen zu Informationsinfrastrukturen« vom Januar 2011 jetzt ein neues, 90-seitiges Papier »Empfehlungen des Wissenschaftsrats zur Weiterentwicklung der wissenschaftlichen Informationsinfrastrukturen in Deutschland bis 2020« veröffentlicht. Zu den beschriebenen vier zentralen Aufgabenfeldern gehört auch die nationale Infrastruktur im Bereich Forschungsdaten und Langzeitarchivierung, zu deren Weiterentwicklung eine Reihe von Hinweisen und Empfehlungen ausgesprochen werden.

Interessanterweise sollen sich nicht nur die Datenproduzenten sondern auch die Betreiber von Infrastrukturen dazu verpflichten, identifizierte Fehler in Datensätzen zu korrigieren. Eine solche inhaltliche Qualitätssicherung ist bisher nur in wenigen Ausnahmefällen bzw. nur in sehr gut ausgestatteten Datenzentren wie den WDCs möglich, weil dazu fachwissenschaftlich qualifizierte Datenkuratoren eingestellt werden müssten. Insofern ist dies eine recht weitgehende Empfehlung bzw. Forderung, die angesichts der schwierigen Situation in vielen Fächern nur als zukünftige Wunschlösung verstanden werden kann.

Mit wissenschaftlichen Zeitschriften und Verlagen sollen vermehrt Vereinbarungen getroffen werden, die wechselseitige Verweise zwischen Publikationen und den zugrundeliegenden Daten (auf Basis von DOIs o.ä.) zum Gegenstand haben. Vorbild ist hier Pangaea: Durch eine Kooperation mit Elsevier werden bereits seit längerem auf den Artikelseiten in Science Direct die zugehörigen Datensätze in Pangaea verlinkt.

Das korrekte Zitieren von Forschungsdaten soll darüber hinaus als Norm in die Regeln guter wissenschaftlicher Praxis aufgenommen werden. Dies dürfte dazu beitragen, die Verlässlichkeit der Daten zu erhöhen.

Es besteht weiterhin kein Konsens zu der Frage, auf welcher organisatorischen Ebene Datenzentren am besten angesiedelt werden sollten. Ob disziplinspezifisch oder disziplinübergreifend, nah am Datenproduzenten oder global/national organisiert bleibt vorerst offen. Es wird lediglich auf die Notwendigkeit zusätzlicher Studien und Pilotprojekte zu diesem Problemfeld verwiesen.

In den Empfehlungen zur Langzeitarchivierung wird die Wissenschaft aufgerufen, verbindliche Entscheidungskriterien für die Auswahl der zu sichernden Bestände zu entwickeln, die auch disziplinübergreifende Nutzungsszenarien berücksichtigen sollen. Es wird zukünftig also noch stärker darauf zu achten sein, dass nicht »wahllos« alle verfügbaren Objekte digitalisiert und archiviert werden.

Auch im Bereich Langzeitarchivierung wird auf die zusätzlich notwendigen Sach- und Personalmittel in Forschungsprojekten hingewiesen, insbesondere um archivierungswürdige Bestände in größerem Maßstab mit standardisierten Metadaten zu versehen. Etwas rätselhaft erscheint mir der Hinweis, dass dabei »darauf zu achten [sei], dass Forschungsdaten, Texte, Audio- und Videodokumente oder ähnliches getrennt von den Metadaten abgespeichert werden«. Dies ist meiner Meinung nach nicht a priori sinnvoll oder gar notwendig.

Posted in Forschungsdaten, Langzeitarchivierung, Veröffentlichungen | Tagged , , , , | Comments Off