Archivierung von Webseiten

Die Wayback Machine von archive.org ist zur Ansicht von alten Versionen einer Webseite ganz praktisch. Beispielsweise ist dort eine Kopie des Internetauftritts des Heise Verlags aus dem November 1996 abrufbar – d.h. es ist HTML konserviert, das vor fast 17 Jahren erstellt wurde. Relativ gut kann man dort auch das eigentliche Problem bei der Archivierung von Internetseiten beobachten: Webseiten sind praktisch nie in sich geschlossen, sondern verweisen auf Bilder, andere Webseiten und externe Daten. Eine automatisierte Auswahl von Inhalten zu treffen und – wie vom OAIS-Modell gefordert – in sich geschlossene Einheiten festzulegen ist da oftmals schwierig. Sind Bilder innerhalb eines Links nun wichtig? Wie verfährt man mit serverseitig generierten dynamischen Inhalten und sind diese überhaupt als solche erkennbar? In den 90ern waren z.B. Besucherzähler üblich, die als CGI-Skripte realisiert waren und Bilder zurücklieferten. Für einen Harvester wäre zwar am IMG-Tag erkennbar, dass ein Bild erzeugt wird. Ob es sinnvoll ist dieses Bild zu speichern, kann er aber nicht erkennen. Ganz neue Herausforderungen an die Archivierung stellen die Webseiten der aktuellen Generation. Heute werden clientseitig Inhalte per AJAX dynamisch in den DOM-Baum der Webseiten nachgeladen. Solche Techniken beschleunigen für den Benutzer den Seitenaufbau – für eine Maschine wird es aber ungleich schwieriger einen definierten Zustand einer Website zu benennen.

Doch was hat das alles mit EWIG zu tun, wo es uns Forschungsdaten in den Geowissenschaften geht? Nun – Daten werden ja schon seit einiger Zeit über Portalseiten präsentiert. Bei der serverseitigen Organisation der Datensätze gibt es im Grunde 2 Vorgehensweisen. Entweder man speichert die Datensätze gleich in Dateien und legt sie im Dateisystem ab, oder man zerlegt die Datensätze in kleinere Einheiten (z.B. Zahlen) und speichert sie in einer Datenbank. Beides hat Vor- und Nachteile. Was bei der Präsentation von Datensätzen allerdings immer vorhanden sein sollte, ist eine Art Zusammenfassung mit einem Überblick. Also Informationen darüber, wer, was, wann, wo und zu welchem Zweck gemessen hat. Die Übersichtsseite wäre ein guter Anlaufpunkt, wenn man Datensätze archivieren will.

Als Vorstufe zur Archivierung haben wir am GFZ vor einiger Zeit Daten aus einem anderen System auf eSciDoc migriert. Teil dieses anderen Systems war auch ein Content Management System, das bei einigen Datensätzen genutzt wurde, um individuelle Präsentationsseiten zu erstellen. Wir standen also vor dem eben beschriebenen Webseiten-Archivierungsproblem. Da wir das System kannten, war es relativ einfach, klar abgegrenzte und in sich geschlossene Einheiten für die Migration festzulegen. Etwas problematischer war schon die  Verlinkung, denn stabile Web-Links bieten eigentlich nur persistente Identifikatoren. Schliesslich musste noch eine Möglichkeit gefunden werden, Inhalte nachzuladen und Dateien zum Download anzubieten. Erledigt wird beides durch ein kleines PHP-Skript. Wie das Ganze nach der Migration aussieht, kann man sich hier ansehen:

 

This entry was posted in Langzeitarchivierung. Bookmark the permalink.

Comments are closed.