Digitales Langzeitgedächtnis mit Lücken Detail - Computerwelt

Computerwelt: Aktuelle IT-News Österreich


25.03.2009 Oliver Weiss

Digitales Langzeitgedächtnis mit Lücken

Die Nationalbibliothek will zwei Mal pro Jahr das österreichische Web komplett archivieren. Die technische Umsetzung ist problematisch.

Im Herbst 2009 will die Österreichische Nationalbibliothek den ersten kompletten Crawl des österreichischen Internets – also alle .at-Seiten sowie alle Seiten mit Österreich-Bezug – durchführen. Zusätzlich sollen Webseiten von öffentlichem Interesse, die sich häufig ändern – beispielsweise Nachrichten-Seiten – laufend archiviert werden. Welche Datenmengen dabei anfallen werden, kann Bettina Kann, Leiterin der Abteilung »Digitale Bibliothek« in der Österreichischen Nationalbibliothek trotz zweimaliger Probeläufe noch nicht sagen. »Wir schätzen, dass das Archiv nach fünf Jahren rund 80 Terabyte an Daten umfasst.«

Gespeichert werden die Daten im Bundesrechenzentrum – eine Sicherheitskopie liegt zudem im Hochsicherheitsrechenzentrum des Bundes in St. Johann im Pongau. Die Österreichische Nationalbibliothek schätzt, dass über einen Fünfjahreszeitraum rund 3,4 Millionen Euro an Kosten für IT-Ausstattung und Personal zur Sammlung und Ablieferung der Inhalte anfällt. Im Moment verfügt die Nationalbibliothek für die Webarchivierung über sechs Rechner: Vier für das Harvesting und zwei für die Indexierung. Das Harvesting der Daten erfolgt mit dem Open-Source-Software-Paket NetarchiveSuite, das im Rahmen des dänischen Webarchivierungsprojektes von der Königlichen Bibliothek und der Staatsbibliothek Dänemark entwickelt wurde. Wie bei einem Browser werden die Daten dabei vom Host angefordert – das Programm folgt dann Links innerhalb einer Webseite und sammelt alle gefundenen Daten.

Alle gefundenen Daten stimmt jedoch nicht ganz, wie auch Kann zugibt: »Eine lückenlose Dokumentation ist nicht zu schaffen.« Vor allem Multimedia-Formate machen der Webcrawler-Software zu schaffen: Flash-Animationen, Videos und Musik stellen nicht nur wegen der immensen Datenmengen eine Herausforderung dar. Zum Beispiel kann der Crawler in Flash eingebettete Links nicht auslesen. Wie also Videos oder Animationen für die Nachwelt erhalten werden sollen, ist ungeklärt. »Uns geht es nur um Wort und Bild«, so Kann.

ABLIEFERUNGSPFLICHT Auch Inhaber von privaten Homepages müssen nun maximal vier Mal pro Jahr der Österreichischen Nationalbibliothek erlauben, die Inhalte ihrer Seite auszulesen. In der Praxis bedeutet das für den Inhaber der Homepage keinen Aufwand, da die Daten automatisch erfasst werden. Allerdings werden auch private Daten wie Urlaubsfotos erfasst, sofern sie nicht per Passwort geschützt sind. »Wenn jemand etwas nicht veröffentlichen will, dann soll er es nicht ins Netz stellen«, so Kann.

Diesen Artikel

Bewertung:

Übermittlung Ihrer Stimme...
Noch nicht bewertet. Seien Sie der Erste, der diesen Artikel bewertet!
Klicken Sie auf den Bewertungsbalken, um diesen Artikel zu bewerten.
  Sponsored Links:

IT-News täglich per Newsletter

E-Mail:
Weitere CW-Newsletter

CW Premium Zugang

Whitepaper und Printausgabe lesen.  

kostenlos registrieren

Aktuelle Praxisreports

(c) FotoliaHunderte Berichte über IKT Projekte aus Österreich. Suchen Sie nach Unternehmen oder Lösungen.

Zum Thema

  • abaton EDV-Dienstleistungs GmbH

    abaton EDV-Dienstleistungs GmbH VPN, Überwachungssysteme, SPAM-Filter, Notfalls-Rechenzentren, Firewalls, Datensicherung, Backup und Recovery Systeme,... mehr
  • ectacom GmbH

    ectacom GmbH Aus- und Weiterbildung, IT-Asset- und Lizenzmanagement, Übernahme von Softwareprojekten, Datenschutz, Antiviren- und Virenscanner Software, Backup und Recovery Systeme, Firewalls,... mehr
  • EASY SOFTWARE GmbH

    EASY SOFTWARE GmbH Schrifterkennung, Mobile Lösungen und Applikationen, Management Informationssysteme (MIS), Dokumentenmanagement und ECM, Business Intelligence und Knowledge Management mehr
  • Dicom Computer VertriebsgesmbH

    Dicom Computer VertriebsgesmbH WLAN-Systeme, VPN, Netzwerk-Systeme (LAN, MAN, WAN), Netzwerk-Management, Netzwerk-Diagnose-Systeme, Netzkomponenten, Mobile Lösungen und Applikationen,... mehr

Hosted by:    Security Monitoring by: