Computerwelt: Aktuelle IT-News Österreich


24.04.2013 :: Printausgabe 09/2013 :: Wolfgang Franz

"Offshore-Leaks": Big Data in Aktion

Das "größte Datenleck der Geschichte" hat einige, die ihr Vermögen in vermeintlich ruhigen Steueroasen geparkt haben, nervös gemacht. Wie man in einem 260 Gigabyte großen Datenberg – unstrukturiertes Material inklusive – die "smoking guns" findet.

Big Data macht Schluss mit Steueroasen.

Big Data macht Schluss mit Steueroasen.

© Olly - Fotolia.com

Die sogenannten Offshore-Leaks haben nicht nur die Welt der Schönen und Reichen durcheinandergewirbelt – das globale Netzwerk der Steueroasen wird derzeit mit viel Aufmerksamkeit gewürdigt. Mit der Zusendung der geheimnisvollen Festplatte an das "Internationale Konsortium investigativer Journalisten" (ICIJ) vor etwa einem Jahr hat auch ein neues Zeitalter redaktioneller Recherche begonnen: Die 260 Gigabyte Daten, darunter über zwei Millionen E-Mails und Bilder, schlugen in den beteiligten Redaktionen des Konsortiums wie eine Bombe ein und degradierten die klassischen Such- und Analysemethoden der Journalistenwelt in Handumdrehen zu Klatschspielen an einem Kindergeburtstag. Big Data verlangt nach Größerem.
 
Freundlicherweise setzten die mit der Analyse der Datenberge betrauten Journalisten von Anfang an auf Transparenz und beschrieben schnell nach der Präsentation der ersten Ergebnisse im Detail, wie man sich an die 260 Gigabyte an geheimen Daten herangetastet hatte, darunter Sebastian Mondial aus Deutschland und der Brite Duncan Campbell in seinem Artikel "How ICIJ’s Project Team Analyzed the Offshore Files".

Campbells Informationen zufolge enthält besagte Festplatte vier prall gefüllte Datenbanken, dazu 500.000 Text- und PDF-Dokumente, Tabellen, Bilder und Webfiles. Ein gewaltiger Berg an unstrukturierten Daten mit unzähligen Dubletten.

Bevor das Team an die Analyse gehen konnte, mussten erst zehntausende Dokumente, die als Bilddateien vorlagen, aufbereitet werden. Dazu gehörten etwa Kopien von Reisepässen oder Verträgen. Diese hat man mit einem OCR-fähigen System eingescannt, um Namen und Zahlen dem Recherchepool hinzuzufügen.

Dieser enthält nun so viele Daten, dass auch die Lebenszeit eines großen Mitarbeiterstabes nicht ausgereicht hätte, sie auszuwerten. Damit ist man inmitten der Welt von E-Discovery. "Sie müssen sich das wie einen Filterprozess vorstellen, bei dem die Software bestimmte Begriffe im Kontext sucht und nur die Dokumente zur Prüfung vorschlägt, die das gesuchte Muster zeigen", erklärt Dokumentenanalyse-Fachmann Hartwig Laute von Recommind gegenüber der COMPUTERWELT. "Die Zeitersparnis bei Software-gestützter Dokumentensichtung ist enorm. Schon kleine Stichproben reichen, um in kurzer Zeit aus Millionen von Dokumenten die vielleicht 10.000 entscheidenden Dateien zu finden." Das ICIJ setzte die Programme NUIX und dtSearch ein, um am Ende des Tunnels überhaupt ein Licht zu erkennen.

Ein britischer Programmierer hat zudem unter dem Namen Interdata innerhalb von zwei Wochen ein System auf die Beine gestellt, damit die schnell wachsende Projektgruppe rasch an die relevanten Dokumente kommen konnte. Laut Duncan Campbell haben die beteiligten Journalisten über die interne Lösung bis Anfang April 28.000 Suchanfragen abgeschickt und 53.000 Dokumente heruntergeladen.

Trotz der potenten Hilfe in Sachen Big-Data-Analyse war das Frustrationslevel der Journalisten hoch – kein Wunder, denn die für die Firmengeflechte Verantwortlichen haben alles unternommen, ihre Spuren zu verwischen. (su)

Diesen Artikel

Bewertung:

Übermittlung Ihrer Stimme...
Noch nicht bewertet. Seien Sie der Erste, der diesen Artikel bewertet!
Klicken Sie auf den Bewertungsbalken, um diesen Artikel zu bewerten.
  Sponsored Links:

comments powered by Disqus
   

IT-News täglich per Newsletter

E-Mail:
Weitere CW-Newsletter

Werden Sie CW-Premium User

Whitepaper und Printausgabe kostenlos lesen.  

kostenlos registrieren

Aktuelle Praxisreports

(c) FotoliaHunderte Berichte über IKT Projekte aus Österreich. Suchen Sie nach Unternehmen oder Lösungen.

Zum Thema

  • Avnet Technology Solutions Handelsgesellschaft m.b.H.

    Avnet Technology Solutions Handelsgesellschaft m.b.H. Office Software, Enterprise Application Integration, Datenbanken, Collaboration und Groupware, Business Intelligence und Knowledge Management, Treiber und Routinen, Server-Betriebssysteme,... mehr
  • NAVAX Unternehmensgruppe

    NAVAX Unternehmensgruppe Wasser- und Energieversorgung, Vereine und Verbände, Öffentliche Verwaltung, Medizin und Gesundheitswesen, Maschinen- und Anlagenbau, Konsumgüterindustrie, Immobilien,... mehr
  • Software Quality Lab GmbH

    Software Quality Lab GmbH Qualitätssicherung, Tools, Security Audits, Datenschutz, Outsourcing, Migrations-Management, IKT-Consulting,... mehr
  • ITSDONE EDV Dienstleistungs GmbH

    ITSDONE EDV Dienstleistungs GmbH Application Service Providing, Auftragsentwicklung für Software, Call Center, IKT-Consulting, Individual-Softwareentwicklung, IT-Personalbereitstellung, Offshoring,... mehr

Programmierung & Hosting: