Die Konvertierung von Dokumenten, vor allem Tabellen, in maschienenlesbare und veränderbare Formate ist nötig, um Daten auswerten und visualisieren zu können. So müssen Datensätze im PDF-Format immer erst in ein Format gebracht werdem, dass diverse Tabellenkalkulationsprogramme lesen können (z.B. XLS, XML). Natürlich gibt es für diesen Schritt eine Vielzahl an Programmen. Ein How-To.
Auch Dank der Mithilfe einiger Twitter-Nutzer (siehe Ende des Textes) hat das “Datenlokal” einige im Internet ausfindig machen können und getestet. Obwohl sich schon die Suche nach Daten als schwierig erachtet, weil Verwaltungen oder Organisationen in Sachen OpenData häufig taub sind, müssen diese Daten von Journalisten genauso aufwendig erst nutzbar gemacht werden, bevor die echte Arbeit mit den Daten beginnen kann. Um anderen – ob Journalisten, Studenten oder anderen Interessenten – die Suche nach den Möglichkeiten der Konvertierung zu ersparen, möchten wir an dieser Stelle auf das ein oder andere Programm aufmerksam machen und deren Funktionalität erläutern.
Das Programm „Nitro Pro 7“ (auch als kostenfreie Testversion) kann auf der Homepage heruntergeladen werden. Nach der Instalation öffnet sich die ausführliche, vielleicht für den einen etwas überladene, Arbeitsplattform in dem PDF-Dateien auf herkömmliche Weise geöffnet werden können. Mit einem Klick auf „Convert to Excel“ wird die Tabelle im PDF-Format in eine Excel-Tabelle umgewandelt. Beide von „Nitro“ angegebenen Formate (XML, XLS) können auch mit OpenOffice geöffnet werden. Das Ergebnis lässt sich wirklich sehen: Es wurden in unseren Testläufen alle Inhalte der korrekten Spalten und Zeilen zugeordnet und keine Zahl verschoben oder anderweitig verändert.
Problematisch wird es allerdings, wenn die PDF-Dateien eine eingescannte Tabelle enthält und bei der Produktion des PDFs keine Excel-Tabelle nur im PDF-Format gespeichert wurde. In diesem Fall findet „Nitro“ keine Tabelle im Dokument und zeigt eine Fehlermeldung.
In diesen ganz besonders harten Fällen bleibt nur der Griff zu einigen Spezialprogrammen, wie dem online-basierten File-Converter „cometdocs“. Dazu aber später mehr.
Für die allgemeine PDF-Konvertierung eignet sich auch die von „Investintech“ auf ihrer Homepage zur Verfügung gestellte zeitlich begrenzte Testversion des Programms „Able2Extract“. Dieser Konverter kann ohne die Angabe einer E-Mail-Adresse oder sonstigen Angaben heruntergeladen und flott installiert werden. Die Arbeitsplattform ist reduzierter und damit übersichtlicher als die von „Nitro Pro 7“. Als sehr praktisch erweist sich vor allem die unkomplizierte Auswahl des gewünschten Endformates. Es werden in der Kopfleiste alle gängigen Formate (Word, Excel, HTML, Bildformate, OpenOffice) angezeigt. Nach dem Öffnen der zu konvertierenden PDF-Datei, kann die Auswahl und das Endformat bestimmt werden und die Konvertierung geht schnell von der Hand.
Was aber tun, wenn beide Programme an der Perversion einer ausgedruckten (und deshalb offensichtlich mal maschienenlesbaren), wieder eingescanten Tabelle scheitern? Eingescannte Dokumente erfassen beide Programme natürlich nur als einzelne Bilddatei. „No conversion content found in the original document“, lautet dann die Fehlermeldung.
Nun, dann bleibt nur noch der Griff zu mal mehr, mal weniger seriösen Online-Diensten, die von sich behaupten auch daraus noch etwas maschienenlesbares zu rekonstruieren. Einer dieser Dienste ist der bereits erwähnte „cometdocs“. Unter Angabe der E-Mail-Adresse soll eine hochgeladene PDF-Datei de Nutzer in konvertierter Form geschickt werden. Laut den Angaben eines Online-Forums soll das Ergebnis ordentlich sein. Wir haben zwei Dateien hochgeladen, aber seit dem keine Rückmeldung erhalten (Ein Update folgt).
Einen sehr guten Tipp haben wir durch das Forum datenfragen.de der Open Knowledge Foundation erhalten: Ein User verlinkte dort das mit dem Pulitzer-Preis ausgezeichnete, investigative US-Newsportal propublica.com . Der dortige Artikel informiert noch wesentlich umfassender über Lösungen für Konvertierungen, bietet noch weitere Programme und auch Anleitungen an. Wer es ganz genau wissen möchte oder mit unseren Tipps immer noch nicht weiterkommt, dem sei diese Seite wirklich empfohlen.




Dank für die zahlreichen Tipps geht an: @BlahBlahhSheep, @Zuercher_Spatz, @Kaddy_KD, @MrGoodlife_, @Nitro Pro 7, @Datenfragen, @Adobe, @Software Expert, @able2extract