BlogBlog ÜbersichtjailscriptportsoptFreeBSDLinksThermoskanne

PDF-Datei in Textdatei umwandeln

Um eine PDF-Datei auf der Kommandozeile lesen zu können, kann diese mittels pdftotext in eine Textdatei umgewandelt werden. pdftotext wird mit xpdf ausgeliefert und befindet sich auf FreeBSD in graphics/xpdf Port. xpdf kann auch ohne graphische Unterstützung gebaut werden, so dass nur die Hilfsprogramme wie pdftotext und pdfinfo installiert werden, aber nicht xpdf selbst:

# cd /usr/ports/graphics/xpdf && make -DWITHOUT_X11 install clean

Nun kann die PDF-Datei umgewandelt werden. Damit die Formatierungen bestehen bleiben, was die Lesbarkeit verbessert, kann die Option -layout verwendet werden:

# pdftotext -layout <PDF-Datei>

Nun wird eine gleichnamige Textdatei mit der Endung txt im gleichen Verzeichnis erstellt.

Möchte man die Metainformationen einer PDF-Datei auslesen, kann dazu pdfinfo, welches ebenfalls mit xpdf installiert wird, verwendet werden:

# pdfinfo <PDF Datei>

Mehr Informationen findet man in den Manpages pdftotext(1) und pdfinfo(1).

 Permalink