PDFColorParser – a python script for detecting PDF pages containing color

The following script was written to find out which pages of a PDF file contain color. I used it for my thesis. Save it to a file and call it with script.py INPUTPDF.pdf

 

PDF aus jpg erstellen

Für meine Bewerbungsunterlagen habe ich jetzt erstmal alle wichtigen Zeugnisse eingescannt. Ich will mal kurz beschreiben, wie man ziemlich einfach zu brauchbaren PDFs gelangt, die vorallem auch E-Mail tauglich sind. Die gescannten Dateien sind für optimale Qualität Tiffs die ca. je 11 MB groß sind. Eindeutig nicht geeignet um per Mail versendet zu werden. Der Arbeitsablauf besteht nun aus 3 Schritten, die man komplett mit Opensource Tools und auf so gut wie jedem Betriebssystem vornehmen kann.

  1. Mit Gimp werden die Tiffs geöffnet, rotiert, ggf. unschöne Ränder vom Scannen abgeschnitten und das Bild wird auf ein DinA4 Format gebracht. Ich habe die Bilder in 96dpi als JPG exportiert. So können sie am Bildschirm gut gelesen werden – ich will hier ja keine Daten für den Druck vorbereiten.
  2. Mit dem Tool convert aus der ImageMagick Suite werden aus dem JPGs PDFs gemacht. Der Befehl sieht so aus:
  3. Mit dem Tool pdftk (PDF ToolKit) werden die Einzelseiten zu einem PDF zusammengesetzt:

Und schon habe ich alle meine Zeugnisse in einem PDF, welches dann bei 7 Seiten ca. 650kB groß ist statt der 77MB an Tiffs – ohne dass die Lesbarkeit am Bildschirm deutlich leidet.

Quelle: http://www.arnebrodowski.de/blog/250-PDFs-erstellen.html

Shellskript, um alle .jpg Dateien im Ordner JPG in ein einziges PDF umzuwandeln

 

Veröffentlicht unter Linux | Verschlagwortet mit ,