Categories
Buchhaltung PDF

meine monatliche Lohnsteueranmeldung_JAHR_MONAT.pdf enthält überhaupt keinen Timestamp mehr – “Haru Free PDF Library”

$ /opt/bin/pdfinfo -rawdates Lohnsteueranmeldung_2019_Juni.pdf
Producer:       Haru Free PDF Library 2.1.0
  • http://libharu.org
  • https://github.com/libharu/libharu

Ich mag es eigentlich sehr, wenn meine Dateien Timestamps im Namen tragen, das macht sie sozusagen versioniert. Mal schauen, ob das Feature wieder kommt!

Categories
elektronische Rechnungen PDF Schematron XML

ZUGFeRD = “Zentrale User Guideline Forum elektronische Rechnung Deutschland”

Die ZIP-Files haben Unterverzeichnisse namens “Beispiele” mit PDF-Dateien. Die einzelnen PDF-Dateien haben jeweils ein Attachment namens “ZUGFeRD-invoice.xml”. Ich habe sie mir alle mit Hilfe von “pdftk … unpack_files” in einem Shell-Skript extrahiert.

“Hans Muster” ist seltsamerweise bei beiden Partnern tätig, ich denke, das ist etwas verwirrend.

In den Unterverzeichnissen namens “Schema” gibt es XSD- und Schematron-Dateien.

Categories
heise c't Linux OCR PDF

c’t 2014, Heft 1, S. 58: OCRmyPDF – OCR unter Linux und FreeBSD mit bewährten Werkzeugen

http://www.heise.de/ct/inhalt/2014/01/59

Categories
heise c't OCR PDF PDF-Scraping

c’t 2013, Heft 22, S. 168ff: durchsuchbares PDF unter Linux – OCR etc.

http://www.heise.de/ct/13/22/links/168.shtml

  • OCR unter Linux – immer ein wichtiges Thema – wie oft braucht man den Text Bildes?!!