Nachdem mein Scraping ihres “obfuscated HTML” vor wenigen Stunden ausnahmsweise mal in die Hose ging, beschäftigte ich mich mal zur Beruhigung meiner Nerven mit dem Scraping der Umsätze als PDF. Habe schon mal die y-Koordinaten der einzelnen Spalten bestimmt, aus dem PDF ein netteres CSV erzeugt, und in einem Spreadsheet das Ergebnis begutachtet. Das ist ein praktikabler Plan B, für den Fall, dass ich das HTML-Scraping wegen “zu viel Obfuscation” aufgeben muss.
Danach habe ich meine Standard-Routine zum Scraping der Postbank-Umsätze erneut wie gewöhnlich angeworfen, und sie lief doch wie zuletzt gewohnt wieder normal durch. So ist es mir eigentlich auch lieber.
Leave a Reply