{"id":622,"date":"2012-01-19T00:59:00","date_gmt":"2012-01-19T00:59:00","guid":{"rendered":"http:\/\/www.b.shuttle.de\/hayek\/Hayek\/Jochen\/wp\/blog-de\/2012\/01\/19\/postbank-kontoauszug-scraping-ihr-umsaetze-pdf-laesst-sich-auch-scrapen\/"},"modified":"2012-01-19T00:59:00","modified_gmt":"2012-01-19T00:59:00","slug":"postbank-kontoauszug-scraping-ihr-umsaetze-pdf-laesst-sich-auch-scrapen","status":"publish","type":"post","link":"https:\/\/wp.jochen.hayek.name\/blog-de\/2012\/01\/19\/postbank-kontoauszug-scraping-ihr-umsaetze-pdf-laesst-sich-auch-scrapen\/","title":{"rendered":"Postbank: Kontoauszug-Scraping: Ihr &#8220;Ums\u00e4tze&#8221;-PDF l\u00e4sst sich auch scrapen"},"content":{"rendered":"<p>\t\t\t\tNachdem mein Scraping ihres &#8220;obfuscated HTML&#8221; vor wenigen Stunden ausnahmsweise mal in die Hose ging, besch\u00e4ftigte ich mich mal zur Beruhigung meiner Nerven mit dem Scraping der <i>Ums\u00e4tze<\/i> als PDF. Habe schon mal die y-Koordinaten der einzelnen Spalten bestimmt, aus dem PDF ein netteres CSV erzeugt, und in einem Spreadsheet das Ergebnis begutachtet. Das ist ein praktikabler <i>Plan B<\/i>, f\u00fcr den Fall, dass ich das HTML-Scraping wegen &#8220;zu viel Obfuscation&#8221; aufgeben muss.<\/p>\n<p>Danach habe ich meine Standard-Routine zum Scraping der Postbank-Ums\u00e4tze erneut wie gew\u00f6hnlich angeworfen, und sie lief doch wie zuletzt gewohnt wieder normal durch. So ist es mir eigentlich auch lieber.\t\t\t\t<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nachdem mein Scraping ihres &#8220;obfuscated HTML&#8221; vor wenigen Stunden ausnahmsweise mal in die Hose ging, besch\u00e4ftigte ich mich mal zur Beruhigung meiner Nerven mit dem Scraping der Ums\u00e4tze als PDF. Habe schon mal die y-Koordinaten der einzelnen Spalten bestimmt, aus dem PDF ein netteres CSV erzeugt, und in einem Spreadsheet das Ergebnis begutachtet. Das ist [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_crdt_document":"","advanced_seo_description":"","jetpack_seo_html_title":"","jetpack_seo_noindex":false,"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":false,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"_share_on_mastodon":"0"},"categories":[352],"tags":[],"class_list":["post-622","post","type-post","status-publish","format-standard","hentry","category-nicht-zugeordnet"],"share_on_mastodon":{"url":"","error":""},"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/paO0l8-a2","jetpack_likes_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/posts\/622","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/comments?post=622"}],"version-history":[{"count":0,"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/posts\/622\/revisions"}],"wp:attachment":[{"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/media?parent=622"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/categories?post=622"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp.jochen.hayek.name\/blog-de\/wp-json\/wp\/v2\/tags?post=622"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}