wäre das nicht toll, wenn jedes Ladengeschäft seine Öffnungszeiten mit URL (und XPath-Ausdruck) angäbe?

Und durch die URL kommt man jetzt nicht auf eine ausschweifige Seite sondern genau auf die gesuchte Information. Jedenfalls sollte man zusammen mit dem XPath-Ausdruck die gesuchte Information präzise finden können. Der “relative Anteil” der URL (um auf die Öffnungszeiten) könnte auch gerne standardisiert sein  😆 . Müssten an meiner Herangehensweise nicht Unternehmen wie Facebook… Continue reading wäre das nicht toll, wenn jedes Ladengeschäft seine Öffnungszeiten mit URL (und XPath-Ausdruck) angäbe?

Öffnungszeiten des Kofferhaus Witt (Berlin) – mit XPath extrahiert

http://www.kofferhaus-witt.de $ curl –location http://www.kofferhaus-witt.de > kofferhaus-witt.html # tja, leider ist auch dieses HTML kein ordentliches XML, # also müssen wir es erst einmal in Ordnung bringen: $ xml fo –recover –html kofferhaus-witt.html > kofferhaus-witt.html.xml # ein wenig Suche …, # und hier ist der passende XPath: $ xml sel -t -c “html/body/footer/div/div/div[@class=’col-md-3′]/p[3]” –nl kofferhaus-witt.html.xml… Continue reading Öffnungszeiten des Kofferhaus Witt (Berlin) – mit XPath extrahiert

Haus der Kulturen der Welt: warum haben die Web-Seiten des HKW keinen RSS-Feed mehr? egal, dann finde ich die Differenzen eben selbst heraus

Eigentlich würde ich gerne in meinem Feed-Reader herausfinden, dass es z.B. eine neue “kids&teens”-Veranstaltung gibt, aber die passende Seite hat keinen RSS-Feed mehr. Aber … nach etwas (automatisierter) “HTML-Entschmutzung” (denn die Seite ist nicht valid im Sinne von XHTML) kann man sie mit XPath-Ausdrücken auswerten. Ich habe jetzt einen Jenkins-Job aufgesetzt, der die Veranstaltungsliste stündlich… Continue reading Haus der Kulturen der Welt: warum haben die Web-Seiten des HKW keinen RSS-Feed mehr? egal, dann finde ich die Differenzen eben selbst heraus

wenn einem Programmierer beim Abruf von pass.telekom.de langweilig wird …

Auf pass.telekom.de kann man abfragen, wieviel von seinem Monats-Übertragungsvolumen bei Telekom/Mobilfunk bereits verbraucht ist. Ein Programmierer macht das allerdings in einer Kommandozeile (bzw. in einer “Shell”) wie folgt: $ curl http://pass.telekom.de Nun, die Server-Software checkt aber, welcher Browser gerade als Client fungiert, und wenn curl sich nicht “verkleidet”, dann meutert “der Server”, also “verkleiden” wir… Continue reading wenn einem Programmierer beim Abruf von pass.telekom.de langweilig wird …