die suboptimale Qualität des e-books “Herr der Diebe” und meine persönlichen Modifikationen am EPUB

Wenn man dieses e-book so ganz einfach anschaut und liest, ist das ja ganz hübsch, aber schon recht bald fällt einem auf, das es kein Inhaltsverzeichnis gibt – und das, obwohl es doch anscheinend ganz hübsche Kapitelüberschriften gibt. Nun, die scheinbaren Kapitelüberschriften sind ziemlich hübsch gestaltete Bilder mit kurzen, eingebauten Texten – aber die Kapitelüberschriften sind eben allein Bilder, kein echter Text. Sicher müssen EPUB-Inhaltsverzeichnis nicht unbedingt auf ordentlichen, textuellen Kapitel-Überschriften beruhen, aber das tun sie wohl in der Regel.

Ich stellte jedenfalls den Bildern in den HTML-Dateien der jeweiligen Kapitel jeweils ein ordentliches h1-Heading mit der Kapitelüberschrift als Text voran und ließ calibre daraus ein Inhaltsverzeichnis erzeugen. Das war’s – ein ordentliches Inhaltsverzeichnis wird seitdem angezeigt.

Ich weiß natürlich nicht, wie das e-book original entstanden ist, aber ich mutmaße mal, dass das WYSIWIG-mäßig geschah, denn schon die Einbettung der Kapitel-Überschrifts-Bilder war so unregelmäßig, dass das HTML dazu sicher nie von einem Menschen oder einer intelligenten Software kanonisiert (d.h. in eine regelmäßige Struktur gebracht) wurde.

Das mir vorliegende EPUB war übrigens durch calibre erzeugt worden – wohl war calibre aber nicht das Werkzeug, mit dem das Original gepflegt wird – aber ich gehe dennoch mal davon aus, dass calibre die Original-Struktrur nicht versaut sondern nur übertragen hat.

Übrigens habe ich wirklich für das e-book ordentlich bei Amazon bezahlt, nachdem mein Junior auch tatsächlich einen gewissen Lesehunger für das Buch entwickelte.

Ich habe ja keine exakte Ahnung, wie in den Verlagen die e-books so entstehen – sie werden wohl an Hand der unkomprimierten Dateigrößen zur Produktion zu Festpreisen an spezialisierte Agenturen vergeben. Und wenn dann eben in den Verlagen oder Agenturen keine gute QA stattfindet, dann kommt eben ein e-book ohne Inhaltsverzeichnis und ohne regelmäßiges HTML etc dabei heraus.

Mein Ansatz dazu:

  • Aus dem anzuliefernden Rohbuch den Text im Format DocBook erzeugen.
  • Das DocBook kanonisieren.
  • Aus dem DocBook das e-book erzeugen.

Das ist eigentlich nicht weiter schwer – aber vielleicht braucht’s dafür etwas Hingabe – und der e-book-Ersteller darf natürlich unterwegs auch nicht verhungern, sonst lohnt sich für seinen Auftraggeber ja nicht, dass er im Lauf der Zeit nützliche Erfahrungen sammelt. Ich hätte an/bei einer solchen Aufgabe durchaus Interesse und Spaß. Und Erfahrungen mit DocBook habe ich seit vielen Jahren.

Update 2014-04-05: Die Absätze der Kapitel sind durch br von einander getrennt statt mit p getaggt zu sein. Die Bilder an den Kapitel-Anfängen und -Enden sind teils in p, teils in div eingebettet, für jedes Bild scheint es eine einzelne CSS-class zu geben. Da könnte man wirklich viel Zeit investieren, um tolles HTML daraus zu machen – aber ob’s wirklich jemandem nützt? (“cui bono?”) Wenn’s passabel entlohnt würde, würde ich’s so oder so tun. Dieses Buch bräuchte eigentlich nicht durch DocBook gehen, man kann auch so anständiges HTML auf angemessenem Niveau daraus machen.

Update 2015-04-07: Wie’s aussieht, wurde der Herr der Diebe mit Word geschrieben und das HTML auch aus Word heraus generiert. Das krasseste Kapitel ist das Schluss-Kapitel “Ein paar Er­klä­run­gen…“. Irgendwo in der Mitte erkennt man, dass jemand tatsächlich mal versucht hat, eine Tabelle mit 2 (bzw. 3) Spalten zu bauen, aber jemand Anderes hat es dann traditionell mit erzwungenen Leerzeichen und erzwungenen Font-Verkleinerungen und -Vergrößerungen zu Ende gebracht – und war sicher froh, als es fertig war und ganz akzeptabel aussah.

Ich habe alle seltsam aussehende Formatierung entfernt, eine total simple 2-spaltige Tabelle daraus gemacht, tbody bekam ein style="vertical-align: top;", und aus meiner Sicht war dadurch das Haupt-Formatierungs-Problem gelöst. Wen’s interessiert, der bekommt diese HTML-Seite gerne von mir zur Verfügung gestellt. Diese Tabelle sah vorher HTML-mäßig echt wüst aus.

This site uses Akismet to reduce spam. Learn how your comment data is processed.