Mobileread
Calibre: Seitenzahlen von pdf in epub/mobi entfernen
#1  Zel 08-29-2010, 10:20 AM
Hallo zusammen!

Ich habe (egal mit welcher Calibre-Version) das Problem, dass ich die in pdf-Büchern eingebundenen Seitenzahlen (meistens unten auf jeder Seite (mittig oder zentriert) bei der Konventierung zu epub/mobi nicht wegbekomme und sie somit mitten im eigentlichen Text landen.

Mache ich bei der Anwendung des "Zauberstabs" (oder wie Calibre das nennt) etwas falsch? Oder kann das Calibre einfach noch nicht?

Habe leider keine Ahnung von "Befehlkommandos" (die man anscheinend bei Calibre eingeben kann/soll)...

Wie werdet ihr die Seitenzahlen bei pdf-Dokumenten los?

Gruß, Zel
Reply 

#2  Manichean 08-29-2010, 02:14 PM
Welchen der Zauberstäbe benutzt Du denn? Sinnvoll in diesem Kontext wäre Entfernung von Fußzeile, denke ich.

Das, was Du "Befehlskommandos" (ist das nicht ein bißchen doppeltgemoppelt?) nennst, sind regular expressions. Eine übrigens auch im Calibre-Handbuch verlinkte Einführung ist hier zu finden.
Reply 

#3  Zel 08-29-2010, 04:33 PM
ja, ich meine den Zauberstab zur Entfernung der Fußzeile.
Vielleicht benutze ich den Zauberstab auch nur einfach falsch:
Ich mache ein Häkchen bei "Fußzeile entfernen" und das wars. Leider klappt es so nie.
Wenn ich dann noch auf den Zauberstab drücke, öffnet sich ein weiteres Fenster, wo ich dann aber nicht mehr weiß, was ich machen soll..
Reply 

#4  Manichean 08-29-2010, 06:11 PM
Ah. Der Ausdruck, der da steht, ist (vermutlich, ich hab den noch nicht genauer angeguckt) auf Standard-Fußzeilen ausgelegt. Das Häkchen ist schonmal richtig, in dem Fenster, das sich dann öffnet, wird Dir der Quelltext des zu konvertierenden Buches angezeigt. Oben gibst Du dann die regular expression ein, die die Fußzeile bzw. Seitenzahl im Dokument beschreibt, und mittels der Schaltfläche "Test" zeigt Calibre dann, was es tatsächlich entfernen würde. Denk dran, entsprechende umschließende Tags mit zu entfernen.

EDIT: Konkretes, vielleicht anschaulicheres Beispiel: Angenommen, die Seitenzahlangabe ist "Seite X von Y" ohne weitere Tags. Dann wäre die regular expression, die Du für die Entfernung der Fußleiste angeben mußt, "Seite [0-9]+ von Y" (da Y eine feste Zahl ist, kann das direkt übernommen werden.) Siehe ansonsten den Link in meinem obigen Post- lies Dir den am Besten mal in Ruhe durch, das sollte einiges verdeutlichen.
Reply 

#5  Zel 08-30-2010, 03:54 AM
Quote Manichean

EDIT: Konkretes, vielleicht anschaulicheres Beispiel: Angenommen, die Seitenzahlangabe ist "Seite X von Y" ohne weitere Tags. Dann wäre die regular expression, die Du für die Entfernung der Fußleiste angeben mußt, "Seite [0-9]+ von Y" (da Y eine feste Zahl ist, kann das direkt übernommen werden.) Siehe ansonsten den Link in meinem obigen Post- lies Dir den am Besten mal in Ruhe durch, das sollte einiges verdeutlichen.
Danke für das "EDIT" - Ohne das habe ich nämlich gar nichts verstanden.. ;-)
Werde mir deinen Link noch einmal genauer anschauen und anschließend probieren es mit Calibre umzusetzen..!
Reply 

#6  katzenstreik 08-30-2010, 05:36 AM
Quote Zel
Wie werdet ihr die Seitenzahlen bei pdf-Dokumenten los?
Der alte Trick: PDF -> html mit dem MobipocketCreator, html dann mit Calibre in gewünschtes eBook-Format trimmen.

Der MobipocketCreator schafft das mit den Seitenzahlen (und Kopf- und Fußzeilen) in der Regel recht gut...
Reply 

#7  Zel 08-30-2010, 06:03 AM
Quote katzenstreik
Der alte Trick: PDF -> html mit dem MobipocketCreator, html dann mit Calibre in gewünschtes eBook-Format trimmen.

Der MobipocketCreator schafft das mit den Seitenzahlen (und Kopf- und Fußzeilen) in der Regel recht gut...
Danke für den Tipp, aber soweit ich weiß, gibt es den MobipocketCreator (noch) nicht für den Mac und folglich kann ich ihn nicht verwenden..
Reply 

#8  2scanner 09-04-2010, 03:21 PM
Danke für eure Diskussion,
hatte das gleiche Problem wie Zel, durch den Tipp von Manichean hab ich dann kapiert. Mein Eintrag für schlichte Seitenzahlen-Entfernung:

(([0-9]+ </p>)*([10-99]+ </p>)*([100-999]+ </p>))


Vorschautyp ePub, Staffelung der Zahlen weil Calibre [1-1000] nicht rafft.
Das </p>-Tag, weil auch sonst alle anderen Zahlen im Skript gelöscht würden.
Reply 

#9  2scanner 09-04-2010, 03:36 PM
Uups - P.S.:
Wenn Du erstmal "nur" das PDF hast, ist der Eintrag

(([0-9]+ <br>)*([10-99]+ <br>)*([100-999]+ <br>))

Bei mehr als tausend Seiten entsprechend erweitern
Reply 

#10  Manichean 09-05-2010, 05:25 AM
Hm, nach meinem Verständnis sollte eigentlich
Code
[0-9]+ <br>
jede Zahlenkombination erschlagen- das + sagt "mindestens ein Auftreten der Zahlen 0-9". Die Angabe [10-99]+ würde dann so interpretiert "mindestens einmal entweder die 1, eine Zahl von 0-9 oder die 9". Kurz gesagt: Der Ausdruck in der ersten Klammer sollte reichen, wenn ich mich nicht irre.

EDIT: Anders ausgedrückt: Eine regexp "versteht" keine Zahlen sondern Zeichenketten. Mit [1-1000]+ hast Du also versucht zu sagen "mindestens einmal eine Zahl zwischen 1 und 1 oder die 0 oder die 0 oder die 0".
Reply 

  Next »  Last »  (1/4)
Today's Posts | Search this Thread | Login | Register