Mobileread
E-Book vor der Konvertierung Nachbearbeiten [Tutorial]
#1  Togijak 11-24-2017, 03:19 AM
Will man ein PDF in ein anderes E-Book Format konvertieren ergeben sich diverse Probleme, denn den Inhalt einer PDF Seite könnte man als Seitenbeschreibung bezeichnen und bei einem E-Book ist Fließtext die bevorzugte Formatierung. Natürlich kann man einfach einen Konverter verwenden, wenn man auf das Erscheinungsbild keinen Wert legt. Will man aber ein ePub das angenehm zu lesen ist und zumindest wenig Formatierungs- /Rechtschreibfehler enthält kommt man um mehr oder weniger Nacharbeit nicht herum. Wie schon ein Sprichwort sagt „führen viele Wege nach Rom“ = es gibt X verschiedene Anleitungen. Was dabei auffällt ist, dass man meistens mehrere Tools verwenden muss um ans Ziel zu kommen. In einigen davon gibt es einen Schritt der Atlantis Wordprozessor einbezieht, weil es hier eine simple Möglichkeit zur Anwendung von RegEx gibt.

image »


Dort finden sich dann Hinweise wie
([a-z])-(\s){0,1}([a-z])
replace with
\1\3
um z.B. falsche Silbentrennungen zu finden. Soweit ja noch so gut und es ist richtig, dass man die meisten Fehler mit RegEx finden und einige auch mit dem richtigen Eintrag bei Replace beheben kann, doch wenn man nicht regelmäßig RegEx anwendet stößt man schnell an seine Grenzen und hier sind wir nun an dem Punkt warum ich dieses Tutorial schreibe.
Ich will mich nicht klüger machen als ich bin, denn es war reiner Zufall plus meine Neugier, dass ich auf dieses Tool gestoßen bin, denn eigentlich hatte ich nur nach einer Rechtschreibkorrektur Option gesucht wodurch ich Language Tool entdeckte und dort dann sah, dass es eine Version für LibreOffice gab. Auf der Seite von LibreOffice habe ich dann die Erweiterungen entdeckt, mir einige angesehen.

image »

Die Erweiterung um die es hier gehen soll könnte man mit etwas Humor als „Eier legende WollMilchSau“ bezeichnen auch wenn es „nur“ eine sehr komplexe RegEx Anwendung ist, die aber bei der Nachbearbeitung von E-Books wahre Wunder bewirken kann. Bei einem problematischen Text sieht man anfänglich

image »

Klickt man dann z:B. die „Empty Lines“ an, kann man von Fundstelle zu Fundstelle wandern, Da das Tool nicht zwischen sinnvollen und unsinnigen Leerzeilen unterscheiden kann landet man naturgemäß auch bei sinnvollen Leerzeilen

image »

und klickt sich dann einfach zur nächsten Fundstelle

image »

Dass das Tool quasi alle (möglichen) Fehler auf einmal findet hat man im ersten Bild gesehen und wie klug die Erweiterung das macht sieht man im folgenden Bild

image »

So gut PepitoCleaner ist, so schlecht ist die Erweiterung Writer2ePub von der man besser die Finger lassen sollte, denn was da rauskommt ist für die Tonne und zeigt sich nicht nur beim ePub Check

image »

sondern auch im unzumutbaren Resultat

image »

Dass das auch besser geht zeigt die „save as ePub“ Funktion von Atlantis denn beim selben Ausgangsmaterial sieht das Resultat so aus

image »


image »

Tutorial als PDF zum DL
http://fwf.wf/d/5BW

auf einer deutschen Seite fand ich folgende Beschreibung zum Pepito Cleaner

Quote
Kopiert man Text aus externen Quellen, zum Beispiel von einer Webseite, aus einer E-Mail oder aus einem PDF-Dokument, enthält dieser oft störende Zeichen: Doppelte Absatzmarken, unerwünschte Zeilenumbrüche, mehrere Leerzeichen... Den Text von Hand zu bereinigen, bereitet viel Mühe. Der Pepito Cleaner erledigt dies automatisch. Er durchsucht den Text und zeigt die Fundstellen mit den potenziell unerwünschten Zeichen und Umbrüchen an.
und auf der HP vom Pepito Cleaner steht

Quote
What is Pepito Cleaner?

Pepito Cleaner is an extension of Libre/Open Office created to quickly resolve the most common formatting mistakes of old scans, PDF imports and every digital text file.

Pepito Cleaner comes from PerfectEpub, an extension (link) created by Sisifone and subsequently released to the community due to a lack of time for its development, currently followed by Luke and Moebius.

Although Pepito Cleaner derives from PerfectEpub, now it is totally different because it was rewritten from scratch.

What do I need to use it?

First of all, of course, you need OpenOffice or LibreOffice PepitoCleaner being an extension of the basic functions of those progarammi. Then just run the download by clicking here or on the link further down the page. Once the download speeds doppiocliccate on the file and automatically start Libre / Open Office will ask if you want to install the extension. Confirm, wait until the end of the installation and close Libre / OpenOffice. At this point, just reopen Libre / OpenOffice you'll PepitoCleaner icon on the toolbar.

How is it used?

By clicking the icon Pepito Cleaner on the toolbar of Libre / OpenOffice will open a window that will analyze the document before and after will show the results broken down by category. Remember that it is always better to work on a copy of the document.

http://pepitoweb.altervista.org/pepito_cleaner/index.php

http://pepitoweb.altervista.org/pepito_cleaner/index.php?p=manual&i=2
Reply 

#2  doubleshuffle 11-24-2017, 04:25 AM
Danke für den Hinweis auf Pepito Cleaner. Wird getestet.
Reply 

Today's Posts | Search this Thread | Login | Register