Mobileread
Scans für den Reader
#1  Hokuspokus 05-17-2011, 09:45 AM
Es gibt da draußen sooo viele gescante Bücher, die es noch nicht nach Gutenberg und Co geschafft haben. OCR von Fraktur selbst zu machen, ist teuer, schwierig oder unmöglich, aber warum auf OCR warten, wenn man Fraktur lesen kann?

Da ich gerade ganz versessen auf Salice-Contessa bin, habe ich mir seine Erzählungen aus Scans der Gesammelten Schriften heraus geholt und in Erwartung meines Readers ein bisschen optimiert. Das Ergebnis war besser als erwartet und es hat Spaß gemacht, also habe ich ein bisschen am Herstellungsprozess gefeilt und weiter rumgespielt (Ihr kennt ja inzwischen meine Vorliebe für solche Spielereien).

Es gibt wohl Tools, die die Ränder von PDFs automatisch beschneiden, aber das Ergebnis ist irgendwie nicht so hübsch, also habe ich mir ein Script gestrickt, das die händische Bearbeitung wesentlich erleichtert. Wenn's jemanden interessiert, kann ich gern erklären, wie und was.

Das Ergebnis jedenfalls würde ich gerne mit Euch teilen. Da Scans wohl eher nicht so gerne hier gesehen sind, habe ich sie bei Archive.org hochgeladen.
http://www.archive.org/details/ScansFrEbookReader

Karl Wilhelm Salice-Contessa:
Das Schwert und die Schlagen
Todesengel

Gisela von Arnim:
Drei Märchen: Mondkönigs Tochter; Aus den Papieren eines Spatzen; Heimelchen

Das Gespensterbuch von A. Apel und F. Laun (Hrsg.)
Die Vorbedeutungen; Der Gespensterläugner; Klara Mongomery - Aus den Papieren des Chevaliers St. **ge

Abendländische 1001 Nacht. Die schönsten Mährchen und Sagen aller europäischen Völker. von J.P. Lyser
Band 1 Abteilung 1 und 2
Band 2 Abteilung 1 und 2

Das ist weitestgehend noch Experimentierstadium, wer also Fehler findet, kann sie gerne behalten. Es würde mich aber auf jeden Fall interessieren, ob Ihr prinzipiell Interesse an bearbeiteten Scans habt, oder eher nicht.

Ich sehe gerade, das ist alles wenig übersichtlich. Archive lässt mich aber gerade nicht ran, um die Seite besser zu gestalten. Im Moment geht leider nur blind runterladen oder warten, bis ich daran was ändern kann. Sorry.
Reply 

#2  kbaerwald 05-18-2011, 02:03 AM
Ich fand die Bearbeitung ansprechend. Als etwas älterer Leser habe ich jedoch Probleme mit a. den Störstellen durchscheinender Rückseiten und b. der "Fettigkeit" des Schrtiftbilds, welche beide die Lesbarkeit herunter setzen.

Aber daran kannst Du nichts ändern, wenn Du lediglich die Scanvorlage bearbeitest. Das ist ja schon das Problem beim Scannen.

Wenn sich da nicht ein Spezialist der OCR Propblematik annimmt, wird es wohl auch in Zukunft bei Faksimiles bleiben.

Jedenfalls danke für die Bearbeitung. Funktioniert das Tool eigentlich dynamisch oder geht das über eine fest eingestellte Schnittmaske, wie bei Adobe Acrobat?

Klaus
Reply 

#3  Hokuspokus 05-18-2011, 07:46 AM
Ja, die Scans im Netz sind häufig ziemlich schlecht. Gutenberg DE z.B. macht deshalb prinzipiell eigene Scans, weil man nur so ein brauchbares OCR Ergebnis bekommt.

Nun, die Scans sind da, sie sind besser als nichts und sie sind umsonst. Für viele der Bücher aus dem 19ten Jahrhundert sind sie die einzige Chance, überhaupt noch gelesen zu werden und für uns die einzige Chance, sie zu lesen. Also nutzen wir sie, so weit das geht, und hoffen auf bessere Technik in der Zukunft.

Die Scans habe ich von Hand jede Seite einzeln beschnitten. Das klingt schlimmer, als es ist, denn es gibt ein Tool, das einem viel Arbeit abnimmt: Autohotkey http://de.autohotkey.com/
Damit kann man Scripts erstellen und ausführen, die Tastendruck oder Mausklick an den Computer senden.

Zum Bearbeiten habe ich Irfanview verwendet http://www.chip.de/downloads/IrfanView_12998187.html

Zunächst habe ich die Bilder aus dem PDF extrahiert. Das geht mit Calibre (nach epub konvertieren und nach zip umbenennen) oder mit pdfill http://www.chip.de/downloads/PDFill-PDF-Tools_44529795.html
Das pdfill Tool ist wesentlich schneller. Beide Möglichkeiten liefern aber bei Bildern oder unklaren Seiten einfach eine weiße Seite. Die muss man dann mit der Foto Funktion in einem beliebigen PDF Betrachter ergänzen. Das habe ich leider erst recht spät bemerkt. Der Todesengel hat deshalb leider mindestens eine fehlende Seite.

Von Hand würde man jetzt das erste Bild öffnen, den Schnittbereich markieren, ausschneiden, speichern und das nächste Bild öffnen. Abgesehen vom Markieren des Schnittbereichs lasse ich alles von dem Hotkey Scirpt machen. Ich muss nur noch zwei Tasten drücken und fertig.

Das ist das Script:
Quote
;snip ********************************************
;
; AutoHotkey Version: 1.x
; Language: English
; Platform: Win7
; Author: Hokuspokus
;
; Script Function:
; gescante Buchseiten beschneiden
;

#NoEnv ; Recommended for performance and compatibility with future AutoHotkey releases.
SendMode Input ; Recommended for new scripts due to its superior speed and reliability.
SetWorkingDir %A_ScriptDir% ; Ensures a consistent starting directory.

;cut:
SC03A & a::
{
Send, ^y
Send, ^s
MouseClick, left, xxx, yy

}
Return

;snap ******************************************
Code in ein txt file copieren, speichern und die txt Datei in wasauchimmer.ahk umbenennen. Doppelklick startet das Script, dass sich dann als grünes H im Systemtray aufhält. Ausgelöst wird es, in dem man gleichzeitig Capslock und a drückt. Da es einen Mausklick auf eine bestimmte Stelle des Bildschirms emuliert (auf den Pfeil, der die nächste Datei im Verzeichnis öffnet), muss es an den jeweiligen Bildschirm angepasst werden. Bei Autohotkey ist ein Tool dabei, mit dem man die genau Position ermitteln kann. Die Werte müssen in der grünen Zeile entsprechend geändert werden. Man kann das Script natürlich auch auf andere Bildbearbeitungsprogramme anpassen.

Archive.org ist inzwischen auch mit der automatischen Bearbeitung fertig geworden. Über die Titel kann man jetzt die entsprechenden PDFs runterladen.
Reply 

#4  Uluhara 05-19-2011, 06:57 AM


Vielen Dank erst mal für eine interessante Lese-Erfahrung - aus irgendeinem Grund hat mich "Das Schwert und die Schlangen" direkt interessiert, obwohl ich von dem Autor noch nie was gehört hatte ...

die Qualität des Scans ist - nun ja

Jetzt habe ich gesehen, dass du zwei Geschichten von Salice hier schon veröffentlicht hast - sind das selbst konvertiere, oder gab es die schon als "digitalen" Text?

Wenn du selbst konvertiert hast - gibt es OCR für Fraktur die funktioniert? Oder ist abtippen angesagt?

Falls "abtippen" die einzige Möglichkeit ist - würde ich mich mal an die Schlangen begeben ...
Reply 

#5  kbaerwald 05-19-2011, 08:47 AM
Ich mache gerade meine ersten Gehversuche mit Tesseract-OCR: da ist schon einiges an Arbeit von Fraktur-Freunden geleistet worden. Ich habe ein altes Physiologiebuch aus der Mitte des 19.Jh mit schönen Zeichnungen. Da liegt die OCR Fehlerrate bei ca. 10% (der Rest ist Fleißarbeit).

Ich würde mich auch gerne einmal an Herrn Salice-Contessa versuchen und dann berichten.
Reply 

#6  Hokuspokus 05-19-2011, 09:26 AM
Außer dem Abbyy Finereader XIX ist Tesseract wohl die einzige Möglichkeit für OCR von Fraktur. Ich habe es leider nicht zum Laufen bekommen. 10% Fehler klingt doch gar nicht so schlecht! Besser als das Google OCR von lateinischer Schrift.

Klaus,
wenn Du Dich an Salice-Contessa versuchen willst, ich habe die Erzählungen schon aus den Bänden der gesammelten Schriften herausgelöst, bis jetzt aber nur die beiden erwähnten beschnitten. Ich kann sie Dir gern unbeschnitten (und ohne fehlende Seiten) als pdf, jpg, png oder einem anderen Bildformat irgendwo hochladen. Sag mir einfach, welches Format für Tesseract am besten ist.
Ich würde auch herzlich gern Proofreading für die eine oder andere Geschichte machen.

Uluhara,
die beiden Erzählungen, die ich hier hochgeladen habe, und noch ein paar mehr, gibt es auch bei Gutenberg DE und inzwischen wohl auch bei Amazon. Wenn Dir Das Schwert und die Schlagen gefallen haben, wirst Du Das Gastmahl auch mögen, könnte ich mir vorstellen.
Reply 

#7  Uluhara 05-19-2011, 09:28 AM
Quote kbaerwald
Ich mache gerade meine ersten Gehversuche mit Tesseract-OCR: da ist schon einiges an Arbeit von Fraktur-Freunden geleistet worden. Ich habe ein altes Physiologiebuch aus der Mitte des 19.Jh mit schönen Zeichnungen. Da liegt die OCR Fehlerrate bei ca. 10% (der Rest ist Fleißarbeit).

Ich würde mich auch gerne einmal an Herrn Salice-Contessa versuchen und dann berichten.
oh ja, bitte mal versuchen! ruhig mit dem Schwert von oben aus dem link - das würde mich doch interessieren ob das klappt!

aber keine Hetze - gut Ding will Weile haben

ich fang einfach mal an zu tippen ...


@ Hokuspokus

du schreibst, dass im Todesengel was fehlt - könntest du das entweder ausbessern oder die "komplette" Ursprungs-PDF zur Verfügung stellen?



Hi, Hi, das nenn ich mal Simultan-Posting :-)
Reply 

#8  kbaerwald 05-19-2011, 10:13 AM
Quote Hokuspokus
Klaus,
wenn Du Dich an Salice-Contessa versuchen willst, ich habe die Erzählungen schon aus den Bänden der gesammelten Schriften herausgelöst, bis jetzt aber nur die beiden erwähnten beschnitten. Ich kann sie Dir gern unbeschnitten (und ohne fehlende Seiten) als pdf, jpg, png oder einem anderen Bildformat irgendwo hochladen. Sag mir einfach, welches Format für Tesseract am besten ist.
Ich würde auch herzlich gern Proofreading für die eine oder andere Geschichte machen.
Also, Tesseract-OCR frißt nur tif, ich versuche gerade eine Windows Batch-Datei ans Laufen zu bringen, die alle tif's aus einem dir lädt und dieselbe Menge an Textfiles ausgibt. FreeOCR bietet eine GUI an , die ich aber noch nicht richtig ans Laufen gebracht habe. Da wäre ich flexibler.

Wenn Du also noch die Seiten in tif anbieten könntest, wäre das super. Aber auch pdf ist o.k., da konvertiere ich einfach mit Acrobat in tif.

Klaus
Reply 

#9  Hokuspokus 05-19-2011, 01:20 PM
Aaalso,

die fehlenden Seiten beim Todesengel waren gar nicht mein Fehler, die Seiten 21 und 22 fehlen schon in dem Scan, den ich benutzt habe. Es gibt aber noch einen anderen Scan, der komplett zu sein scheint, allerdings von einer anderen Ausgabe mit anderer Seiteneinteilung. Ich kann die fehlenden Seiten leider nicht einfach einflicken. Ich werde die Erzählung wohl nochmal ganz neu bearbeiten müssen. *seufzt*
Inzwischen gibt es die komplette Erzählung hier http://books.google.de/books?id=gXgTAAAAYAAJ&pg=RA1-PA257&dq=contessa+schriften+5+inauthor:contessa&hl =de&ei=-zXVTbCnAY_t-gaHuNz0Cw&sa=X&oi=book_result&ct=result&resnum=3&v ed=0CEwQ6AEwAg#v=onepage&q&f=false
ab Seite 257

Sicherheitshalber habe ich Schwert und Schlage auch nochmal nachgesehen - es fehlen auch zwei Seiten, die dritt und viertletzte (war mir beim Lesen gar nicht so aufgefallen). Hier war es mein Fehler, ich habe die Seiten eingefügt und das pdf bei Archive neu hochgeladen.
http://www.archive.org/details/ScansFrEbookReader

Klaus,
die einzelnen tif files und zur Kontrolle nochmal das unbearbeitete pdf von Schwert und Schlage kannst Du hier runterladen. http://ge.tt/#7jYNqrH
PDFill kann auch ein einziges tif mit mehreren Seiten daraus machen, falls das besser ist. Ich wusste es nicht und habs einzeln gemacht.

Oh Mann, wäre das schön, wenn wir die Geschichte zusammen verfügbar machen könnten. Wie gesagt, Proofreading mache ich jederzeit gerne.
Reply 

#10  Uluhara 05-19-2011, 01:43 PM


na gut, dass du die fehlenden Seiten im Schwert noch bemerkt hast




Wollte nur mal kurz einen Zwischenstatus geben : beim Schwert hat mich jetzt der Ehrgeiz gepackt - das mache ich per tippen fertig! versprochen! (also nicht zu viel Ehrgeiz in das OCR stecken - vielleicht lieber in den Todesengel )

um die Erstellung des ebooks und das Hochladen etc. sollte sich dann aber wer anders kümmern - denn bis ich das endlich mal vernünftig auf die Kette kriege, dauert wohl noch was

@Hokuspokus - könntest Du das übernehmen? würde dir dann mein .doc zukommen lassen - oder jedes andere Format dass ich in Word erstellen kann, ganz wie gewünscht ...

Gruß, Uluhara

... die noch ein bißchen weiter tippt ...
Reply 

  Next »  Last »  (1/5)
Today's Posts | Search this Thread | Login | Register