Mobileread
PB 622 - Silbentrennung verbessern? (bei epub)
#1  NASCARaddicted 08-19-2012, 05:20 PM
Hallo

Ich wollte mal fragen: gibt es eine Möglichkeit, bzw. wird dran gearbeitet die Silbentrennung zu verbessern?

Ich denke mal, perfekt wird die Silbentrennung nie werden (können) aber manche aktuellen Trennung stören mich schon ein wenig.

Mehrfach habe ich schon erlebt, daß das Wort "ihr" getrennt wurde, als in "i-hr". Also als ich noch in der Schule war (bis 1993), da galt noch die alte Rechtschreibung, und nach der durfte ein Buchstabe bei der Trennung nicht alleine stehen. Soweit ich mich erinnere mußten es mindestens 3 Buchstaben sein, also konnte man Worte mit weniger als 6 Buchstaben gar nicht trennen?

Und heute hatte ich einen noch schlimmeren Fall (man sollte meinen "schlimmer geht nimmer"). Wie würdet ihr das Wort "Terra-Aquarium" trennen? Also beim Pocketbook wurde daraus "Terra-A-quarium". Also bei dem Strich nach Terra handelt es sich um ein normalen Bindestrich, also ein "Minus". Da ist die Trennung ja durchaus erlaubt. Also sollte man doch erwarten, daß das A besser in die nächste Zeile rutscht ... Bei selbst erstellten epubs habe ich mehrfach den Fall, daß ein Doppelname auftaucht ("Hans-Jürgen", den Namen hab ich extra mit einem Span-Tag bearbeitet (white-space:nowrap;), da ist es dann ja auch Absicht. Aber normalerweise wird bei einem Minus ja umgebrochen ... und nicht ein Zeichen danach.

Umgekehrt habe ich auch schon erlebt, daß ein langes Wort nicht getrennt wurde und so (durch den Blocksatz bzw. "justify") eine Zeile mit sehr großen Wortabständen entstand.

Um mich nicht falsch zu verstehen: An sich liebe ich die Silbentrennung ja - es gibt (normalerweise) keine Zeilen mehr mit riesigen Wort-Abständen, und die ebooks sehen dadurch einem Papierbuch noch ähnlicher. Aber solche seltsamen Trennung tun mir wirklich in den Augen weh.

Also, gibt es eine Möglichkeit, die Silbentrennung zu verbessern? Eventuell durch ein Firmware-Update? Zumindest die Trennung von kurzen Worten müßte man doch verhindern können, damit keine 3-Buchstaben-Wörter mehr getrennt werden.

P.S. Was ja auch interessant ist: Ich hab festgestellt, daß die Silbentrennung nur funktioniert, wenn die Text-Sprache im Header richtig eingestellt ist. Da ich selber viel html in epub umwandle, achte ich da mittlerweile drauf. Es ist aber immer wieder erschreckend, wieviele Kauf-ebooks scheinbar keine Sprache angegeben haben, den da funktioniert die Silbentrennung gar nicht.
Reply 

#2  frostschutz 08-19-2012, 05:58 PM
Das mit der Silbentrennung ist leider generell ein Problem, bei allen Adobe-DRM-Readern. Das ist aber glaube ich Sache der Adobe Software. Da gibts es Hyphen-Dics die man anpassen kann für jede Sprache, irgendwo gabs auch einen Thread dazu wie diese Anpassung aussehen muss oder kann. Das funktioniert aber auch nur leidlich.

Evtl. ist es im FBReader besser, falls diese Software beim PB noch dabei ist (hatte selbst nur das PB360). Bei Adobe-DRM-Büchern müsste das DRM dann halt entfernt werden. Spätestens wenn Metadaten (Sprache) falsch ist kommt man eh nicht drum herum.

Ich lese hauptsächlich Englisch und da kann man es sich leisten, die Silbentrennung ganz abzuschalten, wenn man nicht gerade eine riesengroße Schrift verwendet; die Wörter im Englischen sind in der Regel kürzer so daß Zeilen mit großen Wortabständen die Ausnahme sind. Bei deutschen Texten ist das schon anspruchsvoller, aber im Zweifelsfall einer grottenfalschen Trennung trotzdem vorzuziehen. Große Abstände werfen mich nicht aus dem Lesefluss raus, übermäßig viele oder gar falsche Trennungen dagegen schon.
Reply 

#3  Montyp535 08-20-2012, 05:49 AM
also manchmal wundere ich mich auch über trennungen - z-um oder a-ber, am "schönsten" fand ich a-m (alles worte, die im originalen epub ungetrennt vorliegen) - aber diverse lange Worte blieben stehen... aber man gewöhnt sich dran :-)
Eine Besserung wäre freilich wünschenswert...
Reply 

#4  SIRSteiner 08-20-2012, 07:03 AM
Hallo,

dazu gibt es 2 Möglichkeiten:

1. Die Abhandlung im folgenden Forum lesen:

http://www.e-reader-forum.de/ebook-reader/weitere-ger%C3%A4te/pocketbook/6922-silbentrennung/

2. Den fbreader verwenden, damit habe ich keine Probleme mit der Trennung.

Gruß
Ronny
Reply 

#5  sento 08-20-2012, 06:53 PM
Der von SIRSteiner gepostete Thread und die dortigen Erläuterungen hatte ich geschrieben.

Ich will dies nicht noch einmal hier in aller Ausführlichkeit auseinandernehmen.

Das von dir (ich meine Nascar) erläuterte Problem liegt zum einen daran, dass in der Silbentrennung erlaubt wird ab einem Zeichen Links und Rechts zu trennen. Also braucht das Wort nur zwei Buchstaben und es wird getrennt.
Du findest diese Silbentrennungsdatei unter: Pocket622/system/fonts/adobe/hyphenDicts
Dort findest du sie unter dem Namen "hyph_de.dic". Die Zahlen für LEFTHYPHENMIN und RIGHTHYPHENMIN bestimmen die Anzahl der Notwendigen Zeichen, ab denen auf einer Seite abgetrennt werden darf. Erhöhst du sie auf 3, dann wird erst ab drei Zeichen Links und Rechts abgetrennt. Also ab sechs Zeichen insgesamt. Leider wirst du feststellen, dass sich das Problem dadurch nicht lösen lässt, weil die Silbentrennung von Adobe jedes einzelne Zeichen zum Wort addiert. Beispielsweise "zum.<<". Der Punkt am "zum" wird als ein Zeichen gerechnet und die französischen Anführungszeichen als zwei. Im Ergebnis macht das mit den drei Zeichen von Zum insgesamt sechs. Trotz deiner Erhöhung der Minima kann die Silbentrennung hier zuschlagen: zu-m.<<.
Dafür gibt es unterschiedliche Lösungen, mit denen ich herumexperimentiert habe. Im meinem verlinkten Post vom e-reader-forum steht zu den Lösungsmöglichkeiten ein wenig mehr, von der grundsätzlichen Herangehensweise.

Ich habe inzwischen mit verschiedenen Silbentrennungslisten gearbeitet. Zeitweise in dem Thread auch eine zur Verfügung gestellt, zum Testen und anschauen. Inzwischen habe ich mit Hilfe von Patgen, dem Dictionary der die Silbentrennung von Adobe zu Grunde liegt und einer umfangreichen freien Wortliste eigene Trennmuster erstellt. Diese sind natürlich weit von der Perfektion entfernt. Ich selbst lese mit meinem neusten Experiment erst seit ca. einer Woche. Es liegt eben leider nicht nur an den Listen, sondern auch der Funktionsweise des von Adobe verwendeten Algorithmus.

Grundsätzlich wird die Silbentrennung durch meine neue Silbentrennungstabelle und unzähligen Änderungen, in meinen Augen, aufgewertet. Zum Einen sind Einzelabtrennungen von nur einem Buchstaben Vergangenheit und zum Anderen wird die allgemeine Trennung an den richtigen Stellen erhöht.
Natürlich umfasst meine selbst zusammengestellte Wortliste nicht alle möglichen Worte. Die größte Schwachstelle sind seltene Substantive bzw. Komposita, die nicht in der Wortliste auftauchen, mit der ich die Trennmuster erstellt habe. Ein Beispiel: Ark-anghule. Das Wort war nicht Teil der Trennmuster. Die Silbentrennung nimmt nun das spezifischste Muster für dieses Wort. Wenn dieses Muster k1ang ist, dann sieht das Ergebnis so aus. Ein weiteres Beispiel: As-tgabel. Durch das Muster ".as1t" wird ihm die Trennung hier erlaubt. Das ist ein Beispiel eines scheinbar fehlerhaften Musters. In der Wortliste steht Astgabel, richtig getrennt. Leider kommt hier ein Problem des Algorithmus von Adobe zum tragen. An sich sollte Groß/Kleinschreibung nicht bedeutend sein, aber das sieht Adobe leider anders. Das erstellte Muster kommt nicht zum tragen, da es mit einem kleinen "a" anfängt.
Nur um einmal kurz zu verdeutlichen, welche Probleme auf dem Weg aufgetaucht sind und zu lösen waren bzw. sind. Adobe überrascht einen immer wieder aufs Neue.

Ich habe meine eigene, experimentelle Silbentrennungtabelle in den Anhang getan. Im Archiv befindet sich auch eine kleine Anleitung. Unter 4.2 sollte stehen, wie man sie einsetzt. (Die originale Tabelle im oben genannten Verzeichnis umbenennen [oder löschen, aber dann ist sie erst mal weg ] und meine in das Verzeichnis kopieren.)
Bekannte Probleme (die ich noch nicht erwähnte):

ST-Trennung: "st" wird nicht immer getrennt, wo es die Neue Rechtschreibung vorsieht. In einer früheren Silbentrennungstabelle gab es das Problem, das "st" mitunter an Stellen getrennt wurde, wo es nicht trennen sollte. Aus Sicherheit habe ich das Allgemein stärker unterbunden. Das führt leider dazu, dass Wörter wie Kri-stall, vor dem "st" getrennt werden. Wo ich das sehe korrigierte ich es. Mir ist es allerdings lieber, bei einigen Substantiven wird in seltenen Ausnahmen nicht getrennt, als eine falsche Trennung. Die falsche Trennung würde den Sinn des Wortes entstellen. Dies passiert bei einer unterlassenen Trennung nicht. Ganz Allgemein bin ich schon fast an der Stelle, wo ich die Trennung lieber untersagen möchte und vor dem "st" trennen lasse. Vor allem bei Steigerungsformen. Mal sehen.

Probleme durch eigene Trennmuster:
Ich habe zu den von Patgen generierten Trennmustern ebenfalls viele eigene erstellt, die Probleme beheben sollen. Allerdings sind diese sehr umfangreich und können selbst Probleme auslösen. Es ist eben noch recht experimentell.

Scheinbare Abtrennungen:
Damit meine ich Trennungen, die gar keine sind. In einigen Büchern kam es beispielsweise zu Umbrüchen wie: >>A - ber; wobei hier kein Trennstrich vorkommt. Die Zeile endet mit A und fängt mit ber an. Oder sie endet mit ">>". Das liegt allerdings am eBook und ist nicht der Silbentrennung geschuldet. Im eBook steht in solch einem Fall <span> >>A </span> ber. Für den AdobeViewer scheint es sich damit um zwei Worte zu handeln und nicht nur um eines. Selbst mit ausgeschalteter Silbentrennung würde dies passieren. Müsste man das eBook selbst bearbeiten.

Drei Punkte: (Problem obsolet, wenn mit der normalen Version gearbeitet wird)
Es gibt zwei Arten von Möglichkeiten wie drei Punkte im Ebook umgesetzt werden: "..." und "…". Ersteres sind drei normale Punkte hintereinander. Letzteres das Zeichen Auslassungspunkte. Erstes ist ein Problem. Es kann vorkommen, dass die drei normalen Punkte mit Bindestrich in die nächste Zeile gezogen werden:
und
-...
Dies ließe sich nur umgehen indem bei Calibre das Ebook umgewandelt wird und mit Suchen&Ersetzen der Ausdruck "\.\.\." gegen "…" ausgetauscht wird. Konvertieren und das Problem wäre gelöst.
Alternativ in der Zeile über dem NEXTLEVEL folgendes das "%" bei "%6...6" entfernen (ab beta5). Dann besteht allerdings wieder die Möglichkeit einer Abtrennung eines einzelnen Buchstabens:
un-
d ...
Für das Problem habe ich noch keine Lösung, außer der Konvertierung.

Bitte die Werte für LEFTHYPHENMIN und RIGHTHYPHENMIN nicht aus einem Spaß heraus ändern. Die Trennmuster habe ich von Patgen mit der Absicht erstellt, dass sie in der Praxis 2 und 3 betragen.

Nachteil:
Das Öffnen der Bücher dauert bei längeren Büchern nun zwei Sekunden länger.

Wichtigste Änderungen der letzten Versionen:
- Zwei systematische Fahler ausgeräumt.
[zip] Silbentabelle1.0.9.beta2.zip (142.4 KB, 1094 views)
[zip] beta3.zip (301.0 KB, 586 views)
[zip] beta4.zip (140.4 KB, 564 views)
[zip] beta5.zip (135.9 KB, 541 views)
[zip] beta6.zip (135.4 KB, 642 views)
[zip] Silbentrennung001.zip (203.9 KB, 602 views)
[zip] Silbentrennung002.zip (207.7 KB, 679 views)
Reply 

#6  NASCARaddicted 08-20-2012, 07:58 PM
Danke sento, für den sehr informativen Post und deinen Anhang. Ich werde ihn bald testen (muß aber noch warten, bis mein Akku ganz leer ist. Ich weiß, es ist heutzutage nicht mehr so schlimm, wenn man einen Akku der nicht ganz leer ist wieder lädt, aber es ist immer noch meine erste Akkuladung (seit Mitte Juni) darum will ich mal ausreizen, wie weit ich komme).

Den Link von SIRSteiner hab ich mir auch schon angeguckt und den Inhalt kurz überflogen.
Daß Zeichen wie die französischen Gänsefüßchen auch als Buchstaben angesehen werden hab ich schon gelesen. Aber gerade heute hatte ich wieder den Fall eines einzelnen Buchstaben, ohne irgendwelche anderen Zeichen daneben, also weder Gänsefüßchen, noch Interpunktion. Wobei, es war schon ein Punkt da, aber dann kam erst ein Leerzeichen und dann kam "A-lles". (Aber ohne die Gänsefüßchen, die hab ich nur gemacht um das Wort deutlicher zu machen). Und ein Leerzeichen dürfte ja normalerweise nicht gezählt werden.
Reply 

#7  sento 08-20-2012, 08:14 PM
Der einzelne Buchstabe ist dem niedrigen Minima geschuldet. Es steht standardmäßig auf 1 für beide Seiten. Er darf also immer nach einem Buchstaben trennen. Erhöhen musst du. In meiner Tabelle habe ich für Links zwei Buchstaben gewählt und für Rechts drei.
Aber das reicht eben noch nicht aus. Damit wird dein A-lles zwar verhindert, aber bei >>A-lles schlägt er schon wieder zu. Ebenfalls bei Umlauten am Anfang, denn diese zählen nicht als ein, sondern zwei Zeichen. Möglich wäre natürlich die Minima immer weiter in die Höhe zu treiben, aber damit wird dann kaum noch ein Wort getrennt. Hier muss man umfangreiche Änderungen vornehmen, um dem Problem Herr zu werden. Am einfachsten ist das Definieren von Wortgrenzen. Das hat allerdings ebenfalls seine Tücken. Wortgrenzen für Zeichen am Wortanfang (>> Beispielsweise) stellen ein Problem dar. Der Punkt als Wortgrenze entpuppt sich ebenfalls als problematisch, wenn der Verlag im eBook als Auslassungspunkte einfach drei normale Punkte hintereinander verwendet. Nur zwei Beispiele.

Ich habe das weitestgehend behoben. Aber man ist natürlich nie gefeit, was es so alles an Zeichen gibt. Neulich ist mir ein seltsamer länglicher Strich in einem Buch begegnet. Natürlich wurde er mitgezählt. Inzwischen stoße ich allerdings nicht mehr auf solche Zeichen. So langsam habe ich alle kennengelernt. Die Hauptprobleme sind jetzt eher falsche Trennungen ala Ark-anghule.
Reply 

#8  NASCARaddicted 08-21-2012, 06:14 AM
Quote sento
Der Punkt als Wortgrenze entpuppt sich ebenfalls als problematisch, wenn der Verlag im eBook als Auslassungspunkte einfach drei normale Punkte hintereinander verwendet.
Hm, also bei selber erstellten ebooks habe ich das bisher immer so gemacht. Sollte ich das vielleicht ändern in Code hellip?
Reply 

#9  Montyp535 08-21-2012, 06:35 AM
sehr interessante Infos - werd ich mal probieren - bei Erhöhung der Grenze komm ich so schon mal um die seltsamen Trennungen rum - und meine Frau auch - die hat sich jetzt schon mal aufgeregt, wie seltsam manche Worte getrennt wären (Anmerkung: sie ist Deutschlehrerin...)
Reply 

#10  sento 08-21-2012, 07:20 AM
Quote NASCARaddicted
Hm, also bei selber erstellten ebooks habe ich das bisher immer so gemacht. Sollte ich das vielleicht ändern in Code hellip?
@NASCAR
Viele eBooks haben für die Ausalassungspunkte einfach drei normale Punkte hintereinander verwendet. Das ist ja auch nicht weiter schlimm.
Im ersten eBook, wo ich Probleme mit drei Punkten hatte, waren es Auslassungspunkte. Ich muss gestehen, dass ich vorher überhaupt nicht wusste, dass es dafür ein extra Zeichen gibt. Ich hatte geglaubt alle würden einfach drei normale Punkte hintereinander ins eBook schreiben. War nicht der Fall.
Im nächsten Buch war es dann so, wie ich es auch gemacht hätte: drei stinknormale Punkte hintereinander. Leider führt das zu einem sehr seltsamen Abtrennungsverhalten beim Pocketbook, wenn der Punkt als Wortgrenze definiert wird. Die drei Punkte werden mit Strich in die nächste Zeile verschoben. Das war nicht zu beheben, solange der Punkt eine Wortgrenze ist.

In der originalen Silbentrennung wird mit Wortgrenzen auch gar nicht gearbeitet. Daher wird ihnen so etwas nicht aufgefallen sein.

@Monty
Die Erhöhung der Minima verhindert eine Trennung allerdings nur bei Wörtern, an denen kein Satzzeichen klebt bzw. keinen Umlaut am Anfang oder Ende haben. Mein Beispiel war hier "zum". Drei Zeichen. Mit 2/3 wird hier mit Sicherheit nicht getrennt, aber bei "zum.<<" darf wieder getrennt werden, wenn auch nur eine Stelle in Frage kommt "zu-m.<<".
Je weiter du erhöhst, desto unwahrscheinlicher wird es natürlich. Bei einem Minimum von 5 Rechts kann mein Beispiel nicht mehr getrennt werden, aber das heißt auch, dass normale Wörter ohne Satzzeichen drann, nun 5 Buchstaben Rechts und 2 Links brauchen für eine Abtrennung. Die Möglichkeit der Abtrennung normaler Wörter wird damit erheblich eingeschränkt. Läuft dem Sinn der Silbentrennung zu wider.

Daher habe ich versucht mit meiner Tabelle die Probleme, ohne stetiges Erhöhen der Minima in den Griff zu bekommen.
Reply 

  Next »  Last »  (1/5)
Today's Posts | Search this Thread | Login | Register