Ich hab mir jetzt mal die hyph_de angeguckt.
Es dürfte ja kein Problem sein, bestimmte Worte selbst hinzufügen, oder? Ich meine als Beispiel: wenn man viel Karl May liest, dann sollte man eventuell "Indianer" hinzufügen. Oh, und das Wort "Pferd", den neulich hatte ich in einem ebook 2mal ein P-ferd drin ...
Was ich gerade eben auch noch herausgefunden habe: Wenn man früher ein "ck" getrennt hatte, wurde daraus ein kk, also z.B. "Zucker Zuk-ker" oder "Decke Dek-ke". Jetzt hab ich eine Seite im Internet gefunden, auf der steht, daß nach der neuen Regelung so getrennt wird: Zu-cker, De-cke ....
Was mich aber noch mehr überrascht hat: Auf einer anderen Seite wird folgendes erwähnt:
Einzelne Buchstaben am Wortbeginn können künftig abgetrennt werden, wie z.B. A-bend, o-ben, O-fen (mit Betonung auf "können", müssen aber nicht)
Also optisch sieht es auf jedenfall besser aus, wenn man so ein Wort in die nächste Zeile schiebt.
Die Sache wird langsam kompliziert.
Meine Silbentrennungstabelle folgt derzeit strikt der Neuen Rechtschreibung. Noch. Bei der Trennung von "st" bin ich am überlegen, es zu verbieten.
Zucker wird daher "Zu-cker" getrennt. Die originale Silbentrennung von Adobe verfährt in diesem Punkt ähnlich. Des Weiteren kann die Silbentrennung das Buch nicht umschreiben. Wenn Bäcker da steht, kann man daran nichts ändern, außer das Buch umschreiben.
A-ber wird bei mir allerings nicht getrennt. Links müssen mindestens zwei Buchstaben vorhanden sein, damit der AdobeViewer trennt. Daher kann so etwas wie A-ber und o-ben nicht vorkommen. Ich habe bereits bei der Erstellung der Trennmuster vorgegeben, dass Links zwei Buchstaben vorhanden sein müssen. Ein Buchstabe ist unsinnig. Die Minima sollten deswegen immer mindestens 2 betragen.
Willst du die alte Silbentrennung muss eine Silbentrennungstabelle dafür geschaffen werden, die nach deren Regeln trennt. Das ist natürlich möglich. Ich bin allerdings zur Zeit eher am experimentieren mit der Neuen Rechtschreibung.
Du kannst ohne Probleme eigene Wörter definieren. In meiner Datei
muss diese Definition allerings nach der Zeile "NEXTLEVEL" stehen. Niemals davor!
In der originalen Adobe kann nach den Minima fröhlich vor sich hin definiert werden.
Gewünschte Bruchstellen werden mit ungeraden Zahlen, unerwünschte mit geraden Zahlen gekennzeichnet. Dabei musst du auch die anderen Muster berücksichtigen. Das spezifischste Muster und die höhere Zahl gewinnen.
Nehmen wir Indianer. Wird dieses Wort falsch getrennt: Ind-ianer (ausgedacht), dann kannst du beispielsweise mit: n7d6i1a3ner, die Trennung komplett vorgeben. Durch die 6 nach dem "d" wird die Trennung dort untersagt. Die Ungeraden geben die Trennstellen an.
Alternativ kannst du in den Trennmustern das heraussuchen, was für die Trennung nach dem "d" verantwortlich ist und ändern. Allerdings ist dabei Vorsicht geboten, da du unbeabsichtigt ein Muster verändern könntest, was bei weiteren Wörtern zum Tragen kommt, die nach deiner Änderung falsch getrennt werden könnten.
Beispielsweise hatte ich heute an-onym. Nach Duden kann es so tatsächlich getrennt werden und in der meiner Silbentabelle zugrunde liegenden Wortliste ist diese Möglichkeit vorhanden. Ein Eingriff in das originale Trennmuster, wäre ungünstig. Man könnte die Wortliste verändern und die Trennmuster mit Patgen neu erstellen, aber im Gegensatz zur originalen Silbentrennung basiert meine Tabelle auf einer Wortliste von einer halben Million Einträgen. Meine komplette Freizeit der nächsten Monate würde es kosten alle Wörter zu sichten und sie auf die empfohlene Schreibweise des Dudens umzustellen. Ist mir zu viel Arbeit, für ein oder zwei Wörter, die ich anders trennen würde. Deshalb definiere ich hier schlicht, wie du vorhast die Ausnahmen in der Tabelle selbst. Hier wäre es beispielsweise: n6o7nym. Problem gelöst.
Pferd wird bei meiner Silbentrennung zumindest richtig getrennt.
Büchern in denen Indianer vorkommen, lese ich allerdings nicht oft, daher will ich bei diesem Wort keine Versprechen machen.
Quote sento
Meine Silbentrennungstabelle folgt derzeit strikt der Neuen Rechtschreibung. Noch. Bei der Trennung von "st" bin ich am überlegen, es zu verbieten.
Ja, ich hab auch noch den alten Merksatz im Kopf: Trenne nie das st, denn es tut ihm weh ...
Generell akzeptiere ich ja auch die neue Rechtschreibung (außer bei Worten wie z.B. Delphin, da bleibe ich bei der alten Schreibweise). Die meisten ebooks sind ja auch nach der neuen Rechtschreibung geschrieben (außer eventuell Bücher vom Gutenberg Project) Von daher denke ich auch, es ist sinnvoller, sich auf die neue Rechtschreibung zu konzentrieren.
Quote sento
Zucker wird daher "Zu-cker" getrennt. Die originale Silbentrennung von Adobe verfährt in diesem Punkt ähnlich. Des Weiteren kann die Silbentrennung das Buch nicht umschreiben. Wenn Bäcker da steht, kann man daran nichts ändern, außer das Buch umschreiben.
Ja, ich hab auch nicht erwartet, daß die Silbentrennung aus "ck" ein "kk" machen könnte. Aber durch die neue Rechtschreibreform hat sich das Thema ja scheinbar eh erledigt, da man "ck" selbst ja nicht mehr trennt.
Quote sento
Pferd wird bei meiner Silbentrennung zumindest richtig getrennt.
Büchern in denen Indianer vorkommen, lese ich allerdings nicht oft, daher will ich bei diesem Wort keine Versprechen machen.
Tja, ich lese zur Zeit eine Mittelalter-Romanserie, und da es damals noch keine Autos gab kommen P-ferde öfters vor. Scheinbar ist das bei der Original-Adobe Silbentrennung die einzigste Trennmöglichkeit, den ich hab schon 3 Fälle, bei denen Pferd (bzw. Pferde, Pferdewagen, etc), direkt nach dem P getrennt werden.
Ich finde es auf jeden Fall cool, daß wir (und vor allem natürlich sento) selbst so viel daran ändern können. Ich denke mal, so was ist nicht bei jedem Gerät möglich.
Soooo, nun, nach 2 Tagen, hab ich das alles mal durchgelesen. Sehr interessant. Vielleicht schreibt ja mal einer eine Doktor-Arbeit über die Details...
Für so Leute wie mich, die bloß Sachen wie ih-r oder D-ach loswerden wollen ohne sich um die 0,01% verbleibender Fälle zu scheren, funktioniert das hier am Anfang der system\fonts\adobe\hyph_de.dic ganz wunderbar:
Code
UTF-8
LEFTHYPHENMIN 2
RIGHTHYPHENMIN 2
COMPOUNDLEFTHYPHENMIN 2
COMPOUNDRIGHTHYPHENMIN 2
NOHYPHEN .,;
1.1
1;1
NEXTLEVEL
PS: Windows-User: zum editieren keinen Windows-Editor verwenden, sondern z.B. notepad++ , wegen der Codierung.
Quote sebigbos
PS: Windows-User: zum editieren keinen Windows-Editor verwenden, sondern z.B. notepad++ , wegen der Codierung.
Es gibt noch was anderes, außer notepad++?
Nee, aber mal ernsthaft, ich denke notepad++ ist einer der besten Editoren, ich benutze nix anderes. Jeder, der sich mit html und/oder ebooks befaßt, sollte ihn sich mal angucken.
Das soll jetzt keine Werbung sein (das Programm ist ja kostenlos) sondern einfach nur ein Tip. Am Anfang hab ich noch mit dem original Windows Notepad gearbeitet ...
Quote sebigbos
Soooo, nun, nach 2 Tagen, hab ich das alles mal durchgelesen. Sehr interessant. Vielleicht schreibt ja mal einer eine Doktor-Arbeit über die Details...
Ich habe es etwas zu ausführlich dargestellt. Allerdings ging es mir schlicht und ergreifend um die Darstellung der Probleme auf die ich gestoßen bin. Mit der Materie selbst hatte ich vorher nichts zu tun und ich dachte, wenn sich jemand damit auseinandersetzen will, muss er nicht wie ich bei Null anfangen.
Daher bin ich hier, wie auch im e-reader-forum unter dem Namen yen etwas ausführlicher gewesen.
Ich habe auch extra meine Silbentrennung zur Verfügung gestellt, falls jemand schauen möchte, wie ich es angestellt habe und alle Abtrennungen ala D-ach, ausgemerzt habe.
Es sollte keine lange Abhandlung zum Selbstzweck werden.
Es reicht natürlich größtenteils die Wortgrenzen zu definieren. Aber dann kommen andere Probleme, wie ich bereits ausgeführt habe.
Ich empfehle dir noch weitere Zeichen als Wortgrenze aufzunehmen. Der Punkt und das Semikolon reichen nicht. Zumindest das Komma und die häufigsten Satzzeichen solltest du noch aufnehmen. Dann solltest du der 0,01% bei den Einzelabtrennungen wie D-ach sehr nahe sein.
@sento
Danke noch mal für deine hyph Datei. Ich hätte dazu aber mal noch eine Frage:
Mir ist aufgefallen, daß viele (aber nicht alle) Worte mit einem Punkt anfangen. Als Beispiel: .arbei3te
Von Regular Expressions (RegEx) kenne ich es so, daß der Punkt als Joker genutzt werden kann, und so jeden Buchstaben ersetzt. Ist das hier auch so?
Und die hyph Datei ist wohl "case sensitive", also man muß Groß- und Kleinschreibung beachten? Ist ja eigentlich selbst erklärend, wenn man sich die Datei anguckt, aber ich will lieber noch mal nachfragen.
Quote sento
Ich habe es etwas zu ausführlich dargestellt.
sorry, ich wollte dir nicht auf den Schlips treten, sondern bloß eben ne schnelle 0815-Lösung posten, für diejenigen wie mich, denen dein Pass zu steil war....
mercí für den Satzzeichen-Tip.
Quote sebigbos
sorry, ich wollte dir nicht auf den Schlips treten, sondern bloß eben ne schnelle 0815-Lösung posten, für diejenigen wie mich, denen dein Pass zu steil war....
mercí für den Satzzeichen-Tip.
War auch nicht so gemeint. Ich finde es ja selber sehr lang und wollte nur noch einmal erklären, warum ich es nicht kürzer zusammengefasst habe. Für den Fall, dass jemand sich damit näher befassen möchte.
Hier einmal eine kleine Auswahl an Satzzeichen, die man mit der NOHYPHEN-Zeile in den Griff bekommt:
NOHYPHEN -,',,.,:,?,!,;,",«,,),(,´,`,],
,,..., ..., ,
1-1
1,1
1;1
1:1
1«1
1!1
1?1
11
1)1
1]1
1
1
11
1 1
NEXTLEVEL
Den Punkt habe ich andersweitig gelöst. Hatte ich in einem anderen Post allerdings schon geschrieben.
Quote NASCARaddicted
@sento
Danke noch mal für deine hyph Datei. Ich hätte dazu aber mal noch eine Frage:
Mir ist aufgefallen, daß viele (aber nicht alle) Worte mit einem Punkt anfangen. Als Beispiel: .arbei3te
Von Regular Expressions (RegEx) kenne ich es so, daß der Punkt als Joker genutzt werden kann, und so jeden Buchstaben ersetzt. Ist das hier auch so?
Und die hyph Datei ist wohl "case sensitive", also man muß Groß- und Kleinschreibung beachten? Ist ja eigentlich selbst erklärend, wenn man sich die Datei anguckt, aber ich will lieber noch mal nachfragen.
Normalerweise sollte es bei der Silbentrennung keine Rolle spielen ob Groß oder Klein. Normalerweise. Zumindest bei den meisten Projekten zu dem Thema spielt es keine Rolle. Bei der von Adobe im Pocketbook eingesetzten, verhält es sich leider anders. Er achtet auf Groß- und Kleinschreibung. Hast du Beispielsweise "in3d2i5a1nisch" in deiner Silbentrennung stehen, dann wird dieses Muster nur auf die kleingeschriebene Variante eingesetzt, da das Wort am Satzanfang beispielsweise mit einem Großbuchstaben beginnt und nicht mit "i".
Was mich persönlich sehr verwundert, da Adobe keine solche Unterscheidung in der originalen Silbentrennungsdatei getroffen hat. So würde dein ".arbei3te" nur bei der Kleinschreibung genutzt. Nicht jedoch, wenn am Satzanfang beispielsweise "Arbeiten" steht.
Der Punkt am Beginn eines Wortes symbolisiert den Wortanfang. Dein Muster ".arbei3te" wird nur angewendet, wenn er das Muster am Anfang eines Wortes findet. Der letzte Punkt am Ende eines Musters symbolisiert das Ende des Wortes arbei3te. würde dann nur eingesetzt, wenn das Wort mit dieser Buchstabenkombination endet.
Das kann man sich in einigen Fällen zu Nutze machen, um einige Probleme am Wortbeginn, oder mit einigen Endungen zu beheben.