Tomoe: Hanzi-Erkennung unter Linux

Da ich letztens beim Arlt Grafik-Tablets gesehen habe, habe ich mal wieder nach Programmen für die Erkennung chinesischer Handschrift gesucht. Auf Anhieb habe ich erstmal nur kommerzielle Lösungen, im übrigen auch nur für Windows, gefunden, wenn man von HanziLookup mal absieht, das aber nur als Java-Applett läuft und daher eher eine Notlösung ist.

Dann bin ich aber auf Tomoe gestoßen. Das hatte ich schonmal irgendwie entdeckt, damals konnte es allerdings nur Japanisch. In Version 0.6 kann es jetzt aber angeblich auch Chinesisch. Leider konnte ich das nicht testen, denn bei mir läuft es nicht richtig. Schade. Ansonsten scheint der Autor nämlich den richtigen Weg zu verfolgen, insbesondere mit der Integration in Scim.

Mit 500 Wörtern Chinesisch Sprechen

Vor ca. einer Woche hatte ich bei der Kulturabteilung der Taiwanischen BotschaftTaipeh Vertretung in der Bundesrepublik Deutschland angefragt, ob die mir irgendwelche Lehrbücher für Chinesisch mit traditionellen Schrifzeichen nennen können.

Ich wunderte mich schon über die lange Bearbeitungszeit, als dann gestern ein dicker Briefumschlag kam. Darin war ein Brief, unterzeichnet vom Botschaftsrat für KulturDirektor der Kulturabteilung persönlich.

Darin heißt es:

In Bezug auf Ihre Anfrage teilen wir Ihnen mit, dass es leider in Deutschland nicht möglich ist, Lehrmaterialien zu traditionellem Chinesisch von Buchhandlungen zu beziehen. Mit diesem Brief erhalten Sie das deutsche Lehrbuch Mit 500 Wörtern Chinesisch Sprechen in traditionellem Chinesisch. Eine Liste von Website-Verknüpfungen können Sie darunter finden.

http://english.education.edu.tw/lp.asp?ctNode=1883&CtUnit=545&BaseDSD=7&mp=12

Anbei war ein 230-seitiges Lehrbuch, herausgegeben von der Overseas Compatriot Affairs Commission (offenbar hat man mich also kurzerhand zum Überseechinesen erklärt ;-) )

Die Auflage ist vom September 2006, so ganz ausgereift scheint das Buch aber noch nicht zu sein: Gleich im Vorwort bricht ein Absatz mitten im Satz ab. Die chinesischen Texte sind gleich mit drei Lautschriften versehen: Zhuyin (auch bekannt als Bopomofo), Tongyong Pinyin und Hanyu Pinyin. Der chinesische Teil sollte wohl soweit in Ordnung sein, im deutschen Teil habe ich nur einen Tippfehler entdeckt.

Das soll jetzt übrigens keine Aufforderung sein, nach diesem Buch anzufragen, wenn man sich nicht wirklich dafür interessiert. Auf dem Buch ist ein Preis von NTD 250 – die paar Euro hätte ich ja sogar gerne bezahlt. Man merkt schon, daß die nicht dieselben Ressourcen für sowas aufwenden können wie die Volksrepublik …

Chinesische Vokabeln, Lektion 3 – erster Teil

Die ersten drei Blöcke mit vereinfachten und ggf. abweichenden traditionellen Varianten, Pinyin und Übersetzung:

Seite 30:

买 (買) – măi – kaufen
什么 – shénme – was?
苹果 (蘋果) – píngguǒ – der Apfel
多少 – duōshǎo – wieviel?
钱 (錢) – qián – das Geld

Seite 31:

斤 – jīn – das Pfund
两 (兩) – liǎng – die Unze (50 Gramm)
块 (塊) – kuài – Kuai (Währungseinheit)
草莓 – cǎoméi – Erdbeeren
太 – tài – zu (zu sehr, …)
贵 (貴) – guì – teuer
了 – le – Perfektsuffix, Satzendepartikel: Veränderung
便宜 – piányi – billig
一点儿 (一點兒) – (yì) diǎn’r – ein bißchen
行 – xíng – ok, akzeptabel
要 – yào – möchten, wollen, brauchen
一共 – yīgòng – insgesamt, zusammen

Seite 36:
那 – nà – dort / jens
件 – jiàn – Zählwort für Kleidung (oberhalb der Gürtellinie)
毛衣 – máoyī – Pullover
怎么 – zěnme – wie?
卖 – 賣 – mài – verkaufen
有 – yǒu – haben
红 – 紅 – hóng – rot
的 – de – subordinierendes Strukturpartikel
试 – 試 – shì – probieren
这 – 這 – zhè – dieser/diese/dieses
小 – xiǎo – klein
大 – dà – groß

Nichtlineare Textentstehung

Früher hat man Texte wohl eher linear geschrieben, weil einfach die technischen Möglichkeiten fehlten, einfach Abschnitte einzufügen, zu überarbeiten etc. – auch bei einem handschriftlichen Manuskript, bei dem man Platz hat und viel rumschmieren kann, muß man da irgendwann zumindest die Seite neu schreiben.

Im Zeitalter der Textverarbeitungssysteme ist das anders: Man kann Abschnitte verschieben, kopieren, ändern sowieso, kann sich Kommentare (TODOs) in Klammern setzen – alles mit wenig Aufwand.

Was ich mich aber frage: Nutzen wir diese Möglichkeiten wirklich aus, bzw. gehen wir effizient damit um? Und warum wird sowas nicht im Deutschunterricht gelehrt? (Oder wird es das inzwischen?)

Chinesisch: Familiennamen

Auf Seite 16 von “Chinesisch erleben” stehen einige Familiennamen, die wir für den Test morgen kennen müssen. Hier sind sie:

李 – Lǐ, wörtlich: Pflaume
王 – Wáng, wörtlich: König (Radikal Nr. 96)
張 [ 张 ] – Zhāng (auch ein Zähleinheitswort)
劉 [ 刘 ] – Liú, wörtlich auch: löschen, töten
陳 [ 陈 ] (chén)
Yáng (hier paßt in HanDeDict einiges nicht)
趙 [ 赵 ] – Zhào
黃 [ 黄 ] – Huáng, wörtlich: gelb (Radikal Nr. 201)
周 – Zhōu
吳 [ 吴 ] – Wú

Bei Fehlern bitte melden …

Chinesisch: Wochentage, Monate, Uhrzeiten

Erstmal zu den Monaten: Der Name setzt sich zusammen aus der Zahl für den Monat und 月 (yuè) für “Monat”

Damit ergeben sich folgende Namen:

一月 – yī yuè – Januar
二月 – èr yuè – Februar
三月 – sān yuè – März
四月 – sì yuè – April
五月 – wŭ yuè – Mai
六月 – liù yuè – Juni
七月 – qī yuè – Juli
八月 – bā yuè – August
九月 – jiŭ yuè – September (traditionell 玖月大? – HanDeDict nennt die traditionelle Form nur beim Eintrag für neun an sich.)
十月 – shí yuè – Oktober
十一月 – shí yī yuè – November
十二月 – shí èr yuè – Dezember

Die Wochentage gehen dann analog – 星期 (xīngqī), das heißt Woche, und dann die Zahl für den Tag, beginnend mit der 1 für Montag:

星期一 (xīngqīyī) – Montag
星期二 (xīngqī’èr) – Dienstag
星期三 (xīngqīsān) – Mittwoch
星期四 (xīngqīsì) – Donnerstag
星期五 (xīngqīwǔ) – Freitag
星期六 (xīngqīliù) – Samstag

Der Sonntag ist dann besonders, der heißt 星期日 (xīngqīrì) oder 星期天 (xīngqītiān). 日 (rì) ist übrigens das Radikal Nr. 72 (Sonne) und heißt auch Tag, 天 (tiān) heißt Himmel oder ist ein Zählwort für Tage.

Für Montag bis Samstag nennt HanDeDict auch jeweils noch Zusammensetzungen mit 禮拜 (vereinfacht: 礼拜, Pīnyīn: lǐbài), 周 (zhōu) und 每周 (měizhōu), für Freitag und Samstag auch mit 每星期 (měixīngqī). Aber da weiß ich nicht, wo die Unterschiede sind, also sei das nur der Vollständigkeit halber erwähnt.

Nach dem Datum fragt man zum Beispiel mit 今天己号? (今天幾號?) (Jīntīan jĭ hào? Heute wieviel Tag?), die Antwort kann dann 今天八月八号. (今天八月八號 Jīntiān bā yuè bā hào.) sein.

Zu den Uhrzeiten: 点 (diăn) heißt Stunde, wenn man das einer Zahl nachstellt, hat man die Zeit schonmal stundengenau angegeben. Dann kann zum Beispiel ziffernweise eine Minutenzahl, wahlweise gefolgt von 分 (fēn) folgen, oder 半 (bàn) für eine halbe Stunde, oder eine oder drei Viertelstunden (刻 – kè). Abzuziehende Zeitabschnitte werden auch vorangestellt, und zwar mit 差 (chà) davor, also zum Beispiel 差五分九点 – chà wŭ fēn jiŭ diăn (fünf vor neun). Fragen nach der Uhrzeit tut man mit 现在几点 (現在幾點) – “jetzt wieviel Stunde”.

Damit sollte das Thema halbwegs komplett behandelt sein, aber irgendwelcher Kleinkram findet sich auf meinen Blättern bestimmt noch …

Chinesische Vokabeln, Lektion 1 und 2

Falls jemand die Vokabeln aus dem Lehrbuch “Chinesisch erleben”, Leben in China, Alltagssprache mit 100 Sätzen, braucht: Hier sind die Vokabeln für die Lektionen 1 und 2, jeweils vereinfachte Zeichen (wie sie im Buch stehen), traditionelle Zeichen (falls unterschiedlich) und Pīnyīn und deutsche Übersetzung.

Lektion 1:

叫 – - jiào – heißen (Strichfolge)
姓 – - xìng – Familienname
我 – - wŏ – ich
贵 – 貴 – guì – werter
您 – - nín – Sie
好 – - hăo – gut
你 – - nĭ – du
吗 – 嗎 – ma – Fragepartikel
很 – - hĕn – sehr (Strichfolge)
呢 – - ne – Fragepartikel (Strichfolge)
也 – - yĕ – auch
是 – - shì – sein
英国 – 英國 – Yīngguó – Großbritannien
英国人 – 英國人 – Yīngguórén – Brite
不 – - bù – nicht
哪 – - nă – welcher
国 – 國 – guó – Land
人 – - rén – Person
美国 – 美國 – Mĕiguó – Amerika (zhongwen.com, Strichfolge)
美国人 – 美國人 – Mĕiguórén – Amerikaner

零 – líng – null (zhongwen.com, Strichfolge)
一 – yī – eins
二 – èr – zwei
三 – sān – drei
四 – sì – vier (Strichfolge)
五 – wŭ – fünf
六 – liù – sechs
七 – qī – sieben
八 – bā – acht
九 – 玖 – jiŭ – neun
十 – shí – zehn
一百 – yìbăi – hundert

他 – tā – er
小姐 – xiăojiĕ – Fräulein (小 = klein, 姐 = ältere Schwester)
先生 – xiānsheng – Herr (先 = zuerst, 生 = u.a. Radikal 100: gebären)
谢谢 – 謝謝 – xièxie – Danke (zhongwen.com)
不客气 – 不客氣 – bú kèqi – Bitte, gern geschehen (客氣 = höflich, 客 = Gast, 氣 [ 气 ] (qì) = Radikal 84: Luft)
对不起 – 對不起 – duìbuqĭ – Entschuldigung (對 [ 对 ] (duì) = richtig, 起 (qǐ) = aufkommen, entstehen)
没关系 – 沒關係 – méi guānxi – Das macht nichts. (沒 = es gibt nicht, 關係 = Einfluß, Zusammenhang, 關 = zumachen, schließen, 係 = System, Fakultät, Abteilung)
再见 – 再見 – zàijiàn – Auf Wiedersehen.

法国 – 法國 – Făguó – Frankreich (法 = Methode, Gesetz)
德国 – 德國 – Déguó – Deutschland (德 = Tugend, Moral)
中国 – 中國 – Zhōngguó – China (中 = Mitte)
日本 – Rìbĕn – Japan (日 = Radikal 72: Sonne, 本 = diverses)
西班牙 – Xībānyá – Spanien

Lektion 2:

点 – 點 – diăn – Uhr (zhongwen.com)
家 – 家 – jiā – nach Hause (zhongwen.com, Strichfolge)
回 – 回 – huí – zurückkommen
半 – 半 – bàn – halb
几 – 幾 – jĭ – wieviel
现在 – 現在 – xiànzài – heutzutage, jetzt

今天 – 今天 – jīntiān – heute
号 – 號 – hào – Tag
日 – 日 – rì – Tag
月 – 月 – yuè – Monat
去 – 去 – qù – gehen
星期 – 星期 – xīngqī – Woche

前天 – 前天 – qiántiān – vorgestern
昨天 – 昨天 – zuótiān – gestern
明天 – 明天 – míngtiān – morgen
后天 – 後天 – hòutiān – übermorgen

朋友 – 朋友 – péngyou – Freund

上班 – 上班 – shàngbān – zur Arbeit gehen
下班 – 下班 – xiàbān – Feierabend machen
吃 – 喫 – chī – essen
晚饭 – 晚饭 – wănfàn – Abendessen
睡觉 – 睡覺 – shuìjiào – schlafen

早上 – 早上 – zăoshang – der Morgen
上午 – 上午 – shàngwŭ – der Vormittag
中午 – 中午 – zhōngwŭ – der Mittag
下午 – 下午 – xiàwŭ – der Nachmittag
晚上 – 晚上 – wănshang – der Abend

分 – 分 – fēn – die Minute
刻 – 刻 – kè – die Viertelstunde/ein Viertel
差 – 差 – chà – vor

Wenn jemand Fehler entdeckt, besonders bei der Zuordnung der traditionellen Varianten: Bitte melden.

Character Description Language

I just stumbled across some pretty cool project at the junction of linguistics and IT. Of course, again, it concerns Chinese language processing …

The Character Description Language‘s aim is to provide a description language for Han ideographs. The project seems to be well-organized, and they have captured 56k CJK characters, including all from the BMP.

This data would probably be very useful for developing an Input Method Engine using a graphic tablet, or showing the decomposition of characters into their constituent parts. Alas, I have as of yet not been able to find the database – is it commercial stuff (namely, Wenlin) safely locked away from the interested public? That would really be a pity …

Deutsch-Chinesisches Wörterbuch

Ein sehr schönes Wörterbuch habe ich bei Chinaboard.de gefunden: Es hat deutlich mehr Einträge als CEDICT (von dem es auch noch eine nicht gepflegte Version sowie zwei unabhängig gepflegte Forks gibt …), und die Online-Version hat eine interessante Option: Texte mit Vokabeln annotieren. Das vereinfacht das Lernen dann doch deutlich, denke ich … Natürlich ist auch dieses Wörterbuch frei und damit auch kostenlos zum Download erhältlich.

Chinesisch-Prüfung

Ich komme gerade von der irgendwie etwas skurilen bis absurden Abschlußprüfung meines Chinesisch-Kurses.

Zuerst ging es mit Hörverstehensübung los, vorgelesen durch den Lehrer. Aufzuschreiben war die deutsche Übersetzung des Gehörten. Ich muß sagen, das war die erste Hörverstehensübung, bei der der Umfang und die Richtigkeit meiner Lösung dadurch beschränkt war, daß ich einfach keine Zeit hatte, nach den Sätzen die deutsche Übersetzung aufzuschreiben. Zu verstehen war es nämlich ansonsten recht gut …

Weiter ging es dann, als ich mit meinem Bogen schon fertig war. Dann gingen nämlich die inhaltlichen Fragen der anderen los, und der Lehrer hat sich auch noch drauf eingelassen. Als Zusatzaufgabe waren Zeichen, die im Unterricht mal so nebenbei erwähnt wurden, zum Beispiel Komponenten der “richtigen” Vokabeln, ins Deutsche zu übersetzen. Daraus wurde dann letztendlich irgendwie ein Ratespiel, weil der Lehrer anfing, zu erklären, was die bedeuten.

Wie gesagt, ziemlich skurril …

Darstellung chinesischer Glyphenkomponenten

Was mir jetzt an den Abschnitten “Strichfolge der Schriftzeichen” im Lehrbuch Praktisches Chinesisch 1 aufgefallen ist: Das Gesamtzeichen und die abgebildeten Teile stimmen nicht überein.

Beispiel: 谢 (xiè – danken). Die Komponente 谢 wird noch so dargestellt wie im Gesamtzeichen, der Teil 身 aber mit weiter oben anfangendem Diagonalstrich. Schon klar, das gehört so, wenn diese Komponente alleine als Zeichen steht. Es gibt sogar eine Variante des entsprechenden traditionellen Zeichens (謝, gleich bis auf das traditionelle Sprechen-Radikal) , bei der der Strich so dargestellt wird. Aber wenn es darum geht, wie das vollständige Zeichen geschrieben wird, verwirrt es.

Erst recht seltsam wird es dann, wenn einzelne Striche vom einen Bild zum nächsten verrutschen …

Mein Name auf Chinesisch

Heute habe ich mal ein wenig gegooglet, um eine “Übersetzung” / Umschrift meines Namens in Chinesisch zu finden.

Bei chinafokus.de fand ich dann einen Vorschlag:

延斯, ausgesprochen yán sī.

Auf der Seite gibt es dann auch noch Hinweise zur Übersetzung von Namen ins Chinesische. Dort wird richtig bemerkt:

Es gibt allerdings im Chinesischen für einzelne Silben verschiedene Zeichen, so daß man auch hierzu noch eine Auswahl treffen muß.

Und da frage ich mich dann doch irgendwie, warum die ausgerechnet obige Auswahl getroffen haben. Aber erstmal muß ich ein wenig weiter ausholen:

Mein erster Weg führte zur Unihan Database von Unicode. Die beiden Zeichen fanden sich dann dort über den Radikalindex sehr schnell.

延 hat den Codepoint 5EF6 und bedeutet so viel wie “delay, postpone, defer”. 斯 hat den Codepoint 5EF6 und bedeutet so viel wie “this, thus, such; to lop off; emphatic particle”. Das enthaltene Radikal 69 (⽄) bedeutet übrigens “Axt”.

Fast überflüssig zu erwähnen, daß es für beide Silben noch etliche weitere Zeichen gibt: yán ergibt 102 Treffer. Davon haben manche zwar mehrere Aussprachen, aber nicht wenige Zeichen werden nur als yán ausgesprochen, noch mehr als yan mit Auswahl zwischen verschiedenen Tönen. Wobei ich inzwischen auch finde, daß ein erster Ton am besten paßt ;-) Für sī sieht es ähnlich aus: 52 Treffer, davon die allermeisten eindeutig.

Bei Gelegenheit muß ich echt mal alle passenden Zeichen anschauen und mir einen schönen Namen aussuchen. Frage an die Experten für chinesische Phonetik: Ist yán sī die einzige sinnvolle Möglichkeit, die Aussprache meines Namens abzubilden?

Internationale Wortschätze

wortschatz.uni-leipzig.de kennt ja vermutlich jeder. Heute hab ich dort mal wieder ein Wort nachgeschlagen (ich wollte wissen, mit welcher Präposition man Raststätte benutzt: Signifikanter linker Nachbar ist “an der”, Beispielsatz ist “AUF RASTSTÄTTE ÜBERROLLT: Ein 62jähriger Mann ist am Mittwoch abend auf der Autobahnraststätte Fläming an der A 9 von einem Lastwagen überrollt und getötet worden. (Quelle: Berliner Zeitung 1998)”) und sah auf der Titelseite einen Link auf Wortschatz – International Portal.

Mal sehen, ob das was taugt. Kennt jemand noch weitere Wortschatz-Projekte? Ich bräuchte sowas ab und zu mal für Deutsch, Englisch, Italienisch und Französisch.

Deppenapostroph’s

Deutschlands willige Sprachverhunzungsvollstrecker haben gesprochen:

Laut Süddeutscher Zeitung hat der Duden jetzt Deppenapostrophe zu korrektem Deutsch erklärt (nicht, daß er daran irgendetwas zu entscheiden hätte …).

Was treibt diese Leute um? Ist es mangelnder Respekt vor der deutschen Sprache? Übertriebener Populismus? Geldgier, weil man ja alle paar Jahre eine neue Auflage unters Volk bringen will?

Sprachwitz oder Arroganz?

Heise berichtete über eine Entscheidung des schwedischen Telekom-Regulierers PTS und benutzte dabei folgenden Satz:

TeliaSonera zeiht die PTS des Wankelmutes[.]

Im zum Artikel gehörigen Forum ging es daraufhin richtig rund.

Jannis mußte im Duden nachschauen, zedi freut sich über den schönen Schreibstil, während Pickwick81 das einfach lächerlich findet. Rhapsodie meint, 80% der Leser könnten mit den beiden Wörtern überhaupt nichts anfangen und geht von Arroganz des Autors aus. Ich schließe mich da eher KlausH an: Offenbar schließt da jemand von sich auf andere. In einem absolut sachlich nüchternen, geradezu technokratischen Artikel sorgt dieser Stilbruch mit den altmodischen Worten für eine angenehme Auflockerung.

Aber daß ein Großteil der Bevölkerung, Studierte eingeschlossen, über keinerlei Allgemeinbildung verfügt, war jetzt ja nun wirklich nichts Neues …