7.22018
1.<アラビア語の基本の文字>
お久しぶりです。
こんにちは、カルチスタッフです。
今回はアラビア語で使⽤される⽂字を⾒てみましょう。
アラビア語を表記するために使⽤される⽂字はアラビア⽂字といいます。アラビア⽂字はアラビア語以外に、ペルシア語、ダリー語、クルド語など様々な⾔語の⽂字表記に使⽤されます。カルチでは、アラビア⽂字のうち、アラビア語・ペルシア語を記述する際に必要な⽂字を限定してアラビア⽂字として扱っています。
アラビア⽂字は、左から右に横書きする⽇本語や英語と異なり、右から左へと横書きします。また、英語のアルファベットや数字とアラビア⽂字が混在する⽂章を表⽰する場合、アラビア⽂字は右から左、英語や数字は左から右へと表⽰されるため、注意が必要です。
カルチで取り扱っているアラビア⽂字は、⼦⾳字・⺟⾳記号・その他の⽂字と記号・数字に分類されます。そのうち⺟⾳記号は⼀般的には使⽤しません。また、⼦⾳は、1つの「基本の⽂字」に対して最⼤4つの「変形⽂字」をもっています。⼦⾳は、単語中の⽂字の位置に応じて、独⽴・語頭・語中・語尾の形に変化します。
まずはじめに、「基本の⽂字」についてご紹介したいと思います。「基本の⽂字」は、合計145⽂字であり、英語などと⽐べてもそれほど多くはありません。ここでは煩雑さを考慮して、アラビア語の代表的な「基本の⽂字」の字形、対応Unicode を抜粋してご紹介します。
<代表的な⼦⾳字:28 ⽂字>
<代表的な⺟⾳記号:10 ⽂字>
<その他の⽂字・記号:20 ⽂字>
<数字:10 ⽂字>
アラビア⽂字には、これらの「基本の⽂字」の他に、
・「⼦⾳字」の変化形である「変形⽂字」
・複数の「基本の⽂字」が結合した「結合⽂字」
があります。
アラビア⽂字はヒンディー⽂字と違い、「変形⽂字」「結合⽂字」にも対応するUnicode があります。そのため、アラビア⽂字の表⽰では、ほとんどの場合⼊⼒Unicode と、表⽰Unicode が異なります。The Unicode Consortium では、「基本の⽂字」は、0x0600〜0x06FFの領域に、「変形⽂字」と「結合⽂字」は0xFB50〜0xFDFF、0xFE70〜0xFEFF の領域に収録されています。
基本的に⼊⼒には0x0600〜0x06FF のUnicode が使われ、表⽰には0xFB50〜0xFDFF、0xFE70〜0xFEFF のUnicode に対応する⽂字が使われます。
冒頭でも紹介しましたが、アラビア語と英数字が混在する⽂章を表⽰する場合、アラビア語と英数字の表記⽅向が異なるため、特別な処理が必要です。この処理のことを「双⽅向処理」といいます。
次回は、「双⽅向処理」「変形⽂字」「結合⽂字」について説明します。
カルチスタッフ