基礎知識:Unicode
Unicodeとは
世界中のすべての文字を扱うことを目的として作られた符号化文字集合で、アルファベットや記号はもちろん漢字やひらがな等、世界中で使用されている文字の集まりです。
※元々は全ての文字を16ビット(256*256=65536文字)に収めるという方針だったが、現在はさらに拡張されている(21ビット)
BMPと拡張領域
拡張領域
16ビット以降のバージョンで拡張された部分
Unicodeの文字符号化方式(エンコーディング)
Unicodeの文字符号化方式には下記のような種類があります。
UTF-8 :1文字を8~32ビットで表現
ASCIIの文字をそのままUnicodeで使用可能にするために制定された。
そのため、ASCIIに相当する部分は1バイトで、その他の部分は2~4バイトで表す可変長の符号化方式