中国語の文字コード
中国用に制定された主な文字セット・文字コードには、「GB2312」「GBK」「GB18030」があります。
GB2312は、1980年に公布された国家標準で、7445文字の漢字・非漢字から構成されます。なぜか、ひらがなとカタカナも含まれています。Shift JISと同様、ASCII文字や制御文字が使っていない領域を1バイト目とし、後続の1バイトと合わせた2バイトで1文字を表します。
GBKは、GB2312のスーパーセットであり、Windows 95に実装されて普及しました。GB2312の文字はそのまま、未使用領域に多数の繁体字や日本の漢字などを詰め込んでおり、全部で21886文字もあります。Shift JISと違って半角カタカナがないこと、つまり0xA1-0xDFを漢字の1バイト目として利用できることが幸いしています。
GB18030は、2000年に公布、2005年に改訂された国家標準で、GBKをベースに、さらに多くの繁体字や、チベット文字、モンゴル文字などを追加しています。GB18030-2005の収録文字数は約7万字になるとのことで、さすがに2バイトには収まらず、一部の文字は4バイトで表します。たとえば、「㐂」は「0x8139EF31」です。
GB2312, GBK, GB18030で文字数の多寡はあるものの、日常的な文章であればGB2312でほとんど間に合う上、互換性が確保されているため、一般のユーザーは文字コードについてあまり気にしていないようです。どの文字コードでも、「你」は「0xC4E3」であり、「好」は「0xBAC3」になります。
ただし、開発の現場では、文字の配置がGBコードとはまったく異なるUnicode(UTF-8)を利用することが増えています。さまざまなソフトウェアを組み合わせてシステムを構築したり、他国とファイルをやり取りしたりする際に、問題が発生しにくいからでしょう。ちなみに中華人民共和国中央人民政府のサイトも、「content="text/html; charset=UTF-8"」で書いてありました。
簡体字の表示に使うフォント
日本の「MS 明朝」に相当する中国のフォントは「宋体」(SimSum)になります。「MS ゴシック」に相当するフォントは「黑体」(SimHei)です。
ほかにも、「新宋体」「仿宋」「楷体」「微软雅黑」「幼圆」「隶书」「方正舒体」などがよく使われます。
適切にフォントを指定しないと、簡体字のつもりが日本の漢字を表示していた、ということが起こりえます。
日本語の「単」(UTF-8で0xE58D98)と簡体字の「单」(0xE58D95)や、日本語の「決」(0xE6B1BA)と簡体字の「决」(0xE586B3)であれば、文字コードが違うため、その心配はいりません。しかし、日本語の「画」(0xE794BB)と簡体字の「画」(0xE794BB)や、日本語の「浅」(0xE6B585)と簡体字の「浅」(0xE6B585)は、字形が異なるにも関わらず、文字コードが同じです。
そのため、HTMLの場合は、「lang="ja"」「xml:lang="ja"」「font-family:'MS 明朝'」や「lang="zh-CN"」「xml:lang="zh-CN"」「font-family:'SimSun'」などを利用して、適切なフォントを指定する必要があります。