日本語圏Unicodeコードポイントの範囲

膨大なUnicodeの中から日本語圏に関係する文字を探す際、ある程度はまとまって記載されているため、その範囲を調べると便利です。

このUnicodeについてですが、コードポイントと呼ばれる16進数の整数に「U+」を付け、「U+1F600」のように文字が参照されます。そのため、仮にU+0000~U+FFFFまでの範囲の場合、各桁が0~Fまでの16文字(16進数)のため、16×16×16×16で合計65,536文字あることになります。

規格では、Unicodeの総数は「0~10FFFF」と決まっているため、65,536文字の17個分となり、合計で1,114,112文字分となります。ただ、この領域がすべて使用されているわけではなく、文字が割り当てられていない空の領域も多くあります。

この17個を以下のように面(Plane)として考えますと、日本語圏に関連する文字は、主に最初の0~1面(0~U+1FFFF)に入っています。そのほか、2~3面は主に漢字、15~16面は私的使用で割当てられてはいますが、概ね、その他は空の状態のため、日本語圏の文字は0~1面の範囲から調べることをおすすめします。

Unicodeの全体マップ(Plane 0~16)

Plane 0 Plane 1 Plane 2
Plane 3 Plane 4 Plane 5
Plane 6 Plane 7 Plane 8
Plane 9 Plane 10 Plane 11
Plane 12 Plane 13 Plane 14
Plane 15 Plane 16

つまり、0面(0~FFFF)、1面(~1FFFF)…9面(~9FFFF)、10面(~AFFFF)、11面(~BFFFF)…15面(~FFFFF)、16面(~10FFFF)の17面で合計1,114,112文字分あり、そのうち、重要なのは0面と1面ということになります。

特に、最初の0面(65,536文字)は基本的な文字が記載されている重要な箇所となっており、BMP(Basic Multilingual Plane、基本多言語面)とも呼ばれています。

Plane 0(BMP:基本多言語面)

以下は、0面(U+0000~U+FFFF)にて割り当てられている文字をカテゴリによって色分けしたヒートマップです。空白の箇所はそれほどなく、ほぼびっしりと文字が割り当てられています。

Plane 0(U+0000~U+FFFF)

カーソルを合わせると文字情報が表示されます

文字(アルファベット・漢字など) (L*)
結合記号(濁点・アクセントなど) (M*)
数字 (N*)
記号(数学・絵文字など) (S*)
句読点・括弧 (P*)
空白・区切り文字 (Z*)
制御文字・その他 (C*)

上記のうち、日本語圏に関連していると思われる箇所をピックアップしたヒートマップがこちらになります。

Plane 0(日本語圏ピックアップ)

この0面を、実際のリアルな文字マップで確認してみますと、最初の箇所は「!」や「%」などよく使用する記号はあるものの、日本語圏とは無関係な文字が多いです。中盤以降は漢字が多く設定されていますが、漢字についてはここでは除外しております。

0面で日本語圏に関連する箇所

Unicodeコードポイントでいえば、主に以下の箇所が該当するため、似たような文字を探している方はその範囲をチェックされることをおすすめします。

用途 コードポイント範囲
ASCII U+0020~U+007E ! " # $ % &, 0–9, A–Z, a–z
ラテン補助 U+00A0~U+00FF ©, ®, ±, ×, ÷, µ
一般句読点 U+2000~U+206F “ ”, ‘ ’, …, ―, ‐, ′, ″
矢印 U+2190~U+21FF ←, ↑, →, ↓, ↔, ⇒, ⇔
数学記号 U+2200~U+22FF ∞, ∑, ∫, √, ≒, ≠, ≤, ≥
幾何学図形 U+25A0~U+25FF ■, □, ▲, △, ▼, ◆, ◇, ●
各種記号 U+2600~U+26FF ☀, ☂, ☎, ☑, ☓, ♡, ♠, ♣
装飾記号 U+2700~U+27BF ✂, ✈, ✉, ✓, ✕, ✖, ✚, ✩
矢印拡張 U+2B00~U+2BFF ⤴, ⤵, ⬆, ⬇, ⬅, ➡
和文句読点・括弧 U+3000~U+303F 、, 。, 「, 」, 『, 』, 〜
ひらがな U+3040~U+309F あ, い, う, え, お, ん, ゛, ゜
カタカナ U+30A0~U+30FF ア, イ, ウ, エ, オ, ン, ヴ
漢文の返り点 U+3190~U+319F ㆐, ㆑, ㆒
カタカナ拡張 U+31F0~U+31FF ㇰ, ㇱ, ㇲ, ㇳ, ㇴ
囲み文字 U+3200~U+32FF ㊗, ㊙, ㋿, ㍻, ㍼, ㍽, ㍾
互換漢字・単位 U+3300~U+33FF ㌔, ㌢, ㍉, ㍍, ㍑, ㍗, ㈱, ㈲
漢字(基本) U+4E00~U+9FFF 山, 川, 髙 など多数
互換漢字(異体字) U+F900~U+FAFF 﨑, 祥, 羽 など人名・地名用
全角英数字・記号 U+FF00~U+FFEF A, 1, @, #, %, ー, ゙, ゚

ちなみに、当サイトでは特殊文字・特殊記号の一覧の下部にて、10進数で範囲を指定して一括表示で確認することもできます。16進数から10進数へ変換したうえで、その範囲をまとめてチェックされるとよいでしょう。

Plane 1(SMP:絵文字・記号)

次の1面(U+10000~U+1FFFF)につきましては、SMP(Supplementary Multilingual Plane、補助多言語面)と呼ばれており、上記のBMPに入りきらなかった文字が追加で補助的に収録されています。

このSMPには絵文字が多く設定されていますが、空白の箇所も多くあります。今後、新しい絵文字がUnicodeに採用された場合、こちらに追加されることも多いかと思います。

Plane 1(U+10000~U+1FFFF)

カーソルを合わせると文字情報が表示されます

この1面で日本語圏に関連のありそうな箇所は以下となっており、下の方に絵文字などが多く設定されています。

Plane 1(日本語圏ピックアップ)

Unicodeコードポイントの範囲でいえば、以下の箇所になります。

用途 コードポイント範囲
音楽記号(五線譜) U+1D100~U+1D1FF 𝄀, 𝄁, 𝄞, 𝄢, 𝅘𝅥
古代ギリシャ音楽記号 U+1D200~U+1D24F 𝈀, 𝈁, 𝈂
数学用追加記号 U+1D400~U+1D7FF 𝐀, 𝑨, 𝒜, 𝓐, 𝔄, 𝕬
麻雀牌 U+1F000~U+1F02F 🀄, 🀅, 🀆
トランプ U+1F0A0~U+1F0FF 🂡, 🂱, 🃁, 🃑
囲み文字 U+1F200~U+1F2FF 🈁, 🈂, 🈚, 🈯, 🈳, 🈵, ㊗, ㊙
絵文字(主要) U+1F300~U+1F5FF 🌸, 🎉, 🎂, 🚗, 🏠, 🌧, 🐱
絵文字(顔) U+1F600~U+1F64F 😀, 😂, 😅, 😭, 😡, 🙏
絵文字(交通・地図) U+1F680~U+1F6FF 🚀, 🚃, 🚗, 🚦, 🚧, 🛫
記号(識別子) U+1F780~U+1F7FF 🞀, 🞁, 🞂
絵文字 U+1F900~U+1F9FF 🤖, 🤗, 🤔, 🧠, 🦊, 🦄
絵文字 U+1FA70~U+1FAFF 🛻, 🪄, 🪅, 🪐, 🪨
レガシーコンピュータ記号 U+1FB00~U+1FBFF 🬀, 🬁, 🬂 (8bit時代の記号)

例外はあるものの、コードポイントの数字の大きいほど、最新の絵文字バージョンになる傾向があるため、最新のバージョンがインストールされていない環境では表示されないことも多いと思います。概ね、Windows 10ではEmoji 13.1まで、Windows 11ではEmoji 15.1 まで対応していますが、最新のEmoji 17.0が表示される環境はまだ少ないかもしれません。

その他、2面については漢字が割り当てられています。

Plane 2(U+20000~U+2FFFF、SIP:CJK拡張漢字)

カーソルを合わせると文字情報が表示されます

日常的に使用する基本的な漢字は0面に収録されていますが、そちらには入りきらないマニアックな漢字がこの2面で収録されています。

そのため、SIP(Supplementary Ideographic Plane、補助漢字面)と呼ばれており、日本では人名や戸籍の旧字体で使用されることはあるかもしれませんが、実用性のある日本語関連の文字はほぼないと思います。

Plane 2(日本語圏ピックアップ)

このSIPでも入りきらなかった漢字については、次の3面のTIP(Tertiary Ideographic Plane、第三漢字面)にて収録されています。ただ、3面については、さらにマニアックな漢字が収録されています。

以降、16面までありますが、空の領域も多く、日本語圏に関係する箇所はほぼありません。そのため、Unicode文字を探す際は0面(U+0000~U+FFFF)をメインとし、絵文字などで1面(U+10000~U+1FFFF)あたりもチェックされることをおすすめします。