○このドキュメントは有効期限を過ぎており無効です
生成ルール
98/09/16 JPNIC DOM-WG 川崎 都道府県政令指定都市名3文字コードの生成アルゴリズム (中谷案+新保修正案+川崎追加案) (1) 前提事項 (a) コードの対象は、都道府県および政令指定都市とする。 このメモでは現在の 47 都道府県 12 政令指定都市を 対象とする。 将来、対象が増減する時にはこのアルゴリズムの再検討を行うが、 既存のコードを変更することはしない。 (b) コードの長さは、アルファベット 3文字とする。 2文字ではコードから都道府県名を連想するのが難しい一方、 4文字以上では三重県が字数不足になってしまうからである。 (c) 母音字よりも子音字を優先してコードに採用する あ行は別として、一般に子音字が残っているほうが原形を推測 しやすいと思われる。 (2) アルゴリズム (a) 音節(*)分解とローマ字化 都道府県政令指定都市名の読み方を、音節に分解する。 ただし、「ゃ」「ゅ」「ょ」「っ」「ー」は直前のひらがな と合わせて一文字と考える。「ー」で表記可能な「う」「お」 は「ー」とみなす。 また、政令指定都市の「市」は接尾辞として扱い、ローマ字化の 際には "City" の "C" を使用することとする。 これらをローマ字で表記する。 (*) ここで言う「音節」の概念は一般的なものとはやや異なる。 (かもしれない) (b) 各音節の先頭アルファベット取り出し 各音節の先頭のアルファベットを取り出す。 この結果が3文字になるものについて、互いに衝突しなければ それをコードとする。(実際には衝突は発生しない) (c) 多すぎる文字の切り落とし (b) で未決定のもので、かつ、取り出されたアルファベットが4文字以上 となるものについて、漢字表記での各文字の先頭となる文字を先頭から 3文字まで採用する。 この結果が3文字となるものについて、すでに決定されているコード と衝突せず、かつ、互いに衝突しなければ、それをコードとする。 (実際には衝突は発生しない) (d) 少なすぎる文字の補完(子音字) (b) および (c) の結果、文字数が2文字以下となる場合には、 (a) でローマ字化された結果から未使用の子音字を先頭から順に 補完して3文字にする。この際、(a) での並び順を保存するように 挿入する。 この結果が3文字となるものについて、すでに決定されているコード と衝突せず、かつ、互いに衝突しなければ、それをコードとする。 (山口と山形が "YMG" で衝突する) (e) 少なすぎる文字の補完(母音字) (d) の結果でも文字数が2文字以下となる場合には、 (a) でローマ字化された結果から未使用の母音字を先頭から順に 補完して3文字にする。この際、(a) での並び順を保存するように 挿入する。 この結果が3文字となるものについて、すでに決定されているコード と衝突せず、かつ、互いに衝突しなければ、それをコードとする。 (実際には衝突は発生しない) (f) 衝突の回避 衝突が発生した場合には、最後に採用した文字を削除して次の候補を 採用することで衝突を回避する。 (実際には、山口が "YGC" 山形が "YGT" となる)