日本語文字コード
日本語文字コード
計算機は、日本語の文章を処理する際には、一文字ごとに数字を割り当てて符号化してから扱います。この数字のことを文字コードと呼びます。日本語を符号化する方法としては、以下の三種類が広く使われています。
- JIS コード : インターネットで利用される文字コードです. 8 ビット目を使わずに符号化します。インターネットでメールなどを送る時は 8 ビット目が失われることが多かったため、日本のインターネットで広く利用されるようになりました. iso-2022-jp、JUNET コードとも呼ばれます。
- EUC : UNIX において日本語を扱うための標準となる文字コードです。正確には日本語 EUC といいますが、日本では単に EUC と呼ばれることが多いようです。
- シフト JIS コード : MS 漢字コードが正式名です。 Windows で使われています。
日本語を含むより国際的な規格としてUnicodeがあり、利用が広がりつつあります。
コード変換プログラム
文字コードを変換するコマンドnkf を利用します。
JISコードに変換
% nkf -j inputfile > outputfile
EUCに変換
% nkf -e inputfile > outputfile
シフト JIS コードに変換
% nkf -s inputfile > outputfile
Unicodeに変換
% nkf -w inputfile > outputfile
TOP / UNIX の基礎 (3)