日本語文字コード

計算機は、日本語の文章を処理する際には、一文字ごとに数字を割り当てて符号化してから扱います。この数字のことを文字コードと呼びます。日本語を符号化する方法としては、以下の三種類が広く使われています。

JIS コード : インターネットで利用される文字コードです. 8 ビット目を使わずに符号化します。インターネットでメールなどを送る時は 8 ビット目が失われることが多かったため、日本のインターネットで広く利用されるようになりました. iso-2022-jp、JUNET コードとも呼ばれます。
EUC : UNIX において日本語を扱うための標準となる文字コードです。正確には日本語 EUC といいますが、日本では単に EUC と呼ばれることが多いようです。
シフト JIS コード : MS 漢字コードが正式名です。 Windows で使われています。

日本語を含むより国際的な規格としてUnicodeがあり、利用が広がりつつあります。

文字コードを変換するコマンドnkf を利用します。 JISコードに変換

% nkf -j inputfile > outputfile

EUCに変換

% nkf -e inputfile > outputfile

シフト JIS コードに変換

% nkf -s inputfile > outputfile

Unicodeに変換

% nkf -w inputfile > outputfile