コンピュータは情報をどのようにメモリに保持するのか?

The Unix and Internet Fundamentals HOWTO
Prev		Next

The Unix and Internet Fundamentals HOWTO

9.2. 文字

文字は、通常、ASCII (American Standard Code for Information Interchange) と呼ばれるコーディングにしたがった 7 bit の並びとして表現されます。現在のマシンでは、128 個の ASCII 文字のそれぞれが、オクテット (octet) もしくは 8-bit のバイト (byte) の下位 7 bit を使って表されています。オクテットは、メモリのワード単位にまとめられるので、たとえば 6 字の文字列の場合、多くとも 2 メモリワード分の場所しか取りません。この ASCII 文字のコード表を見るには、Unix プロンプト上で `man 7 ascii' と打ってください。

とはいえ、上記の段落は、ふたつの点で誤解を招くかもしれません。まず、ひとつ目は、やや細かいことですが、オクテットという用語です。これは、正式には間違ってはいませんが、実際にはほとんど使われていません。大部分の人は、オクテットを バイト(byte) と呼び、バイトを 8 bit 長であると考えています。厳密にいうと、バイトという用語は、もっと一般的な意味を持っています。たとえば、以前は 36-bit マシンで 9-bit バイトといった言い方もなされていたのです(もうこうした使い方は決してなされないとは思うのですが)。

ふたつ目のより重要な問題は、全世界で ASCII 文字が使われているわけではないということです。事実、多くの国では、ASCII を使っていません。ASCII は、アメリカ英語の場合には問題ないのですが、他の言語の利用者が必要とするアクセント付きの文字や特殊な記号の付いた文字の多くが欠落しているからです。英国英語ですら、ポンド記号が欠けていることから、ASCII 文字では問題が生じてしまうのです。

この問題を解決しようとする試みは、過去にいくつもなされてきました。それらはすべて、ASCII では使われていない最上位 bit を使うというものであり、それによって 256 文字セットをもうひとつ作ってしまおうというものです、それらのうち、もっとも広く利用されているのが Latin-1 と呼ばれるものです(正式には、ISO 8859-1 と呼ばれています)。これは、 Linux, HTML および X でのデフォルトの文字セットとなっています。 Microsoft Windows は、Latin-1 に手を加え、正式な Latin-1 では歴史的な理由から空欄とされている箇所に左右の二重引用記号などを追加しています。(これが、トラブルを引き起こす原因になっているという事件の解説は、demoroniser のページを御覧ください。)

Latin-1 は、英語、フランス語、ドイツ語、スペイン語、イタリア語、オランダ語、ノルウェー語、スウェーデン語、デンマーク語といった西ヨーロッパの言語を扱うものです。しかし、Latin-1 は、どれひとつの言語においても満足のゆく出来ではないために、その結果として、Latin-2 から Latin-9 までの一連の文字セットが生まれ、これらを使って、ギリシャ語、アラビア語、ヘブライ語、エスペラント語、セルビア・クロアチア語なども扱っています。詳しくは、ISO alphabet soup のページを御覧ください。

究極の解決策が、Unicode (および、その双子の兄弟である ISO/IEC 10646-1:1993) と呼ばれる膨大な標準規格です。Unicode は、冒頭の 256 箇所については Latin-1 とまったく同じです。それ以降の 16 bit 空間には、ギリシャ、キリル、アルメニア、ヘブライ、アラビア、デヴァナーガリー(訳注：サンスクリット・ヒンディーその他を含む現代インド諸語)、ベンガル、グルムキー(訳注：パンジャブ地方の文字)、グジャラート、オーリヤ(訳注：インドの Orissa 州)、タミル、トゥルグ、カンナダ(訳注：インドの Mysore 州)、マラヤーナム(訳注：インド南西)、タイ、ラオス、グルジア、チベット、日本仮名、現代韓国のハングル完全版、中国・日本・韓国の表意文字 (漢字) の統一セットといった文字コードが含まれています。詳しくは、 Unicode ホームページを御覧ください。

Prev	Home	Next
コンピュータはどうやって複数のプロセスが干渉しあわないようにしているのか?		コンピュータはどのようにディスクに情報を保存するのか?

9. コンピュータは情報をどのようにメモリに保持するのか?

9.1. 数字

9.2. 文字