Linux ベンチマーク HOWTO: ベンチマークの手順と結果の解釈

2. ベンチマークの手順と結果の解釈

幾つかの若干明白な推奨手順があります。:

最初でかつ主要部分はベンチマークの目的を確認しましょう。本当にベンチマークしたいのは何でしょう ? ベンチマークの過程の最後の意思決定や進化する Linux で何を決定したいのでしょう ? ベンチマークの成果を得るのにどれくらいの時間と資源をかけられますか ?
標準的なツールを使いましょう。最新で、安定版のカーネル版で、標準的な最新の gcc と libc で (例えば、Linux Benchmarking Toolkit) のような標準的なベンチマークを行いましょう。
お手元の (例えば、LBT レポートの書式の) セットアップについて 完全な説明をしましょう。
一つの変更点だけ分離してみてください。あらゆる所で、相対的なベンチマークは "絶対的な" ベンチマークより有益です。 そんなに筆者は強制できません。
結果を検証してください。出来れば、数回ベンチマークを実行し、結果の変動を検証してください。説明できない変動があれば無効なベンチマーク結果という事です。
ベンチマークの成果が意味のある情報を含んでいると考えたら、正確かつ簡潔に Linux コミュニティーで情報を共有しましょう。
BogoMips については忘れてください。筆者自身に誓って、いつか BogoMips ループ用の超高速の ASIC を実装します。そのとき我々は何を見ているか分かるでしょう。

2.1 ベンチマークの選択を理解する

合成ベンチマーク対アプリケーションベンチマーク

ベンチマークを雑用として時間に費やす前に、基本的な選択として "合成" ベンチマークと "アプリケーション" ベンチマークのどちらかを選択しましょう。

合成ベンチマークは特にコンピュータシステムの独立した構成部分の性能を測定するように設計されています。通常、選択した構成部分の最大能力を使用します。良く知られた合成ベンチマークは元々は 1972 年に Harold Curnow が FORTRAN でプログラムされた Whetstone スイートで、それにもかかわらず現在でも普及しています。Whestone スイートは CPU の浮動小数点性能を測定するでしょう。

合成ベンチマークについての主な批判はこのベンチマークがそのコンピュータシステムの実際の状況での性能を意味するものでは無いという事です。Whestone スイートを例にあげるとメインループが短く、CPU の 1 次キャッシュに簡単にぴったりはめ込まれてしまい、FPU パイプラインを絶えず占有するため、FPU は最高速度で動作します。 25 年前にこのプログラムが作成されたことを考慮するならば、命令のパイプラインの考え方はその頃には存在していません　(Whestone スイートの設計はもっと昔に行われたはずです !)ので、現代の RISC マイクロプロセッサのベンチマークに使うときは、この結果を注意して解釈することを確認しなければなりません。

他の注意すべき合成ベンチマークの非常に重要な点は、理想的には、テストしたシステムの特定の様相を伝えるものであり、他の様相とは独立しています。イーサネットカードの入出力スループットは4 M バイトメモリの 386SX-16 で実行しても 64 M バイトメモリの Pentium 200 MMX で実行しても同じか同様の数値になります。別な方法では、 CPU/マザーボード/バス/イーサネットカード/メモリサブシステム/DMA の組み合わせ全てにわたって測定するテストです。イーサネットカードの変更よりも CPU の変更の方が大きいので全然使い物になりません。もちろん、同じカーネルとドライバの組み合わせで行ってもより大きな変動が起こります。

最後に、とても一般的な間違いは色々な合成ベンチマークの平均をとることと、このようにして得た平均がそのシステムに対する実際の性能の良い表現であると主張することです。結果は二つの非常に異なる理由から使えません。

種々の構成の相対的な強弱を比較する場合は、関連する情報は平均操作で結局失われてしまいます。
種々の合成テストは実世界の仕事を一緒にこなすような色々なサブシステムの性能については何も教えてくれません。

ここでは Cyrix Corp. の許可を受けて Web サイトを引用して FPU ベンチマークに対するコメントとします。:

"浮動小数点ユニット (FPU) は浮動小数点計算を使用するソフトウェアをより高性能化します。CAD プログラム、スプレッドシート、 3D ゲームと 3D 設計アプリケーションが代表的なものです。しかしながら、今日の殆んどの一般的な PC アプリケーションは浮動小数点と整数命令の両方を使っています。結果的に、Cyrix は 6x86 プロセッサの設計においてこれら 2 種類の命令が混在しているソフトウェアを高速化する為に "並行化" を強調することを選択しました。

x86 の浮動小数点例外モデルは浮動小数点命令を実行中に整数命令を発行し完了することを許しています。2 回目の浮動小数点命令は前の浮動小数点命令の実行中は実行開始できません。浮動小数点例外モデルによって引き起こされた性能限界を取り除くには、6x86 が整数命令の実行中でも推論的に FPU に内蔵した 4 つの浮動小数点命令を発行できるようにしました。例えば、2 つの浮動小数点命令 (FLT) の次に 6 つの整数命令 (INT)、続いて 2 つの FLT を順番に実行するプログラムの場合は、 6x86 プロセッサは全ての 10 個の命令が、最初の FLT の完了前に適切な実行ユニットに対して発行できます。実行誤りが無い場合 (典型的な場合) は整数ユニットと浮動小数点ユニットの両方が命令を並列に完了します。実行誤り (異常な場合) が一つでもあれば、推論的な 6x86 の実行性能はこのような方法では x86 の浮動小数点例外モデルと変らない所まで低くなってしまいます。

ベンチマークテストの調査は、純粋な浮動小数点だけの合成浮動小数点ベンチマークは実世界のアプリケーションには無いものであるということを明らかにしました。このタイプのベンチマークは 6x86 プロセッサの実行能力の推測には役に立ちません。Cyrix は非合成な実世界のアプリケーションを基礎にしたベンチマークの方が実際の優秀なユーザの仕事をより反映すると思っています。実世界のアプリケーションは整数と浮動小数点命令の混在したものなので、従って 6x86 の推測的実行性能が役立つのです。"

実際、最近のベンチマークの傾向は一般のアプリケーションを選択し、完全なコンピュータシステムの性能をテストするのにアプリケーションを用います。例えば、SPECです。良く知られた SPECint と SPECfp の合成ベンチマークスイートを設計した非営利団体 SPEC が、新しいアプリケーションベンチマークスイートのプロジェクトに乗り出しました。しかし又、SPEC ベンチマークが GPL に従うコードに含まれるのは非常に好ましくありません。 LBT 内に含まれるテストを LBT 以外のほかの場所から探してこなければいけなくなるからです。

要約すると、合成ベンチマークはそれらの目的と限界を理解すれば役に立ちます。アプリケーションベンチマークはコンピュータシステムの性能をより良く反映するものですが、Linux システム用の標準的なアプリケーションベンチマークスイートは利用できるものはありません。

ユーザレベル対マシンレベルベンチマーク

マシンレベルベンチマークはハードウェアの性能を直接測定するものです。測定するものは CPU クロック、DRAM メモリとキャッシュ SRAM のサイクル時間、バードディスクアクセス時間、潜在時間とトラック間移動時間等々、です。これらはシステムを買った時やどんな部品でシステムが構築されているか不思議に思ったときに有効です。しかしの部品を調査するより良い方法は、マイクロコンピュータのふたを開けてどんな部品があるか数え上げ、何とかしてそれぞれの部品のデータシートの一覧を得る方が有効です。通常インターネットを用います。

他にマシンレベルベンチマークのより良い使用方法はカーネルドライバが正しくハードウェアの仕様通りに構成されているかチェックする事です。これは部品のデータシートを持っている場合、マシンレベルベンチマークの結果と理論上の製造者の仕様とを比較できます。

ユーザレベルベンチマークはマイクロコンピュータの特定の角度から見たハードウェア/ドライバ/OS/コンパイラの組み合わせに関係しています。例えば、ファイル入出力性能とか特定のハードウェア/ドライバ/OS/ コンパイラ/アプリケーションの性能をみます。つまり色々なマイクロコンピュータ上での特定の Web サーバパッケージのベンチマークや同じプラットフォーム上での色々な Web サーバパッケージのベンチマーク等です。

2.2 Linux で可能な標準ベンチマーク

カーネルのコンパイル

個人的な意見ですが、Linux マシンの部品を交換して改善したときだれでも実行できる簡単なテストはカーネルのコンパイルを起動することです。ハード/ソフトウェアの改善前と後の時間を比較してみましょう。その他の条件を同じにして(つまり例えばカーネルの設定を変えない場合)おかないとコンパイル性能の測定は役に立ちません。よって、その次のような言い方が自信をもって言えるでしょう。

"A を B に変更したらそのシステムとその条件で Linux のカーネルのコンパイル時間が x % 向上した"。

それ以上でもなく、それ以下でもありません。

カーネルのコンパイルは Linux の下では普通に経験する作業で、殆んどの関数が使用されるので (浮動小数点性能を除く) 通常のベンチマークに使用されます。かなり良い個体テストという性質があります。殆んどの場合、他の Linux ユーザがこのようなテストで同じ結果を再現できないその理由はハード/ソフトウェアの構成が色々あるのと、この種のテストが異なるシステム間の比較に使う "ものさし" が無いことです。(我々全員が標準的カーネルをコンパイルする場合を除きます - 後述参照のこと)。

Linux 固有のベンチマークツール

Linux 固有のベンチマークツールは未だありません。しかしながら、多くの Unix ベンチマークツールがあります。例えば、 David C. Niemi によって改良され、更新されている Byte Unix Benchmarks も一緒に置いてあります。これは以前のバージョンと混乱しないように UnixBench 4.10 と呼ばれています。ここに David が行った変更点について書いています。:

"原作と若干変更した BYTE Unix ベンチマークはまったく当てにならないシステム性能の指標を示す数多くのふるまいで止まってしまいます。故意に "指標" の値を古いベンチマークの混乱を避けるようにかなり異なったものにしています。"

Byte Linux Benchmarks は David が 1991 年 5 月にさかのぼった Byte Unix Benchmarks を少々変更したもの (Linux 用の変更は Jon Tombs が行い、原著者は Ben Smith, Rick Grehan と Tom Yager) です。

Byte Linux Benchmarks 用は中央に Web サイトがありますが、新しい UnixBench ベンチマークを使用して開始することをお勧めします。Unixbench について質問がある場合は Linux とその他の OS についてのベンチマークに関する検討を行うように設定したメーリングリストを通じて David に連絡することを提案します。"subscribe bench" というメッセージの本文を majordomo@wauug.erols.com に送付して参加して下さい。

また最近、 Uwe F. Mayer が BYTE Bytemark スイートを Linux に移植しました。これは最新のスイートで Rick Greha により BYTE Magazine がテストした最新のマイクロコンピュータシステムの CPU, FPU とメモリシステムの性能と一緒に苦心して置いてあります。(厳密に言えばこれらのベンチマークはマイクロプロセッサ性能よりのベンチマークで、入出力とかシステム性能とかは勘定に入っていません。)

Uwe はまた Web サイトに Linux BYTEmark ベンチマークの彼のバージョンでのテスト結果のデータベースがあります。

X サーバとグラフィックカードの相対的な性能をテストするには、 Claus Gittinger による xbench-0.2 スイートが sunsite.unc.edu, ftp.x.org とその他のサイトから利用可能です。どちらかといえば古く個人的には最近の加速化された X サーバの性能を正しく反映していないと思います。 Xi Graphics の Jeremy Chatfield の意見を引用します。:

" 最近のベンチマークは多くの弱点があります。例えば、"ユーザ応答性" つまり、ユーザがマウスやキーボードの変更に対する画面の応答速度がどれくらい速いのかという事を示すことができません。一つの代表的なベンチマークはテキストを良く使う人の需要とか、 X サーバ上でグラフィックスプリミティブからイメージを作成する人とは別に予め計算されたグラフィックを良く使う人以外には助けにはなりません。ほとんどの現在のベンチマークはマザーボードのメモリ->ホスト-CPU->PCI チップセット-> グラフィックボードの帯域幅を表示するものです。これは一つの数値 *です* が、高速化された X サーバを反映するものではありません。"

Xfree86.org は (賢明にも) 如何なるベンチマークも保持および推奨も辞退しています。

XFree86-ベンチマーク調査は xbench の結果のデータベースを置いている Web サイトです。

純粋なディスク入出力のスループットについては hdparm プログラム (殆んどの配布物に含まれていますが、sunsite.unc.edu からも入手可能です) は -t と -T オプションをつけて実行すると転送速度を測定できます。これは典型的なマシンレベルベンチマークです。

他に色々な角度から Linux マシンの性能をテストするフリーなツールがインターネットで入手可能です。Linux ベンチマークプロジェクト Web サイトにほとんど全てのリンクがあります。このサイトは Washington Area Unix Users Group がインタネット上で Linux 用の中央貯蔵所として特定用途に設定しています。しかしながらまだまだ作業中です。

2.3 その他のリンク情報と参考文献

Dave Sill による comp.benchmarks FAQ はベンチマークについての標準的な参考文献です。Linux 特有ではありませんが、ベンチマークについてまじめに取り組むすべての人に読むことをお勧めします。幾つかの FTP や Web サイトと 46 の種々のベンチマーク の一覧がそれぞれの保持先のリンク情報と一緒に含まれています。全てのベンチマークは無料で利用可能でないです。幾つかはかなり高価 (例えば SPEC への参加は有料) で、幾つかは GPL に準拠しています。

筆者は comp.benchmarks FAQ が言及しているベンチマークのそれぞれの調査は出来ませんが、筆者が批評したい Larry McVoy による lmbench スイートに最低 1 つのマシンレベルスイートがあります。David C. Niemi の言葉を引用します。:

"Linus と David Miller は幾つかの有用なマシンレベルの測定とネットワークスループットの測定と 2 つのマシンでテストしたときのネットワーク潜伏時間の測定に使っています。しかし、全てが "価値ある数字" ようにはならないと思います。"

Alfred Aburto によるかなりまとまっていて 無料で 利用できる FTP サイトがあります。LBT に使用していた Whetstone スイートがこのサイトにあります。

comp.benchmarks に定期的に投稿されている Eugene Miya による長編の複数編にわたる FAQ があります。これは大変面白く、雨の日に読むのに良いでしょう。次の引用をせずにはいられません:

ベンチまーけてぃんぐ: The Art of Selling Inferior Goods インテリア商品の営業の技巧より

John L. Larson CSRD, University of Illinois at Urbana-Champaign ...

技法 8 - 一定に保たないこと

* アセンブラのライブラリルーチンを使用してマトリックス乗算を行う A を使用する

* FORTRAN を流用して計算する B を使用する

* 性能測定をする

* 結論: A が B より高速である

* 推論: 林檎とオレンジは両方とも果実である

技法 9 - A で得たことと最新の B で得たことを比較する

* A が 3 年間利用できることが知られている

* B をベンチマークする

* 実行速度を比較する

* 結論: A が B より高速である

* 推論: 明日の問題は昨日解決している 技法 10 - A と B の先輩を比較する

* A をベンチマークする

* Illiac I でのベンチマークの記事から性能表を思い出す

* 性能を比較する

* 結論: A は HAL-9000 より高速である

* 推論: イリノイ大にある全てのマシンは遅い

次のページ前のページ目次へ