■地球シミュレータ(横浜研究所)

西村屋トップメニュー>地球科学の話題>耳学問気楽にメッセ−ジ・ボードへ検索エンジン
 
2012年2月24日更新

=>公式サイト
=「スパコン用語」へのショートカット
=「数値モデル/計算コードのいろいろ」へのショートカット

(どのように計画されたか)

・1982/83年のエルニーニョは世界で1兆円の被害があったといわれている。エルニーニョなどの異常気象を半年〜1年前に予測できれば、被害の発生を最小限に押さえることができる。
・現在の海洋大気結合モデル(水平解像度50〜100km)では、地形効果や雲・降水などの気象現象を精度よく表現できないため、水平解像度5〜10kmへの高解像度化を目標とする。
・大気大循環モデルではカオスの問題がある。そこでアンサンブル法といって、少しずつ異なるいくつかの初期値で計算したものを平均する必要があり、さらに計算時間がかかる。
・このため、5 TFlops(テラ・フロップス。1 TFlopsは1秒間に1兆回の計算性能)の実効性能を持つスパコンが必要とされた。

・もうひとつ計画時に論議されたこととして非圧縮性流体の問題がある。当初、研究者サイドは海洋大循環モデルに関しては共有メモリ型のスパコンでなければ実用的な速度は出ないと考えていた。すなわち、領域を多数に分割して並列で計算しても、非圧縮性流体の場合にはすべての領域が互いに影響しあうため、計算ノード間のデータのやりとりに足を引っ張られて実効速度が出ないというもの。
 そんな懸念を払拭するため、地球シミュレータ(以下「ES」)は単に各計算ノードを高速化するだけでなく、各計算ノード間のデータ転送速度についてもロスを生じないよう、徹底的な高速化対策が採られることになった。

(ESの仕様は?)
・1プロセッサの性能:ピーク性能8 GFlops(ギガ・フロップス。1G Flopsは1秒間に10億回の計算性能)のベクトル・プロセッサ(0.15μmプロセスの1チップ、CMOS(相補性金属酸化膜半導体)、500MHz)。

・1計算ノードの性能:8個で同64 GFlopsの計算ノード(共有メモリ16GBの多量ベクトル・プロセッサ)を形成。このノード2個分で当時の主流スパコン(NECのSX-5など)の性能に匹敵。
・この計算ノード640台(プロセッサ総数5,120)で同40 TFlops(実効性能は計画上、この12.5%の5 TFlops、分散メモリの合計10TB)。

・ノード間結合ネットワークとして「単段クロスバー・ネットワーク方式」(双方向12.3GB/sec)を採用している。
・ネットワーク・ケーブル:83,200本、総全長2,400km、総重量217トン。意外にも光ファイバーではなく電線。CPUやメモリを動作させる電気信号を光信号に変換する速度がネックになって、光ファイバーで結ぶ費用対効果が得られないという判断だったそうだ。

・1997年に当時の宇宙開発事業団と日本原子力研究所により開発開始。開発費は本体が400億円、建屋(空調含む)が70億円。2002年より運用開始。

(ESの性能は?)
 LINPACKベンチマークテストで実効性能を競う「Top500」で、2002年6月に35.61 TFlopsの記録で一位。それ以前の1位は米国ASCI Whiteシステムの7.226 TFlopsだった。
 一方、実アプリケーションの実効性能等を競う「ゴードン・ベル賞」では、2002年に大気モデルAFES26.58 TFlops(ピーク性能比64.9%)を達成し、最高性能賞を受賞している。また非圧縮性流体の乱流計算では、512ノードで16.447 TFlops(ピーク性能比50.2%)。これで同年の特別賞を受賞している。
表1:ゴードン・ベル賞

 もともと10kmメッシュでの全球シミュレーションを目標として開発されたESだが、開発目標の3倍以上の実効性能を出しており、AFESに雲解像非静力学モデルNICAMを組み込んで3.5kmメッシュの全球シミュレーションに成功している。さらに、連結階層シミュレーションMSSGで雲の領域を水平解像度1.9 kmで全球シミュレーションすることにも成功し、次世代でなければ不可能と考えられていた全球1kmメッシュに迫る成果を挙げている。

(その後のランキング)
 運用開始の2年半後の2004年11月、Top500の1位の座がIBMのBlueGene/L(以下「BG/L」。IBMの解説、pdf)に明渡され、地球シミュレータ(ES)は3位となった。トップの座は2年ぐらいとの開発者側の予想どおり。

=>TOP500 Supercomputer Sites>ランキング・リスト:2002年6月2003年6月2004年6月2004年11月(3位)/2005年6月(4位)/2006年6月(10位)/2007年6月(20位)/2008年6月(49位)/2008年11月(73位)

 LINPACKはデータの再読み込みをキャッシュから行うことで高速化が図れるスカラー機に有利なベンチマークテストであり、データをメモリから毎回読み込む(代わりに多数の演算機で複数命令を一度に実行する)ベクトル機であるESが2年半の間1位を維持できた方が異例ともいえる。
 2002年マシンであるESがTop500に載るのはこれで最後となり、それ以降は2009年4月より稼動したES2(SX-9/E)にバトンタッチされた。

 2008年のランキング500台のうち、2002年マシンはESのみ。2003年マシンは0台、2004年マシンは176位のIntel Itanium2 Tiger4の1台のみ。2005年マシンは25位のIBM Blue Geneほか4台である。うちベクトル機がついにESのみとなり、その他のベクトル機は500位圏外に去っている。

2009年6月:後継機ES2(後述)のLINPACKベンチマークの結果が出た。122.4TFlops(ピーク性能131.072 TFlopsの93.38%)で、2008.11時点のTop500の16位に相当する。実効効率の点ではTop500中で最も高い(2009.6.4プレス発表)

(スカラー機 vs.ベクトル機)
 2009年のランキングで1位のRoadrunnerのLINPACK実効性能(1,105 TFlops)はES(35.86 TFlops)の実に31倍であるが、キャッシュからの再読み込みができない大容量のデータを扱う気候変動シミュレーションの性能はどこまで上がっているだろうか?
 プラズマ物理(LBMHD), 材料科学(PARATEC), 天体物理(Cactus), 磁気核融合(GTC)についてESとIBM Power3/4、Altix、Cray X1の性能を比較した以下の論文(2004年)ではESが一人勝ちしているが、これには気候モデルは含まれていないので参考にならない。
=>Scientific Computations on Modern Parallel Vector Systems

 その後、BG/Lによる大規模非圧縮流体計算と高解像度大気大循環計算の結果が公表されている。
項目ESBG/L(65,536 processor時)
ピーク性能40.96 TFlops183.5 TFlops
LINPACK実効性能
(ピーク性能比)
36.86 TFlops
(90%)
136.8 TFlops (75%)
非圧縮性粘性流体
実効性能
(ピーク性能比)
16.447 TFlops (50.2%)2.76 TFlops (1.5%)
Andrew W. Cookほか, "Tera-Scalable Algorithms for Variable-Density Elliptic Hydrodynamics with Spectral Accuracy"
大気大循環
実効性能
(ピーク性能比)
26.58 Tflops (64.9%)
(AFES)
推測値で 12.8 TFlops (7%)
John Michalakesら"Weather Research and Forecast Nature Run"pdf

 このように、大規模な非圧縮粘性流体計算では圧倒的な差があり、相当の価格差があってもベクトル機の優位は歴然としている。一方、高解像度大気大循環の計算は圧縮性気体だからだろうか、BG/Lでも7%程度の実効性能を出しているが、やはりベクトル機の優位性は明らかである。しかもBG/Lの性能を引き出すためにプログラミングに相当苦労したようである。

 さて、これだけ差が歴然としているなら、通常の天気予報はともかく、海洋大気結合モデルを扱う研究機関ではベクター機が優位でなければおかしいが、2008年11月のTop500に登場するいくつかの気象研究機関でベクター機を採用しているところはJAMSTECだけとなってしまった。これはなぜだろう?
 そのような疑問から、IPCC/AR4で予測シミュレーションを行った研究機関など世界の主要な気象研究機関をリストアップし、そのサイトから使用スパコンを調べてみた。

表2:各国の気象研究機関のスパコン

 その結果、政府調達品に関するバイ・アメリカン法のある米国はやはりダメと思ったら、よく調べてみると、世界の気候研究の中心的存在といえる米国立大気研究所NCARが、なんと自分の気候モデルCCSM3をわざわざES用に移植し、IPCC/AR4にESを使った大量の計算結果を提出していたのだ。
 そのほか環境研究に熱心なドイツを初めとして欧州ではSXシリーズがよく採用されていることが分かる。
 ただし最近、韓国KISTI、米ARSC、独DKRZ、仏L'IDRIS、英ハドレー、デンマークDMIがSX-6からスカラー機に転換しており、安価なスカラー機で可能な範囲が着々と広がっている。必要ならESや独HLRSなどを外部利用できるという気象機関の台所事情があるのかもしれない。

 米政府もベクトル機を認めている証拠として、Cray社は米軍にベクトル機を非公表で供給し続けているほか、2006年に米エネルギー省DOEと約2億ドルの複数年契約を結ぶ中で民生用ベクトル機の開発も進め、2007年にはベクトル機Cray X2とスカラー機のハイブリッドであるCray XT5hを発売している。ハイブリッド路線であるのが興味深い。
=>米国のスーパーコンピュータ開発状況について(2007年3月27日)

2011年:フランス気象庁がSX-9(6+7ノード、計208プロセッサ)を導入し、同庁の大気モデルであるARPEGE-IFS(大気モデル)についてCERFACSが保有するBlue Gene/L(2048ノード、4096コア)との性能比較を行った(Performance of ARPEGE-NEMO Coupled Model on NEC SX9 and IBM Blue Gene L)。
 このpdfの5ページ目に結果があり、説明不足でよく分からないが、SX9の4ノード以下で両者が同等性能となり、BG/Lは200ノードを超えるとスケーラビリティーが悪化する。海洋モデルのNEMOだとスケーラビリティーがもっと悪くなるようだ。

(リプレース)
 2002年に運用開始されたESは、通常のスパコンが4〜5年でリプレースされるところ、遅ればせながら、入札によりNECのSX-9/E(ピーク性能131 TFlopes、合計メモリ20 TB)が採用され、2009年3月末に運用開始されることとなった。実アプリケーションベースで実効性能が2.2倍になる(2009.2.20のプレス情報)による)。これは領域を640分割から160分割へと単純に手直ししただけの結果である。SX-9のプロセッサにはAssignable Data Bufferというユーザーが指定したデータ用のキャッシュが備えられているので、これをうまく利用するよう手直しするともう少し性能が上がるかもしれないとのこと。
 電力消費は建屋の空調も含めて約7割に、設置面積は約1/3に、年間運用費は従来の金額内に収まるという。

 2007年10月に発表されたNEC SX-9(1ノードのcpuが16、共有メモリが〜1TB)に比べ、今回のSX-9/Eは1ノード8cpuで160ノード。したがって1ノードの共有メモリは125 GBに押さえられていることになる。
 ノード間の接続は電線ではなく光ファイバーであるが、すべてのノード間を1ステップで繋ぐ単段クロスバーではなく、2段階のFAT-TREEで、常時接続ではなくパケット方式となっている(The outline of the Earth Simulator (ES2)ES2 System ConfigurationSX-9のハードウェア技術〜ノード間スイッチ)。メモリの性能も足を引っ張っているようだ。
表3:ベクトル並列機の性能比較

2009年2月:東北大に納入されたSX-9(16プロセッサ×16ノード)がLINPACKに代わるベンチマークテストであるHPC Challengeの何種目かで1位を獲得している。いずれもプロセッサ単位での性能であって、システム全体の性能についてはCray XT5とBlue Gene/Lが1位を分け合っているが、両機はプロセッサが数万以上の巨大システムであり、256プロセッサの東北大SX-9がシステム性能でかなわなくとも不思議ではない。
表4:HPC Challenge性能

2010年11月: ES2がHPC ChallengeのGlobal FFT(高速フーリエ変換の総合性能)部門で1位(11.876 TFlops)となった。

2011年6月:京コンピュータがLINPACベンチマークテストでTop500の第一位を獲得。(9.162ペタフロップス)

2011年11月:京コンピュータがTop500で2期連続で第一位を獲得。(10.51ペタフロップス、実行効率93.2%)
 HPC ChallengeのGlobal HPL(大規模な連立1次方程式の求解における演算速度)部門、Global RandomAccess(並列プロセス間でのランダムメモリアクセス性能)部門、EP STREAM(Triad)per system(多重負荷時のメモリアクセス速度)部門、Global FFT部門の4部門で一位を獲得。
 ES2はGlobal FFT部門の2位。京が34.7テラフロップスで実行効率0.3%に対し、ES2は11.9テラフロップスで実行効率9.1%だから、実行効率では京の30倍。

(ハイブリッド?)
 ベクトル機が流体計算を得意とするのに対し、分子動力学ではスカラー機が費用対効果に優れており、このほか宇宙線による雲の凝結核の生成や、津波による構造物の破壊など玉突き現象的なものはスカラー機が有利。
 このように地球科学分野でもベクトル機とスカラー機のハイブリッドのニーズが高まりつつある。前述のCray XT5hはこのような初めてのハイブリッド機であるが、IEEEでもスカラープロセッサとベクトルプロセッサがメモリを共有する規格の制定作業も行われているとのこと。

 スカラー機以外に、GRAPEシリーズのコストパーフォーマンスの高さが注目される。LINPACKベンチマークテストでは性能比較ができないが、最近では分子動力学専用のMDGRAPEが2006年ゴードン・ベル賞の佳作を獲得している。今回、ベクター機と専用機又はスカラー機の組み合わせは、開発を要するということで実現しなかったそうが、今後とも注目したい。

表1:ゴードン・ベル賞のGRAPEシリーズを参照)

その他の保有スパコン
 2012年4月より以下の通り更新される。
・スカラー型並列計算機 SGI ICE X(154.56 TFlops/31 TB, Intel SandyBridge 2.6 GHz, 6912 core/ 864 CPU), SGI UV1000 (10.8 TFlops/4 TB, Intel Westmere-EX 2.66 GHz, 1024 core/4 TB×1ノード)
・ベクトル型計算機 NEC SX-9F/16A(16 CPU/1 TB×2ノード)


西村屋トップメニュー>地球科学の話題>耳学問気楽にメッセ−ジ・ボードへ検索エンジン