RECONF May.14, 2009 – Debuggin' Everyday

[ MeP の拡張機能を用いた再構成型プロセッサHy-DiSCの性能評価 ]
MeP で逐次処理、DS-HIE プロセッサでストリーミング処理。
データ供給などは MeP が行うので、キャッシュミスが性能低下の要因になるので、メモリアクセスを含んだ部分のシミュレータを構築。
評価アプリケーションは JPEG encoder の DCT とか。
キャッシュは 2-way set associative.
[ 動的リコンフィギャラブルプロセッサ MuCCRA-3 の実機評価 ]
DR な電力評価はなかなか詳細が出てこないので、やってみる。
Interconnect は、island style と直結のハイブリッド。
SMU やめました。ALU とレジスタファイルだけ。SMU のかわりに、シフトとかをやるための回路がALUの入り口についている。
α blender @ 41MHz で 11mW.
データパスの変更とかクロックツリーの電力が大きい。
コンテキスト数は? (井口先生) → 32コンテキスト持っている。
4×4 で評価しているが、もっと大きいのでやった場合の電力評価の結果はどうなると考えられる? (弘中先生) → 待機・実行時の電力を分類したので、PE 数が増えても割合は変わらないと思う。リークは 0.6mA ですごく小さいので、面積が大きくなってもリークが大変、ということはなさそう。
さまざまなアーキテクチャの変更と消費電力削減の関係は (パナソニック上田さん) → いままであまり利用されていなかったことを削ったところが効いていると思う。プロセスが違うので単純な比較ができないです、すいません。
性能は? → 今回は評価をとっていないので、何とも。レジスタを入れたのでクロック数は増える傾向だけど、10% か 20% くらい。
[ Performance and Cost Evaluations of On-Chip Network Topologies in FPGAs ]
2D-Mesh, 2D-Torus, Spidergon, Fat-Tree, Concentrated Mesh の5種類のトポロジを評価。
Spidergon は bidirectional ring だけど、各ノードが反対側のノードへショートカットできる経路をもつ。
Hardware amount (area), bandwidth, latency を評価。
対象デバイスは V4LX200.
トラフィックパターンは、なすぱら、でいいの? (柴田先生) → Yes, HPC on FPGA を想定しています。
[ スモールワールドネットワーク化配線構造による FPGA の消費電力削減 ]
FPGAは配線リソースがたくさん必要。
SWN にして、低負荷容量の配線経路を作る。Activity と負荷容量を考慮した配線。
Activity が高い net は負荷容量の低い配線経路に載せたい。SW ラインは、通過するスイッチブロックが少なく、斜め配線で配線も短いので、負荷容量が小さくなる。
VPR のコスト関数に activity x capacity の項を追加した。P-VPR (power aware VPR) を元にしている。ベンチマークは MCNC. Regular に比べて平均 8.3% くらい電力を減らせる (static power がほんのすこし増えて、dynamic power が減る)。遅延は減ることもあるけど、基本的に伸びてしまう (なんで?? long line 削ったから???)。
static power が dynamic に比べてひとけたくらい小さいのはなぜ？ V4 とかだと、40% くらいが static ですが。プロセスのせいなのかしら (天野先生)? → 評価とるときに、あれ? というポイントがあったので、もしかしたら正しくないかも…
Dynamic は斜め線で短くしたのがきいているのか、ランダムにショートカットできることが効いているのか (天野先生)? → 通過するスイッチが減らせる点が大きいのだと思います。
斜め配線はランダムにつけるようだが、規則正しく斜めに入れるのと比べるとどう? 配線レイヤが増えることには変わりないよね (井口先生@JAIST)? → 以前やった評価ではどちらでもあまりかわりなかったです…
遅延がちょっと大きくなっているのは負荷容量が低い配線を使って遠回りになった、というのがよくわからない。容量が低いのは短いのでは (井口先生@JAIST)? → 迂回よりも long line を削っちゃったことが問題。
飯田先生: 規則的にたくさん入れるより、ランダムに少なくいれたほうが節電になっていい。配線は2層に制限している。電力の削減を目的に frequency が高いのを SW line に割り当ててしまうので、配線が長いやつが SW line に行けずに遅くなったりしているかもしれない。
[ 高いスループットを実現する組み合わせ生成アルゴリズムの提案と実装 ]
[ FPGAを用いたHMMERの高速化 ]
誰が使うのか? という根本的な質問が安永先生から。
でも、次世代シーケンサとかで配列がどんどん出てくるので、計算機のコストと性能もなんとかしなければいけない時代かな、と思います。
[ FPGAを用いた汎用生化学シミュレータにおけるハードウェアモジュール自動生成アルゴリズムの実機評価 ]
演算器のスケジューリングはどうなってるの (弘中先生)？ : DFG を作った後パイプラインを作る時点でやってます (しばたさん)
結合したほうが周波数があがるのはなぜ (名古屋先生) ? : そういうこともあります…
[ インタラクティブ・スーパーコンピューティング環境の実現へ向けて ]
可視化: spatial resolution は高いが、遅延には寛容
可触化: spatial resolution は低いが、遅延にはものすごく敏感
Simulation caching: remote でやっている高解像度の計算と、local でやっている低解像度のシミュレーションを協調させる。力覚のほうは local のをリアルタイムで、視覚のほうは remote のをデータが届き次第呈示。でも、「届き次第」だと、ジッタがあるので、どうしよう。ここは人によって好みが大きく異なる。

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル