リコンフィギャラブルシステム研究会: Nov.17, 2008

[ 反転・非反転ダイナミック転光再構成アーキテクチャのエミュレーション試験 ]
静岡大の渡邊先生の学生さん。
ダイナミック光再構成アーキテクチャ: SPD で受けた信号をメモリに蓄えるのではなく、SPD の接合容量をメモリとして用いることでメモリを省略し、面積を削減する。試作に成功している。
差分光再構成アーキテクチャ: 再構成速度を向上するにはコンテキストの輝度を上げる必要がある。これにはコンテキストの明点を削減するのが効果的で、差分再構成が効果的。
反転 SPD は、複数のビットをまとめてひっくり返すのに使い、照射ビット数の削減に役立つ。メモリがある場合には簡単だが、メモリなしのダイナミック光再構成アーキテクチャに適用。
実験で使ったチップはメモリがついているが、それを無効化して使った。0.35um プロセスのチップで、波長 850nm のレーザー。再構成時間は 1.22 倍向上。
前の発表よりも再構成時間が延びている気がしますが、方式をかえたから? (名古屋先生)
→ 使っているレーザーの出力が弱いのが原因で、前の実験と同じレーザーを使えば nsec オーダーになるはず。
プロセスが縮んだら密度があがるの? SPD の間隔が重要そうですが (大阪市立大・牧野先生)。
→ まだまだいけます。いま使っている SPD は大きいですし。
[ 光再構成型ゲートアレイのホログラム部の組み立て精度について ]
ホログラムとチップがちゃんと正しい角度で入らなかったことを想定して、ホログラム側でそれを補償できるか、という実験。
ずれがわかっていればできる、ということだと思うが、どうやってそれを検出してホログラムを選択するのか? (NEC 梶原さん etc)
→ 計測手段がなくても、いくつかホログラムを作っておいて、それを取り替えて試すことで再構成できるようになる、というのがメリット。組み立て後にホログラムを差し替えられる、という前提。
再構成エラーとか (ビットが欠けてしまうとか) は考えない?
→ それはもちろんあると思うが、そのあたりまで含めて総合的に対応のしかたを提案していきたい。
一枚目のコンテキストをいろいろやってずれを検出して、二枚目以降のコンテキストを書き込むときはそれで求めた誤差を使えばいいのか。なるほどー。
[ 低エネルギーを目的とした大規模リコンフィギャラブルプロセッサアレイSMAの予備評価 ]
Silent Mega Array.
CREST のやつ。エネルギー消費を 1/100 にしたい。
細粒度 power gating を用いた CPU (Geyser) を作った。
でも、SoC で embedded CPU の消費エネルギーはわずかなので、次は SoC 中の汎用アクセラレータがターゲット?
DR の消費電力解析:
– 効率は DSP の 1/8 – 1/10 くらい
– 動的 reconfiguration は無駄が大きい
– クロック分配も
解決策:
– とにかくアレイを大きくして詰め込んで、使わないところは power gate すれば?
– 組み合わせ回路とレジスタ部を分離して、組み合わせ回路のところだけ電圧を落とす
PE array は組み合わせ回路のみでレジスタをもたない。PE array の下にレジスタファイル。PE は粗粒度で、MuCCRA から持ってきた。
16×7 PE で、65nm の 8mm 角。
PE 1段あたり 5.8nsec 、SE 1.2nsec の遅延。
2次元 DCT が 16 clk, 10MHz くらいで動きそう。
MuCCRA-1 の 4.8 倍速い。
電圧制御可能な部分の面積は 87% 。
[ マルチコンテキスト型リコンフィギャラブルプロセッサにおけるデータ並列タスクの処理法 ]
井口先生 @ JAIST のところ。
DRP-1 だ!
DR なチップを使って処理をするには SIMD が有効だが、SIMD array に充分なデータを供給するのは入出力ポートの制約があって、ちょっと大変。ストリーミングだと、入力・処理・出力・入力… となり、入出力がしんどいが、これをパイプライン的に行うことで解決。
DRP-1 のタイルを、IT: Input Tile, PT: Processing Tile, OT: Output Tile に分ける。IT は外部からの入力、OT は外部への出力を行う。それぞれのタイルは独立して動作させ、処理と入出力を常にオーバーラップして行うことで、入出力のオーバーヘッドを隠蔽。
DRP じゃなくても使えると思うんですが (NEC 梶原さん)
→ そうです。DRP の場合は部分再構成が簡単にできることと、コンテキストスイッチができることがあるので、より有効です。
IT とか OT とか PT は、これ以上分割してパイプラインにはできない? (名古屋先生)
→ 難しそうです。
[ 粒度可変論理セル向けローカルインタコネクト構造の提案と評価 ]
VGLC は 21 本も入出力ピンがあり、接続が大変そう。
セルのアーキテクチャ自体をいじるのは大変なので、VGLC と connection block の間に LCB というのを入れて、信号数を削減することにする。
素直に作ったら、VGLC が 682Tr に対して LCB が 3484Tr と、大きくなりすぎてしまった!
削減する方法を検討して、4種類を実装。
LCB を入れることでどれくらいハッピーになれるのでしょうか (名古屋先生)
→ まだ外部配線などの評価ができていないので、どうなるかはわかりません。
入れないほうがいい、ということもありうる?
→ 条件によってはそうなります。外部配線をどれくらい入れるか、とかがまだ決まっていないので一概には言えないが、外部配線をたくさん用意した場合には LCB が必要なのではないかと思う。
[ Turnモデルに基づく二次元トーラス網の適応ルーティング ]
2D mesh 向けの、North First ルーティングを 2D torus に適用するためのNF+1 というルーティング手法の提案。
むむー、わしゃこういうのは苦手じゃけー、みんなかっこよく見える。
[ 階層型相互結合網における適応型ルーティングのハードウェア実装コストの検討 ]
オンチップマルチプロセッサ向けの階層型相互結合網 TESH に適応型ルーティングを適用する、というお話。
TESH の一番下は mesh. それをいくつか torus でつなぎあわせた形。
制御回路を VHDL で実装し、FPGA をターゲットとして評価。ルーティングアルゴリズムの実装を追加したことによる HW 量の増加は少ない。
ターゲットデバイスは何? (ふんがさん)
→ わかりません (なんだってー!!)
ISE Webpack だから SPARTAN かなぁ。でも初代かなあ。
シミュレータでの性能評価と実装での性能評価に差があったりする? (宇都宮大 森さん)
→ 今回はルータに入ってから出るまでの時間の評価なので、いままでやっていたものとは違う (という趣旨であってるかな)
[ FPGAのスイッチマトリクスを対象とするソフトエラー対策 ]
配線要素のエラーを検出する必要もあるよね。
– 3重化多数決論理パストランジスタ (MAJ: 既存手法)
– ASRAM (asymmetric SRAM) を使う (提案手法)
など。
パストランジスタを二重化したりしても、MAJ は自乗のオーダーなので非常に強くて、なかなか勝てない。しかし、メモリを二重化することで間違って on になる確率、off になる確率ともに改善。実際の configuration bit の 0/1 の偏りを考えると、ASRAM でも充分いける。2重化だと、トランジスタ数でもMAJに勝てる。3重化はさすがにダメ。
宇宙とか地上とかは想定されていますか? (尼崎先制)
マルチビットSEU を想定されている?
→ はい
FPGA では配線部がほとんどになっているわけだが、それを多重化するということは現実的なのでしょうか?
→ 難しいのではないか、と思うのでこれから評価をしていきたい。
[ 高性能差分法計算のためのFPGAアレイにおけるFPGA間通信機構の検討 ]
差分法を解くためのアレイ型計算機を FPGA で作る。
パイプラインが複数の FPGA にまたがるのと違って、PE がいくつか FPGA に入っていて、隣接 PE / FPGA 間では差分をとるための通信だけをすればいい、というのだとバンド幅が少なくてもすむのかな…
PE の中身は積和演算。
パイプラインが FPGA 間にまたがる場合と、PE がうまく FPGA に収まる場合は全然違う? (おさな)
→ そりゃそうです。PE のなかのパイプラインはぎっしり詰まってるし、制御信号もあるし… 今回の実装は、PE の中身が積和演算なので、わりとうまくいっているけれど。
あーあーあーあーあー、そうだよなー。
そううまくはいかないよなー。むー。
しかし、粗粒度デバイスみたいな感じだが、そういう単位で PE を作って何とかする、というのはヒントになったような、ならなかったような。

コメントを残す