RECONF @ Shizuoka: Sep.17, 2010

[ 光再構成型ゲートアレイにおける MEMS アドレッシング技術 ]
レーザーをたくさん用意する代わりに DMD で反射させたレーザーをホログラムメモリに照射する。これはものすごくたくさん (億オーダー) のコンテキスト数を持たせるために必要。
[ COGRE: 面積削減を目的とした少構成メモリ論理セルアーキテクチャ ]
よく使う論理関数をプロファイリングして、LUT じゃない最適化された論理セルを作る。
論理セル数は減るんだけど、配線が増加するのが問題。
面積は論理合成ツールのところで評価しており、レイアウトした結果ではない。
[ An Error Detect and Correct Circuit Based Fault-tolerant Reconfigurable Logic Device ]
– mitigates up to 2bits SEUs
– on the fly scrubbing
– EDC has 6.8-10 times dependable than a tile level TMR structure
is EDC for only COGRE?
LUTにも使える。but COGRE has less memory, so it’s more effective.
MTBF はどうやって計算している?
Xilinx が発表している SEU 頻度についてのデータがある。10^6 秒 (時間) で何ビット壊れる、みたいな。
[同期/非同期ハイブリッドアーキテクチャに基づく低消費電力FPGAの構成]
非同期回路は動いてないときは電力食わないけど、動くとたくさん使う。なので、動作状況に合わせて同期回路と組み合わせることで電力を最適化することができる。
ふつうの island style FPGA なんだけど、logic block に同期モード・非同期モードがある。ただ、ブロックがでかくなっちゃうんだけど・・・
非同期のところは ack を返す必要があるわけだけど、それは LB ごとに handshake して ack 返すの?それだと細かすぎませんか → いまのところは。本当は何ステージかまとめて handshake できるようにしたいのです。
非同期と同期の連動のためには FIFO があちこちに入っているらしい。
リークはどうせ非同期でもあるわけで、そうすると使用面積が問題になるから、そこまで考慮したほうがいいのでは → 考慮してます。
[マルチコンテキスト型動的リコンフィギャラブルプロセッサからコンテキストメモリをなくす方法の提案]
えええええ?
コンテキストメモリをやめてレジスタに置き換える。
コンテキストの実行時間をなるべく長くする+コンテキスト情報の流し込みを高速化する。
Loop unrolling に似ているけどちょっと違う方法 (LSKD) というのを提案してみた。
これでコンテキストあたりの実行 (滞在) 時間を長くするんだけど、コンパイラによる変換だけではだめで、ループカウンタとかそういう付加ハードウェアが必要。
流し込み高速化にはマルチキャスト(ROw MULTIcast Configuration) とか差分再構成とか。
実行時間はループ依存性にもよるが、13〜18% くらい増える。実行時間増大の抑制には差分再構成が有効。
面積と電力はがっつり (60%くらい削減!) 減る。
いまのところループの変換は手作業でやってるのでコンパイラへの組み込みが問題。
コンテキストあたりの滞在時間を増やす手法は既存の MuCCRA でも使える?→ Yes
バスでガンガン送り込むのはけっこう電力食うのでは?→意外とそうでもない。
LSKD 使うと中間結果をとっておかないといけないので、実は configuration memory が減った分 data memory が増えていたり… → おっしゃるとおりなのですが、もともとあったレジスタを使っているので、まあ、それほどずるくはないかな。
[再構成回数削減による動的リコンフィギャラブルプロセッサの消費電力削減手法の提案]
同じ処理をコンテキスト切り替えの際の再構成あり・なしでやってみたら、だいぶ電力が違う。
そうすると、コンテキストが切り替わってもなるべく再構成される PE が少なくするようにすると消費電力を抑えることができるんではないかと考えた。なるほどー
いろんな種類の演算器をごちゃっと並べておくことになる場合があり、そうすると RoMultiC と相性が悪くて構成情報が大きくなったりする。性能の低下は原理的に発生しない。
性能が低下しない、ということだがデータパスがややこしくなって配線遅延が増えたり配線不能になる、ということはない? → 今回は発生していないが、考えられる。
[SIMD/MIMD動的切り替え型プロセッサIMAPCAR2の性能評価]
画像認識 ASSP.
プロセッサからみた画像処理の特徴:
– 最初は候補領域の検出: 全体をスキャンするので、データ並列性が高い。SIMD がいいかな。
– 次は候補領域の検定: こっちは MIMD のほうがいいかな?
SIMD の各 PE が独立したメモリを持っている。
4つの SIMD PE のハード資源を浸かってひとつの MIMD PU + FPU に再構成できる!
SIMD-MIMD 切り替えのペナルティは? → 全員キャッシュミスの状態になる。なるべくそれを緩和するために全員にデータを配るとか、そういう仕組みを用意しているが、プログラムで対応しないといけない。
[FPGA上のArbiter PUFの定量的評価]
Trojan Hardware!
安全に回路を構成するにはどうしたらいい?
PUF = Physical Unclonable Function.
製造時に制御できない物理的特徴でデバイス固有の値を出力。光の拡散具合とか。
半導体のばらつきを利用した PUF はどうよ?どうやって評価したらいい?
というわけで、45個の Virtex-5 で arbiter PUF のテストをしてみた。
arbiter PUF: 長いセレクタのチェーンを構成して、信号の遅延差を測る。
ring oscillator PUF: リングオシレータをふたつ作って、周波数の違いを測る。
[ Scalable Core 2.0 ]
XC3S1200E 搭載。裏側の基板がなくなりました。
裏側の基板がなくなったので、隣接する FPGA との接続配線長が短縮。

コメントを残す