2010年9月 – Debuggin' Everyday

RECONF @ Shizuoka: Sep.17, 2010

[ 光再構成型ゲートアレイにおける MEMS アドレッシング技術 ]
レーザーをたくさん用意する代わりに DMD で反射させたレーザーをホログラムメモリに照射する。これはものすごくたくさん (億オーダー) のコンテキスト数を持たせるために必要。
[ COGRE: 面積削減を目的とした少構成メモリ論理セルアーキテクチャ ]
よく使う論理関数をプロファイリングして、LUT じゃない最適化された論理セルを作る。
論理セル数は減るんだけど、配線が増加するのが問題。
面積は論理合成ツールのところで評価しており、レイアウトした結果ではない。
[ An Error Detect and Correct Circuit Based Fault-tolerant Reconfigurable Logic Device ]
– mitigates up to 2bits SEUs
– on the fly scrubbing
– EDC has 6.8-10 times dependable than a tile level TMR structure
is EDC for only COGRE?
LUTにも使える。but COGRE has less memory, so it’s more effective.
MTBF はどうやって計算している?
Xilinx が発表している SEU 頻度についてのデータがある。10^6 秒 (時間) で何ビット壊れる、みたいな。
[同期/非同期ハイブリッドアーキテクチャに基づく低消費電力FPGAの構成]
非同期回路は動いてないときは電力食わないけど、動くとたくさん使う。なので、動作状況に合わせて同期回路と組み合わせることで電力を最適化することができる。
ふつうの island style FPGA なんだけど、logic block に同期モード・非同期モードがある。ただ、ブロックがでかくなっちゃうんだけど・・・
非同期のところは ack を返す必要があるわけだけど、それは LB ごとに handshake して ack 返すの？それだと細かすぎませんか → いまのところは。本当は何ステージかまとめて handshake できるようにしたいのです。
非同期と同期の連動のためには FIFO があちこちに入っているらしい。
リークはどうせ非同期でもあるわけで、そうすると使用面積が問題になるから、そこまで考慮したほうがいいのでは → 考慮してます。
[マルチコンテキスト型動的リコンフィギャラブルプロセッサからコンテキストメモリをなくす方法の提案]
えええええ?
コンテキストメモリをやめてレジスタに置き換える。
コンテキストの実行時間をなるべく長くする＋コンテキスト情報の流し込みを高速化する。
Loop unrolling に似ているけどちょっと違う方法 (LSKD) というのを提案してみた。
これでコンテキストあたりの実行 (滞在) 時間を長くするんだけど、コンパイラによる変換だけではだめで、ループカウンタとかそういう付加ハードウェアが必要。
流し込み高速化にはマルチキャスト(ROw MULTIcast Configuration) とか差分再構成とか。
実行時間はループ依存性にもよるが、13〜18% くらい増える。実行時間増大の抑制には差分再構成が有効。
面積と電力はがっつり (60%くらい削減!) 減る。
いまのところループの変換は手作業でやってるのでコンパイラへの組み込みが問題。
コンテキストあたりの滞在時間を増やす手法は既存の MuCCRA でも使える？→ Yes
バスでガンガン送り込むのはけっこう電力食うのでは？→意外とそうでもない。
LSKD 使うと中間結果をとっておかないといけないので、実は configuration memory が減った分 data memory が増えていたり… → おっしゃるとおりなのですが、もともとあったレジスタを使っているので、まあ、それほどずるくはないかな。
[再構成回数削減による動的リコンフィギャラブルプロセッサの消費電力削減手法の提案]
同じ処理をコンテキスト切り替えの際の再構成あり・なしでやってみたら、だいぶ電力が違う。
そうすると、コンテキストが切り替わってもなるべく再構成される PE が少なくするようにすると消費電力を抑えることができるんではないかと考えた。なるほどー
いろんな種類の演算器をごちゃっと並べておくことになる場合があり、そうすると RoMultiC と相性が悪くて構成情報が大きくなったりする。性能の低下は原理的に発生しない。
性能が低下しない、ということだがデータパスがややこしくなって配線遅延が増えたり配線不能になる、ということはない？ → 今回は発生していないが、考えられる。
[SIMD/MIMD動的切り替え型プロセッサIMAPCAR2の性能評価]
画像認識 ASSP.
プロセッサからみた画像処理の特徴:
– 最初は候補領域の検出: 全体をスキャンするので、データ並列性が高い。SIMD がいいかな。
– 次は候補領域の検定: こっちは MIMD のほうがいいかな？
SIMD の各 PE が独立したメモリを持っている。
4つの SIMD PE のハード資源を浸かってひとつの MIMD PU + FPU に再構成できる！
SIMD-MIMD 切り替えのペナルティは？ → 全員キャッシュミスの状態になる。なるべくそれを緩和するために全員にデータを配るとか、そういう仕組みを用意しているが、プログラムで対応しないといけない。
[FPGA上のArbiter PUFの定量的評価]
Trojan Hardware!
安全に回路を構成するにはどうしたらいい？
PUF = Physical Unclonable Function.
製造時に制御できない物理的特徴でデバイス固有の値を出力。光の拡散具合とか。
半導体のばらつきを利用した PUF はどうよ？どうやって評価したらいい？
というわけで、45個の Virtex-5 で arbiter PUF のテストをしてみた。
arbiter PUF: 長いセレクタのチェーンを構成して、信号の遅延差を測る。
ring oscillator PUF: リングオシレータをふたつ作って、周波数の違いを測る。
[ Scalable Core 2.0 ]
XC3S1200E 搭載。裏側の基板がなくなりました。
裏側の基板がなくなったので、隣接する FPGA との接続配線長が短縮。

MacBook 最強仕様

MacBook が最強仕様になりました。

メモリは 4GB x 2 で 8GB。最初は 6GB までしか使えなかったのですが、いつぞやの firmware update 以降はちゃんと使える模様。Amazon で 16,000 円くらいでした。

ハードディスクは 750GB 。もう、CAD でもゲノムでもどんとこい、という感じ。

RECONF @ Shizuoka: Sep.16, 2010

高山からばびゅーんと移動してきました。
渡邊先生招待講演。
[ プロセッサを作りましょう ]
MISC (Mono-Instruction Set Computer): 単一機能のプロセッサ (RISC でも CISCでも) を作りましょう。
昔は CISC。メモリは大切だからちょっとの命令でいろいろやりましょう。
今は RISC。メモリはたくさん使えるから命令の直交性を重視してぶいぶい回しましょう。
FPGA にも MicroBlaze とか NIOS が載り、ちょっとだけユーザ定義の命令もつけられるけど、これはいままでのプロセッサ (CISC/RISC) の延長。
RISC は CISC より効率がいいけど、それでも回路のどこかは idle になってる。もったいない。そこで MISC です。シリコンの上に載っている ALU はいつも一種類！ (やべえ、かっこいい)
でも、これをやるには高速な再構成が必要なので、そこで光再構成＋ホログラム。
問題はレーザーアレイなんだけど、面実装のレーザーアレイで 256×256 のとかがある (surface emitting laser array ってやつ?)。
いま実験システムには 4×4=16 のレーザーアレイが実装されていて動いている。
[ 宇宙でも使いましょう (ARC2010) ]
FPGA は RAM のかたまりなので、宇宙で使うのはたいへんで、ECC を使ってたまに再構成しなおしたりしてやる必要あり。
一方で、ホログラムメモリは放射線にはめっぽう強い。冗長性もあるから、宇宙でホログラムを書き直す時に多少壊れた configuration data が届いたとしても問題ない。
ホログラムに光をあけたときに明点ができるのは、ホログラムの透明部分を通じた光の位相が揃ったところ。なので、多少ぶっ壊れても OK。位相が揃ったところ、ということはつまり、光で多数決をしているようなものですね。
ホログラムメモリを emulate するのに MEMS mirror (DMD) とか使える。プロジェクタとかに入ってるやつなら 1024×768 くらいの解像度も出るし。それで、20% くらいのノイズを入れてもちゃんと再構成できる。
[ ビジョンチップ (FPL2010) ]
現在のイメージセンサは 30fps のが多い。だけど本気で人間を超える何かをやろうとするなら 1000fps くらい必要。
Analog vision chip というのもあって、それだと高速に平滑化とかエッジ検出とかできる。だけど、それでは画像認識には持っていけない。
デジタルだと解像度を稼ぐのは結構たいへんで、どうしても SIMD プロセッサアレイとかにせざるを得ないし、メモリをたくさんばらまけないので、テンプレートマッチングのためのテンプレートとか、そういうものを入れておくことができない。
そこで、光再構成アレイにビームスプリッタを入れて、構成情報と一緒に画像情報を入れることができるのではないか？メモリを増やすことはできないけど、テンプレート画像をホログラムに大量に入れておけば、それを超高速に流し込みながらマッチング処理を行うことができる。
[ 質疑 ]
ホログラムメモリそのものを LUT みたいにして計算処理につかえない (佐野先生) ？
光コンピュータのひとがやってます。問題はそれだけのデータを突っ込めるホログラムの構成材料。
再構成時間はつまり命令フェッチにかかる時間なわけですが、その改善の見込みは (井口先生) ？
ホログラムメモリの光エネルギ効率が悪い。液晶だし。
瞬間的に高出力が出せるようなレーザーがあるといいかも。
SPD も問題で、いまは standard cell で作っているので、それがしんどい。