RECONF研 (May 13, 2010)

[FPGAを用いたDC-DCコンバータ向け高速比例ディジタルPID制御方式の実装]
長崎大の浜脇さん@柴田研。
50MHz の FPGA でクロックの位相をずらして 100MHz, 200MHz での PWM.
PID の P 要素だけサンプリングレートを上げて精度をよくすることができた。
名古屋先生: DC-DC コンバータの精度が上がるのはわかった。効率にはどう貢献する?
浜脇さん: 制御回路の消費電力がそれほど大きくならないとわかった。
柴田先生: 負荷の急激な変動にうまく追従して余分な電力消費を減らしましょう、という趣旨なので、精度が上がることはちゃんと意義があります。
泉先生: 2.5ms くらい応答時間がかかるようですが、データセンターではそれで充分?
柴田先生: 負荷モデルは別に検討チームがありますが、2.5ms よりはもうすこし頑張った方がいいかもしれません。
[FPGAを用いた全探索法による可変ブロックサイズ動き予測の実現]
丸山研の学生さんの発表。
+-32pixel, 30fps で、DVDサイズの探索を実現。
+-64pixel になれば、HD対応です。その場合回路規模は16倍。
Virtex-5 で実装。BlockRAM ごりごり。スキャン方向を工夫することでメモリを旨く使っている。
オフチップのメモリもちゃんと使います。
[FPGAを用いたCLAHEの実時間処理の実現]
丸山先生が代理でご発表。
コントラスト強調で暗い部分なんかをきれいに見えるようにするが、ノイズやハイライトをうまく取り扱えるようにする (局所的コントラスト強調)。
ヒストグラム伸長よりもヒストグラム平均化に近い?
大域的コントラスト強調より、局所的にやるほうが計算量が大変。
まじめにやるとループが出てきてしまってパイプラインにならないので、違うやり方を考えた。直前の計算結果をフィードバックするところがポイント。
9bit x 256階調のヒストグラムをレジスタで並列に持っており、1clk/pixel で処理できる。
ウインドウサイズは 60×60 とか、もっと大きいのとか。あんまり小さいとノイズだらけになる。
かなり速くて 500fps くらい出るので、256 階調一気にやるのではなくて、たとえば半分の回路で128階調ずつとかにしてもいい。メモリが問題なんだけど、分割をうまくすれば意外とうまく使えそう?
[動的再構成プロセッサアレイMuCCRA-3のマルチコア化の研究]
DRPA を単に大きくするのじゃなくて、小さいアレイをたくさんならべるマルチコア化。
入出力のバッファはダブルバッファになってるんだが、入出力バッファ群とMuCCRA-Core群をクロスバを介してつないで、ぱかぱか切り替えられる。
泉先生: コアがふえたらクロスバでは大変じゃない?
さっさー: 接続は10数個くらいを考えているので、クロスバでもいいかな。
梶原さん: 各タスクに分けたときに、それぞれのタスクは同期して動くの?処理と入力データによっては処理時間に伸び縮みをしたいと思う場合もあるかも。
さっさー: 長さが変わってもそこは同期が取れます。
谷川先生: PE数を多くする場合とマルチコア化、というのを最初に出していたけど、PE数を増やすほうがハッピーな場合というのはなにか考えられますか?
さっさー: ひとつのアプリケーションで性能を出したければ普通にPE数が多い方がいいわけなので、それはそれで。
[FeRAMを用いた不揮発リコンギャラブルロジックデバイスの試作]
Vdd が下がってきたら強誘電体メモリに書き込み、Vdd 復帰時に読み出す不揮発FFを開発。
VGLC アーキテクチャをこれで作って、island style なチップを作った。
不揮発FFの面積はD-FFの9.6倍・・・FeRAM はかっこいいけど難しい。
ふんがさん: コンフィギュレーションデータを FeRAM に書いたまま使えばいいんでは?
古賀さん: 実は FeRAM は破壊読み出しなので、FF に読み出さなければいけない。
名古屋先生: LUT でもよかったのでは?
古賀さん: コンフィギュレーションメモリのビットあたり面積が大きくなることはわかっていたので、少しでも面積を減らしたくて VGLC を使うといいかな、と思った。
[高精度な科学技術計算エンジン向けディジットシリアル浮動小数点演算器]
8倍精度以上の精度がほしいとき!あります!
でも、8倍精度 (256bit) の演算器は大きくて、並列度も低くて、いまいち。
digit serial にしたら、周波数や面積はどうなる? 最適な digit 幅は?
IEEE754だいたい準拠。非正規化数はアンダーフロー扱い、丸めは切り捨てだけ。
8bit 幅の演算器で、性能面積比で 1.3倍。
小栗先生: 割り算は下位からやるわけにいかないと思うんだけど、どうしますか?
谷川先生: 除算器を作らずに加算・乗算を組み合わせてやるしかないと考えています。
市川先生: パイプラインの段数の最適なポイントはビット幅によって変わるはずですが。
谷川先生: 動作周波数が同じになるくらいのポイントでやりました。
市川先生: パラレルをパイプライン化するのとディジットシリアルは実は本質的には同じなのでは??
谷川先生: いろいろ工夫すると実は同じなのかもしれません。ただ、バス幅を小さくできるところが違うかな、と思います。
弘中先生: 本質的には同じですが、根本的に違うのは、ピン数などの自由度が上がる点が大きく違います。
市川先生: Booth 木なんかを使う場合に、途中をすっ飛ばせる可能性もありますよね。
谷川先生: 長さが変わってしまうといろいろ難しいので、検討した結果固定にしました。
あー思い切ってこういうの使ってもいいのかもなー。
[SRAM型FPGA上の実装回路におけるソフトエラー耐性評価手法の一検討]
フレーム単位で部分再構成して擬似的にエラーを注入。
TMR 化しても完全にはエラーがなくならない。
天野先生: エラーが多くないですか?
木村さん: 別々に演算器を3つ作ったはずなんだけど、同じ回路だし、ツールがくっつけちゃったかもしれません。
泉先生: コントロール系が壊れて、全然動かなくなるようなことはなかった? すごい電流が流れて熱くなっちゃうとか。
木村さん+久我先生: 組み合わせ回路で、順序回路ではないので今回は問題ない感じでした。
名古屋先生: TMR なしでも、エラー注入回数より検出回数のほうが何桁か少ないのはなぜ?
木村さん+久我先生: 回路がすかすかなので、使ってないところを壊しちゃっているだけの可能性も。本当は、ちゃんとしたアプリケーションなんかを使ってやる必要があるかもしれません。
[FPGAにおける演算パイプライン共有化のためのデータパス分類手法の提案]
小川さんデビュー戦。
名古屋先生: LUT削減率ということでしたが、もともとの数はどれくらい?
小川さん: すみませんいまちょっとわかりません。
名古屋先生: 削減率とかはあんまり変わらないような感じですが、レイテンシに着目していいものを選べばいい?
佐野先生: 32個全部くっつけたら25%くらい減るの?
小川さん+柴田先生: 25%は積分とかコミコミです。
[布線論理の性能を引き出すストリーム処理]
– pipelined FFT
– FDTD: 誘電率の違いを使って電磁波で乳がんを発見できないか? (放射線でなくて)
— Markov chain + 逐次ベイズフィルタ
— Monte Carlo 近似 (粒子フィルタ): 条件付き分布を式によってではなく、多数のサンプル値(粒子)によって近似。まさにモンテカルロ。 → これ熱いんだよね!!
– 粒子フィルタで3D認識!
– MBE: Multi-band excitation speech model
— 最近のデジタル無線で使われている。位相を考えずに、各バンドのパワーだけを使う。非常にクリアに音声が送れるらしい
– 超高速メニーコアコンピューティング研究センター
— 超並列部門: GPU
— リアルタイム計算部門

コメントを残す