[ The End of Moore’s Law and the Future of Computing Systems, Probably ]
Value of Information and Probabilistic System Design
Things are going to be harder in < 22nm process…
How about relaxing the requirement for 100% correctness for devices?
Human perception is not 100% correct; invest power to important stuff, less power to others; non-uniform investment / scaling.
Current optimization vectors: speed, area, and power.
Proposed: speed, area, power, and correctness.
Probabilistic SoC: ex) deterministic host microprocessor + probabilistic application specific co-processor
[ CベースプログラマブルHWコア「STPエンジン」の現状と展望 ]
NEC 本村さん。
STP = Stream TransPose.
Programmable arithmetic array + DMA engine.
演算器アレイのところは DRP を継承、ただし動的再構成技術の位置づけを見直しし、内部アーキテクチャも変更。
画像変倍で Core2Duo に対して x15 throughput, 1/10 power.
いまは 90nm で、40nm のを開発する。
[ 書換え可能な二変数関数の数値計算回路について ]
1変数関数を組み合わせてつくるのではなく、2変数関数をダイレクトに作る手法。
区分多項式近似: 定義域を複数の区間 (領域) に分割して、それぞれを近似式で表現。定義域の効率的な分割法 (=最小区間数) が重要。
1変数では区間数最小の不等区間分割をすることは比較的容易。
2変数では… 最適な領域の形が四角いとは限らない!!
さすがに四角くないのはハードウェア的にしんどいので、再帰的に4等分しながら、許容誤差を下回るまでがんばる、という方法。
浮動小数点のニーズが多いと思うが、移行は難しいでしょうか (安永先生)
→ 演算器の遅延などが大きくなるのが問題。係数表を引くところも大変そうだ。
[ An adaptive pattern recognition hardware with on-chip dynamic and partial reconfiguration ]
DDI: Direct Data Implementation = たとえば顔画像のデータをそのまま回路に実装して認識に使う。輝度値を 3bit 表現にして、画素数を減らして… とすると、組み合わせ回路だけで回路にハードコードされた画像と入力画像のマッチングをとることができる。
そうすると、この「ひとつの画像とのマッチングをとる回路」をたくさん並べてやることで、入力がどのカテゴリに属するか、といったことを一発で調べられる。
でも、組み合わせ回路のところを毎回合成したりするのは大変だから、これをなんとかしたい。これを、ICAP とかは使わずに、動作中に動的再構成できるようにする。LUT を SR として instantiate し、PowerPC から制御することで実現。オンチップで最適な d サイズを探索し、コンフィギュレーションを行うことができる。
4bit 精度で、9×20 pixels の画像を9 枚 DDI で実装。ターゲットは XC2VP30.
ASICを使ってやる場合との違いは? (東北大 宮本先生)
→ サンプルデータに対して直接の回路化を行うことができる。
[ A Novel network optimization method using On-Chip Virtual Network on Dynamically Reconfigurable processor DAPDNA-2 ]
仮想ネットワークを DAP/DNA-2 上に構築して、トラフィック変動を求めることで、理想的な転送経路を探索する。
仮想ノードと仮想リンクをそれぞれ複数のPEを使って構築し、パケットの流れを再現する。リンクはリンクコストに相当する遅延を発生。
6ノードまで1チップに入る。それより大きいのを扱うときは、途中にメモリをはさんで切り分け。
計算をせずに経路を求められるので速い。
自動的にコンフィギュレーションを生成する方法を考えたりしている。
混雑度とかで遅延がかわると思うのだけど、そのへんは一定? (おさな)
→ そういうのはリンクコストに反映されます (あとでこれは将来の実装の話だ、といわれました。いまは固定だそうです) 。だいじょうぶ。
ものすごくノード数が大きなネットワークになっても、Dijkstra とかより有利? (堀先生)
→ 実際にパケットを流しているので、リンクコストの変更とかそういうことにも対応できる点が数学的な手法よりも有利。
複数の context にわかれたときの、reconfiguration のオーバーヘッドはどれくらい? (安永先生)
→ 数クロックかそれくらいだと思います。
全部のパケットが流れ終わってからコンテキストを切り替えるの? それを検出する仕掛けとか、メモリに全部入るまで待つとしたら、それがボトルネックにならないか? (梶原さん)
→ (1) 最短経路を求めるので、ひとつしか覚えておかなくても OK なので、それでサボれるかもしれないが、トポロジが複雑になるとちょっと難しいかも。(2) ループ検出機能をつけて、さくっとパケットが出て行くようにすれば幸せかも。といったことを考えている。
[ An improvement of Black-Diamond compiler for representing target dynamically reconfigurable architecture ]
Black Diamond は retargettable なコンパイラだが、その architecture description のファイル生成を GUI でできるようにしたぜ、という話。
最初のターゲットの場合は「たったの1万行だったから」手で書いたそうです。恐れ入りました。そのほかの2つのターゲットはこのツールで作り、5万行とかそれくらいのサイズ。
Retargettable なコンパイラを作る、その研究のゴールはどこ? という安永先生の質問が出たところで時間切れになりました。
[ DRP向け拡張C言語を使用した画像処理回路自動生成実験 ~ DAPDNA用ハードウェア自動生成言語DFC-その課題と対策 ~ ]
富士ゼロックスの人。DAP/DNA イケイケですね。
DFC というコンパイラの話。これって IPFlex が作っているのかな?
[ サイドチャネル攻撃に対する標準評価ボードSASEBOとツールの開発 ]
暗号ハードウェアに関するセキュリティ要件 (ISO/IEC 15408, FIPS140-2 = ISO/IEC 19790)。日本では JIS として承認されている。しかし、これらは再度チャネル攻撃に対応しておらず、各メーカーが独自にやっているのが現状。
で、ちゃんと規格化するには共通の評価基盤が必要。
暗号の種類とか攻撃のしかたは人間が (評価基準としてクリアしなければならないものを) きめるの? (泉先生)
→ はい。
ボードが悪い人に渡ると悪用されると思いますが、どうでしょう。(名古屋先生)
→ 評価ツールのほうが広まるといけないので、ここは厳しくしようとしているところです。
対策のしかたはたとえばどういうのがある?
→ ランダムな電力消費をする回路をつけるとか、信号線を differential にすることで消費電力プロファイルを均一化したり。
対策方法がわかると攻撃方法も進歩する?
→ それがあるので、EU は規格化に慎重。