ReConFig ’09

[Opening]
– 131 submitted papers
– 42 full papers
– 35 posters
– 4 from Japan (5位くらい)
[ Keynote 1 ]
Semiconductor in transition:
– 32nm scheduled to debut by 2010
– 22nm is deemed feasible
– fewer, new architectures on the latest processes
– programmability and concurrency are the new imperatives
Parallel processing becomes Chip-level Multi-core processing (CMP)
– Power dissipation is a dominant, cross-cutting concern
Xilinx vision: fabless & programmability.
よく考えるとああいう最先端のチップを fabless vendor が作るってすごい。
SPARTAN-6 では昔のように、Parallel I/O は外周に配置されているが、Virtex-6 では内側にある。かっこいい。
消費電力は最大で 65% 減っている。
Linux 2.6.30 included the MicroBlaze architecture for the first time in a mainstream kernel release! まじか!!
QEMU + PetaLinux で、実機がなくてもデバッグできる。

Embedded Software design cost already exceeds hardware design cost.
並列プログラミングが問題。
Concurrent software compiler: enables compilation and SW development in highly parallel processing SOCs. Productivity +200% in SW. Expected in 2013.
[ General Session 1: Arithmetics ]
– FPGA implementation of decimal floating-point accurate scalar product unit with a parallel fixed-point multiplier
10進です。
iEEE754-2008 の decimal64 data format. BCD使って計算する。
Virtex-II Pro での周波数は 70MHz+ で、悪くない。パイプライン段数は 11.
“It makes me nervous to fly on airplanes, since I know they are designed using floating-point arithmetic” Alston Scott Householder.
– Runtime memory allocation in a heterogeneous reconfigurable platform
TUDelft の人。
しかしわし、こういう話はわからんちゅうに。
– Hotspot Mitigation using Dynamic Partial Reconfiguration for Improved Performance
Temperature distribution is not uniform → Temperature controlled reconfiguration をしましょう、という話。温度は ring oscillator で測るのか!
それで、しんどいところを移動させることで、全体の発熱を抑えることができるらしい。結果として速い周波数のまま動かせてスループットが上がるのか。なるほどー。
– A systolic array based architecture for implementing multivariate polynomial interpolation tasks
なんかプログラムと違うぞ、と考えていて、Session 1 と 2 がfuse されている、ということにやっときづいた。
どういうことだ・・・
[ General Session 3: New FPGA Architectures ]
– A Novel High-Density Single-Event Upset Hardened Configurable SRAM Applied to FPGA.
Xilinx の QPro シリーズでは 4SEU/Day くらい。
TMR + Scrubbing が必要かな。
SEU-hardened CSRAM というのを提案。
PMOS トランジスタを入れて、8トランジスタ/Cell になるけど、これならそれほど大きくないよね、という話。
6-T SRAM だと 29um^2 くらいだけど、このやりかただと 32um^2 くらい、だと思った。数字間違ってたらごめんなさい。でも、オーバーヘッドは 10% くらい。
SEU が起きる threshold みたいなのは MeV で測るのかしらん?
勉強しないと…
– MRAM based eFPGAs: Programming and silicon flows, …
SRAM is fast, easy to reconfigure, but volatile.
Flash is nonvolatile, but slow.
MRAM is… wow.
shadow reconfiguration: update magnetic information independently from the latch configuration (change committed later).
SR とかは普通にできるっぽい。
[ Session HPC1: Track on High-Performance Reconfigurable Computing ]
– A Traversal Cache Framework for FPGA Acceleration of Pointer Data Structures: A Case Study on Barnes-Hut N-body Simulation
FPGA を使う場合にしんどいのはポインタを使った間接アクセスで、アクセスパターンが irregular になるので遅くなる。間に traversal cache を入れて、うまくバンド幅を稼げるようにしたい。
普通の traversal cache は同じアクセスパターンが繰り返される場合に効果があるが、それではたいていはうまくいかない。そこで、似たようなアクセスパターンでも効くように改善。
n体問題ではうまくアクセスレイテンシを隠蔽できたそうだ。
濱田さんの実装も参考にしたらどうよ、と平木先生。
– Triple line-based playout for Go
碁ってよくわかってなかったんですが、なんか理解した気がする。
ひとつ石を置いたときにがらっと場がかわることがあるので、実装はけっこう難しい。
碁盤を3段ずつにわけてスキャンするのは、19×19だとでかすぎるから。
ソフトウェアの倍くらい出ているが、こういう問題では性能でなさそうなので、すごいのかも。
– Scalability Studies of the BLASTn Scan and Ungapped Extention Functions
Univ. of North Carolina at Charlotte
かなり速い。ベンチマークには env_nt とか env_nr database を使っているので、scalability issue は問題なさそうだ。処理は NCBI BLAST に準じているとのこと。データセットも現実的だし、価格対性能比なんかも示しており、非常に好感が持てる。
TimeLogic Decypher Machine というのを比較に使っているけど、これなんだろ。Quad-core Xeon と FPGA が載っているらしい。これ か。
配列関係はバンド幅が手強いのでやらずにきたんだが、最近は PCIe とかあるし、やってみるかなー。
– Low power, reconfigurable computing platform for spacecraft
High throughput, radiation tolerant and low power. Streaming 処理とかしたい。
FPPA: Field programmable processor array
NASA と組んでいる。
[ Poster 1 ]
– Prevention of hot spot development on coarse-grained DR architectures
– Floating point hardware for embedded processors in FPGAs: Design space exploration for performance and area
– A 10Gbps OTN framer implementation targeting FPGA devices
– FPGA implementations of BCD multipliers
– Matrix multiplication based on scalable macro-pipelined FPGA accelerator
– PCIREX: a fast prototyping platform for TMR DR systems
– Speeding up fault injection for asynchronous logic by FPGA-based emulation
– Base-calling in DNA pyrosequencing with reconfigurable bayesian network
最後のやつに興味があったのですが、cancel っぽい。

コメントを残す