月別アーカイブ: 2010年6月

HEART 2010

accept ratio was 54%.
[[ Session 1: FPGA-based Applications ]]
[ Implementation and Evaluation of an Arithmetic Pipeline on FLOPS-2D: Multi-FPGA system ]
最初のひとがいなくていきなりわしら。
精度を変えることは考えた? → double precision が minimum requirement なので。
IFC と g95 で4倍速度が違うのはなぜ? → SSEとか使っているかも。dualcore?
発表おつかれさまでした。
[ Efficient Reconfigurable Design for Pricing Asian Options ]
Stochastic simulation (single precision) on XC5VLX330T @ 200MHz, 34W.
– 313x Xeon quad-core, 80W
– 2.2x Tesla C1060, 200W
[ An FPGA-based fast classifier with high generalization property ]
Cyclone vs Stratix vs Athlon. Power, cost, performance.
DSP unit は使った? → 使ってない。LUT で全部つくるのが natural だと思う。
Combinational circuit だけで、pipeline にはなっていない。
Scaling とかは? → future work です。
[[ Session 2: Frameworks ]]
[Dynamic Vectorization in the E2 Dynamic Multicore Architecture]
Microsoft はプロセッサアーキテクチャもやっているのか・・・
32cores per chip.
全部のコアが single precision FP を持っている。power gating とか。
[Binary acceleration using coarse-grained reconfigurable architecture]
How many bits for configuration → basically instruction. 20bits.
[Implementation of a Programming Environment with a Multithread Model for Reconfigurable Systems]
SRC-6. やっぱ僕も streaming DMA とか実装しないとダメかね。むー
レジスタへのアクセスはどうやって検出するの? → Carteでは基本的に変数がレジスタで、オンボードメモリへのアクセスには特別な記述が必要。
[Runtime Multitasking Support on Reconfigurable Accelerators]
profiler の結果に基づいてごりごり。dso (dlopen()) を使って実装している。かっこいー
[Programming Framework for Clusters with Heterogeneous Accelerators]
Luk先生直々にご発表。
(Phenom X4 + Tesla + V5LX330T) x 16
[[ Session 3: Accelerators ]]
[An efficient CELL library for Lattice Quantum Chromodynamics]
double precision が必要だといったけど double でやっているの? → yes. penaltyがあるよ。
[Software-based predication for AMD GPUs]
GPU では control flow とかのペナルティが大きいので、ALU packing したり分岐とかの予測(というか、control flow clause の統合) をやっといて性能を上げましょう的なお話。10% とか、すごいのだと 50% くらいの効果がある。
[Multipliers for Floating-Point Double Precision and Beyond on FPGAs]
多倍長な乗算で DSP block の使用量を抑えたい。DSP48E は 18x25bit の非対称構成。これを使って、部分積をうまく詰め込む: Automated tiling.
Logicore の FP multiplier より DSP block の数が減って、しかも速かったりする。これはかっこいい。
[Prototype Implementation of Array-Processor Extensible over Multiple FPGAs for Scalable Stencil Computation]
佐野先生のところの、GALS array の話。
jitter とかから必要な FIFO の深さは estimate できる? → 6段くらい。
[[ Invited talk 2: Custom Computing for Efficient Acceleration of HPC Kernels ]]
Bandwidth と arithmetic performance のバランスが大事!
– Custom computing で解決しましょう
Roofline: an insightful visual performance model for multicore architectures が紹介されてた。面白そう。あとで読もう。
– Real time data compression to get more bandwidth.
– cubic predictor を使って、CFD で 4x bandwidth とか出している。これはデータの中身によるからなんともいえないけど、頑張ってやってみる価値はあるな。
31bit の custom FP format を使っているのはどうして? → fraction を1ビット削ったIEEE754.