June 2010 Archives

きょうのじてんしゃ

| No Comments | No TrackBacks

梅雨の合間にトレーニング。
道路混んでてあんまり飛ばせなかった。

51.71km @ 26.0km/h (1h59m13s) odo 8853.2km

おちゃづけ

| No Comments | No TrackBacks

DSCN4417

昨日いただいた金目鯛のお茶漬け。
すごいよ!

きょうのじてんしゃ

| No Comments | No TrackBacks

なんか、あんまり調子上がらず。

23.62km @ 23.3km/h (1h00m43s) odo 8629.9km

HEART 2010

| No Comments | No TrackBacks

accept ratio was 54%.

[[ Session 1: FPGA-based Applications ]]

[ Implementation and Evaluation of an Arithmetic Pipeline on FLOPS-2D: Multi-FPGA system ]

最初のひとがいなくていきなりわしら。

精度を変えることは考えた? → double precision が minimum requirement なので。
IFC と g95 で4倍速度が違うのはなぜ? → SSEとか使っているかも。dualcore?

発表おつかれさまでした。

[ Efficient Reconfigurable Design for Pricing Asian Options ]

Stochastic simulation (single precision) on XC5VLX330T @ 200MHz, 34W.
- 313x Xeon quad-core, 80W
- 2.2x Tesla C1060, 200W

[ An FPGA-based fast classifier with high generalization property ]

Cyclone vs Stratix vs Athlon. Power, cost, performance.
DSP unit は使った? → 使ってない。LUT で全部つくるのが natural だと思う。
Combinational circuit だけで、pipeline にはなっていない。
Scaling とかは? → future work です。

[[ Session 2: Frameworks ]]

[Dynamic Vectorization in the E2 Dynamic Multicore Architecture]

Microsoft はプロセッサアーキテクチャもやっているのか・・・
32cores per chip.
全部のコアが single precision FP を持っている。power gating とか。

[Binary acceleration using coarse-grained reconfigurable architecture]

How many bits for configuration → basically instruction. 20bits.

[Implementation of a Programming Environment with a Multithread Model for Reconfigurable Systems]

SRC-6. やっぱ僕も streaming DMA とか実装しないとダメかね。むー
レジスタへのアクセスはどうやって検出するの? → Carteでは基本的に変数がレジスタで、オンボードメモリへのアクセスには特別な記述が必要。

[Runtime Multitasking Support on Reconfigurable Accelerators]

profiler の結果に基づいてごりごり。dso (dlopen()) を使って実装している。かっこいー

[Programming Framework for Clusters with Heterogeneous Accelerators]

Luk先生直々にご発表。
(Phenom X4 + Tesla + V5LX330T) x 16

[[ Session 3: Accelerators ]]

[An efficient CELL library for Lattice Quantum Chromodynamics]

double precision が必要だといったけど double でやっているの? → yes. penaltyがあるよ。

[Software-based predication for AMD GPUs]

GPU では control flow とかのペナルティが大きいので、ALU packing したり分岐とかの予測(というか、control flow clause の統合) をやっといて性能を上げましょう的なお話。10% とか、すごいのだと 50% くらいの効果がある。

[Multipliers for Floating-Point Double Precision and Beyond on FPGAs]

多倍長な乗算で DSP block の使用量を抑えたい。DSP48E は 18x25bit の非対称構成。これを使って、部分積をうまく詰め込む: Automated tiling.
Logicore の FP multiplier より DSP block の数が減って、しかも速かったりする。これはかっこいい。

[Prototype Implementation of Array-Processor Extensible over Multiple FPGAs for Scalable Stencil Computation]

佐野先生のところの、GALS array の話。
jitter とかから必要な FIFO の深さは estimate できる? → 6段くらい。


[[ Invited talk 2: Custom Computing for Efficient Acceleration of HPC Kernels ]]

Bandwidth と arithmetic performance のバランスが大事!
- Custom computing で解決しましょう
- Roofline: an insightful visual performance model for multicore architectures が紹介されてた。面白そう。あとで読もう。

- Real time data compression to get more bandwidth.
- cubic predictor を使って、CFD で 4x bandwidth とか出している。これはデータの中身によるからなんともいえないけど、頑張ってやってみる価値はあるな。

31bit の custom FP format を使っているのはどうして? → fraction を1ビット削ったIEEE754.

 

OpenID accepted here Learn more about OpenID
Powered by Movable Type 5.02

September 2010

Sun Mon Tue Wed Thu Fri Sat
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    

About this Archive

This page is an archive of entries from June 2010 listed from newest to oldest.

May 2010 is the previous archive.

July 2010 is the next archive.

Find recent content on the main index or look in the archives to find all content.