広島から小倉まで。当然在来線ですよ。なんか、かなり寝てましたが。
岩国の石油化学コンビナート。
岩国から岩徳線。
駅に錦帯橋の模型が置いてあった。
岩徳線はわりといい感じのローカル線。列車はのんびりだが、山陽本線が海岸を迂回するところをショートカットするので、所要時間はあんまり変わらない。
紅葉とか、クリスマスのものらしい謎の飾り付けとか。
徳山で穴子弁当買った。冷めてたのが残念。
「へた」ってすごい駅名だな。
瀬戸内海がすごくきれい。
下関では弁当とうどんとかまぼこがよく売れるんですか?
九州からきた折り返しの電車に乗って、九州へ。
小倉駅。
モノレールがずどーんと横っ腹に突き刺さっており、なかなか壮観だ。
ホテルからは海が見えました。
広島
ANA の 777-200 でしたよ。… 専用のカップは小さく見えますが、350cc ちょっとくらい入るので、カップヌードル(日清食品の、標準サイズの奴)なんかも作れます。
広島いってきた。九州にいくついでだ。
なぜか広島まで飛行機。ANA の 777-200 でしたよ。快適。
広島空港から白市駅に向かう途中で、なんかすごいもの作ってた。橋?
白市駅から電車で広島へ。博多まで学割で切符買ってしまおうと思ったら、出札口が昼休みでした。なんてこったい。飛行機できて、白市駅から JR に乗る人は少なくないみたいでしたが…
広島駅から市内電車に乗り換えて本通りへ。
パルコ前の広場にて。暴走族防止条例みたいなやつの看板。
いつも通り、平和公園にも行きました。
ずっと喫茶店で論文書いてたわけですが、ホテルに戻ってまた論文。夜になってから友人とご飯を食べにいって、戻ってまた論文書いて、寝ました。最近はなんか、広島に行くことが多いのですが、 ホテル川島 を使ってます。部屋にはソニー製の IH 湯沸かし器があるので、いつでもお茶が入れられます。ティーバッグを忘れずに。専用のカップは小さく見えますが、350cc ちょっとくらい入るので、カップヌードル(日清食品の、標準サイズの奴)なんかも作れます。
としとしとっしー
COE Symposium
どぅみー
SRAM and Virtex
あうー
最近長名の blog が真面目だという話ですが、もう忙しすぎて全然面白いことを思いつきません。 いい加減、寝たい。
最近長名の blog が真面目だという話ですが、もう忙しすぎて全然面白いことを思いつきません。
いい加減、寝たいですが、ちーっとも仕事が片付かない。
あちこちにご迷惑をおかけしております。ごめんなさい…
聞くは一時の恥
おっと、聞く前にちゃんと読め。
おっと、聞く前にちゃんと読め。
倫理とか
そうなんですよ。 もちろん、サポートされる文字セットが広くなるのはいいことなんですけどね。
GT明朝とトロンを批判する。
科学者にも技術者にも、動機と志の哲学が必要、というのは、実に正しい。
誰のための科学か、誰のための技術か、
いやもっとはっきり言おう。誰のための予算か、だ。
研究のための研究ならば、国民の税金など使う資格はないのだよ。
そのへんちゃんと理解しておかないとね。
文字の話をしておくと、文字の数は無限だと思う。
たとえ26文字しかないことになっているアルファベットでも。
RECONF2005 65-68 (Dec.01: Architecture II)
意図せずして最初のをサボってしまいましたあうあう。
意図せずして最初のをサボってしまいましたあうあう。
日立の動的再構成なデバイスに関するセッション。
構成情報の階層記憶制御による再構成型プロセッサ FE-GAの性能・面積比の向上
演算セルアレイ(ALUセル、MLT(乗算/MAC)セル、基本的に16bit) はクロスバを介してLoad/Store セル・ローカルメモリに接続。コンフィギュレーションマネージャを外部(といってもチップ内部)に持ち、セルの類似性を利用して構成情報を圧縮することで構成情報のサイズを 1/5 くらいまで落とすことができる。圧縮しないと構成情報の転送がボトルネックになってしまう。構成情報はバックグラウンドでロード可能。
Q & A
IPFlex 佐藤さん: 構成情報のサイズはどれくらい?公表できれば教えてください
→ALU, MLT セルの構成情報は 96bit とか。予稿にでています
久我先生@熊本大: 16エントリくらいが面積効率的な落としどころなのか、増やすとどうなるか
→階層化することでそれくらいでも性能が出せるようになった、と
再構成プロセッサ FE-GA のオーディオ処理への応用
AAC 128kbps, 2ch, 44.1kHz のエンコードをシミュレータ上で実行。シミュレータの演算のところは cycle level accurate、制御系は functional level.
102MHz で 8 倍速AACエンコードを実現。FIR とか DCT で、組み込み向け single MAC DSP の 10 倍くらい?
configuration を preload することで、4.8M cycle くらいかかるのが 32k cycle に。さらに圧縮することで、2k 回くらい入れ替えなきゃいけないのを1回にすることができた。
今後は開発環境も整備していく予定。
Q & A
NEC の梶原さん: ALUとMULのブロックが 3:1 で入ってますが、どんな感じで決めたかというのと、今回の実装でのリソース消費状況を教えてください。
→ ALU-MUL-ALU-ALU が8列ある構成は、ALUx4 7列 + MULx4 1列よりだいぶ使用効率が上がる感じでした。
早稲田の木村先生: Cのリファレンスコードからマッピングをされたようですが、loop unrolling とか、そういうtuningはどんな感じでやりましたか?
→ FFT はバタフライまで広げてから mapping. その他のアプリケーションでは 2、3重くらいのループをまんなかまであけて、あとはデータアクセスの順番をチューニングしたりとか
コンパイラを作る上で従来型のプロセッサと違うところは?
→ interconnection の制約のある 2 次元のアレイに、命令列を流し込むと 3 次元になるわけで、そのへんが難しいかも
末吉先生: VLIW の一種みたいなものですよね。接続が限られているうえにしかも non-uniform ですし、大変。アプリケーションひとつにどれくらいかかりました?
→ ふたりくらいで半年とか。ツールほしいです。
佐藤さん@日立: non-uniform なところに DFG をマップするのが大変。C のプログラムをうまくマップするのもやっぱり大変。その 2 点くらいと、configuration / data のロードを演算を止めることなく行えるようにするところのスケジューリングが難しいかな。ポインタを使って圧縮制御をするところも、静的にプログラムを眺められないような場合には、また大変です。
IPFlex の芝さん: Loop unrolling で carry dependency とかがあるとやばいと思うんですが、フィードバックとかの機構はあるんでしょうか?
→ DSP 関係では依存関係が複雑だったりするので、HPC な場合と違ってコンパイラ的には難しいかな。小さなループで依存関係がある場合は、チップの上でなんとかできるが、大きい場合には一度ローカルメモリに吐き出してから処理する必要があります。
再構成プロセッサ FE-GA 上への FFT へのマッピング
日立の佐藤さん。数学のご出身なのですね(かっこいい!)。
ALU-MUL-ALU-ALUな構成だが、右からも左からもデータが流せたりするので、MUL-ALU-ALU-ALU とか、MUL が3つめ4つめにあるような構成を取ることもできる。
基数2の Cooley-Tukey 型を、4×4 cell に入れて、FE-GA にふたつ載せる。
セル利用率 90.5% でサイクル数オーバーヘッドは 3.5%。
Q & A
トヨタITの方: FFTを効率よくするためにクロスバを導入したりしているようなのだが、アプリケーションを載せてみてアーキテクチャにフィードバックしたのはどんな点?
→ クロスバは最初から載せようか、という感じだったのだけれど、MUL をどの列に置くかをわりと自由にとれるような機構 (FFT では最初の行に置きたかった) とかを入れてもらった。あと、メモリから ALU に転送するときの遅延を自由にとれる仕掛けとか。
1k point とか 2k point の場合、基数を4とか8にすると思うのだが、基数が上がった場合に同じような実装で対応できるのでしょうか?
→ まあ、同じバタフライなので、なんとかなるんでないかと。途中で分割する必要はあるけれど。
飯田先生@熊本大: 4×8 というサイズはアプリケーションを作ってみて最適だとわかったのか、大きくしたり小さくする必要はどうなのか。
→ コアを複数接続することによるスケーラビリティはあるので大丈夫だと思う。ただ、いまのところマルチメディアな小さいものしかやっていないので、WLAN のようなのをやると難しいかも。