山陽本線西へ

広島から小倉まで。当然在来線ですよ。なんか、かなり寝てましたが。
Dscn0899
岩国の石油化学コンビナート。
Dscn0823
Dscn0824
岩国から岩徳線。
Dscn0825
駅に錦帯橋の模型が置いてあった。
Dscn0826
岩徳線はわりといい感じのローカル線。列車はのんびりだが、山陽本線が海岸を迂回するところをショートカットするので、所要時間はあんまり変わらない。
Dscn0828-1
紅葉とか、クリスマスのものらしい謎の飾り付けとか。
Dscn0829
Dscn0830
徳山で穴子弁当買った。冷めてたのが残念。
Dscn0831
「へた」ってすごい駅名だな。
Dscn0832-1
瀬戸内海がすごくきれい。
Dscn0833
Dscn0835
Dscn0836
下関では弁当とうどんとかまぼこがよく売れるんですか?
九州からきた折り返しの電車に乗って、九州へ。
Dscn0837
Dscn0838
小倉駅。
モノレールがずどーんと横っ腹に突き刺さっており、なかなか壮観だ。
Dscn0844
ホテルからは海が見えました。
Dscn0840
Dscn0841

広島

ANA の 777-200 でしたよ。… 専用のカップは小さく見えますが、350cc ちょっとくらい入るので、カップヌードル(日清食品の、標準サイズの奴)なんかも作れます。

広島いってきた。九州にいくついでだ。
なぜか広島まで飛行機。ANA の 777-200 でしたよ。快適。
広島空港から白市駅に向かう途中で、なんかすごいもの作ってた。橋?
Dscn0805
Dscn0806
白市駅から電車で広島へ。博多まで学割で切符買ってしまおうと思ったら、出札口が昼休みでした。なんてこったい。飛行機できて、白市駅から JR に乗る人は少なくないみたいでしたが…
Dscn0807
Dscn0809
広島駅から市内電車に乗り換えて本通りへ。
Dscn0810
パルコ前の広場にて。暴走族防止条例みたいなやつの看板。
Dscn0811
いつも通り、平和公園にも行きました。
Dscn0820
Dscn0821
ずっと喫茶店で論文書いてたわけですが、ホテルに戻ってまた論文。夜になってから友人とご飯を食べにいって、戻ってまた論文書いて、寝ました。最近はなんか、広島に行くことが多いのですが、 ホテル川島 を使ってます。部屋にはソニー製の IH 湯沸かし器があるので、いつでもお茶が入れられます。ティーバッグを忘れずに。専用のカップは小さく見えますが、350cc ちょっとくらい入るので、カップヌードル(日清食品の、標準サイズの奴)なんかも作れます。
Dscn0822

COE Symposium

COE のシンポジウム行ってきました。
カメラクラブ同期の鎌田君のトーク。フェムト秒レーザって凄いんですね。
フェムト秒レーザでガラス (なのか?) の内部を加工して、光振動センサを作るという話だ。
Dscn0902
DSCN0904.JPG
DSCN0906.JPG
DSCN0907.JPG

あうー

最近長名の blog が真面目だという話ですが、もう忙しすぎて全然面白いことを思いつきません。 いい加減、寝たい。

最近長名の blog が真面目だという話ですが、もう忙しすぎて全然面白いことを思いつきません。
いい加減、寝たいですが、ちーっとも仕事が片付かない。
あちこちにご迷惑をおかけしております。ごめんなさい…

倫理とか

そうなんですよ。 もちろん、サポートされる文字セットが広くなるのはいいことなんですけどね。

GT明朝とトロンを批判する
科学者にも技術者にも、動機と志の哲学が必要、というのは、実に正しい。
誰のための科学か、誰のための技術か、
いやもっとはっきり言おう。誰のための予算か、だ。
研究のための研究ならば、国民の税金など使う資格はないのだよ。
そのへんちゃんと理解しておかないとね。
文字の話をしておくと、文字の数は無限だと思う。
たとえ26文字しかないことになっているアルファベットでも。

RECONF2005 65-68 (Dec.01: Architecture II)

意図せずして最初のをサボってしまいましたあうあう。

意図せずして最初のをサボってしまいましたあうあう。
日立の動的再構成なデバイスに関するセッション。

構成情報の階層記憶制御による再構成型プロセッサ FE-GAの性能・面積比の向上

演算セルアレイ(ALUセル、MLT(乗算/MAC)セル、基本的に16bit) はクロスバを介してLoad/Store セル・ローカルメモリに接続。コンフィギュレーションマネージャを外部(といってもチップ内部)に持ち、セルの類似性を利用して構成情報を圧縮することで構成情報のサイズを 1/5 くらいまで落とすことができる。圧縮しないと構成情報の転送がボトルネックになってしまう。構成情報はバックグラウンドでロード可能。

Q & A

IPFlex 佐藤さん: 構成情報のサイズはどれくらい?公表できれば教えてください
→ALU, MLT セルの構成情報は 96bit とか。予稿にでています
久我先生@熊本大: 16エントリくらいが面積効率的な落としどころなのか、増やすとどうなるか
→階層化することでそれくらいでも性能が出せるようになった、と

再構成プロセッサ FE-GA のオーディオ処理への応用

AAC 128kbps, 2ch, 44.1kHz のエンコードをシミュレータ上で実行。シミュレータの演算のところは cycle level accurate、制御系は functional level.
102MHz で 8 倍速AACエンコードを実現。FIR とか DCT で、組み込み向け single MAC DSP の 10 倍くらい?
configuration を preload することで、4.8M cycle くらいかかるのが 32k cycle に。さらに圧縮することで、2k 回くらい入れ替えなきゃいけないのを1回にすることができた。
今後は開発環境も整備していく予定。

Q & A

NEC の梶原さん: ALUとMULのブロックが 3:1 で入ってますが、どんな感じで決めたかというのと、今回の実装でのリソース消費状況を教えてください。
→ ALU-MUL-ALU-ALU が8列ある構成は、ALUx4 7列 + MULx4 1列よりだいぶ使用効率が上がる感じでした。
早稲田の木村先生: Cのリファレンスコードからマッピングをされたようですが、loop unrolling とか、そういうtuningはどんな感じでやりましたか?
→ FFT はバタフライまで広げてから mapping. その他のアプリケーションでは 2、3重くらいのループをまんなかまであけて、あとはデータアクセスの順番をチューニングしたりとか
コンパイラを作る上で従来型のプロセッサと違うところは?
→ interconnection の制約のある 2 次元のアレイに、命令列を流し込むと 3 次元になるわけで、そのへんが難しいかも
末吉先生: VLIW の一種みたいなものですよね。接続が限られているうえにしかも non-uniform ですし、大変。アプリケーションひとつにどれくらいかかりました?
→ ふたりくらいで半年とか。ツールほしいです。
佐藤さん@日立: non-uniform なところに DFG をマップするのが大変。C のプログラムをうまくマップするのもやっぱり大変。その 2 点くらいと、configuration / data のロードを演算を止めることなく行えるようにするところのスケジューリングが難しいかな。ポインタを使って圧縮制御をするところも、静的にプログラムを眺められないような場合には、また大変です。
IPFlex の芝さん: Loop unrolling で carry dependency とかがあるとやばいと思うんですが、フィードバックとかの機構はあるんでしょうか?
→ DSP 関係では依存関係が複雑だったりするので、HPC な場合と違ってコンパイラ的には難しいかな。小さなループで依存関係がある場合は、チップの上でなんとかできるが、大きい場合には一度ローカルメモリに吐き出してから処理する必要があります。

再構成プロセッサ FE-GA 上への FFT へのマッピング

日立の佐藤さん。数学のご出身なのですね(かっこいい!)。
ALU-MUL-ALU-ALUな構成だが、右からも左からもデータが流せたりするので、MUL-ALU-ALU-ALU とか、MUL が3つめ4つめにあるような構成を取ることもできる。
基数2の Cooley-Tukey 型を、4×4 cell に入れて、FE-GA にふたつ載せる。
セル利用率 90.5% でサイクル数オーバーヘッドは 3.5%。

Q & A

トヨタITの方: FFTを効率よくするためにクロスバを導入したりしているようなのだが、アプリケーションを載せてみてアーキテクチャにフィードバックしたのはどんな点?
→ クロスバは最初から載せようか、という感じだったのだけれど、MUL をどの列に置くかをわりと自由にとれるような機構 (FFT では最初の行に置きたかった) とかを入れてもらった。あと、メモリから ALU に転送するときの遅延を自由にとれる仕掛けとか。
1k point とか 2k point の場合、基数を4とか8にすると思うのだが、基数が上がった場合に同じような実装で対応できるのでしょうか?
→ まあ、同じバタフライなので、なんとかなるんでないかと。途中で分割する必要はあるけれど。
飯田先生@熊本大: 4×8 というサイズはアプリケーションを作ってみて最適だとわかったのか、大きくしたり小さくする必要はどうなのか。
→ コアを複数接続することによるスケーラビリティはあるので大丈夫だと思う。ただ、いまのところマルチメディアな小さいものしかやっていないので、WLAN のようなのをやると難しいかも。