RECONF2005 56-58 (Nov.30, Application I)

ダイナミックリコンフィギャラブルプロセッサ DAPDNA-2 による1次元・2次元FFTの実装変な仕事してて全然メモがとれないんですが、ポイント数が増えてもリニアな時間の増加で済む感じ。 爆発したりはしない。

ダイナミックリコンフィギャラブルプロセッサ DAPDNA-2 による1次元・2次元FFTの実装

変な仕事してて全然メモがとれないんですが、ポイント数が増えてもリニアな時間の増加で済む感じ。爆発したりはしない。

Q & A

濱田さん@理研: 浮動小数点なバタフライコアってどうしてますか?昔、SPRING-8用の単精度よりちょっと落とした奴を使うためのエミュレータを作ったんですが
→すいません、固定小数点でやっとります
→わしのエミュレータって全然つかえないですかね?
→あうあう、それ知らなかったです

動的リコンフィギャラブルプロセッサ DRP-1 におけるアダプティブコンピューティング

しょーへーさんよーへーさん。

Q & A

飯田先生: Viterbi ってけっこう効果的な感じのアプリだと思いますが、一般的な adaptive computing のやり方としてはどんなことを考えてますか?
→バッテリの残りとか環境とか
サムスンの方: 実際の無線システムではマルチレートをやるのに符号化レートを変えたりするので、拘束長をかえることはあまりしないと思うんですが、それをやめて拘束長をいじるのにどんなメリットが?
→無線での実用よりも、adaptive なハードウェアの一例としての実装なのです。
ターボ符号とかは?
→まあ、もう結論でちゃった感じなのでやらなくてもいいかなと

リアルタイム組み込みシステムの動的再構成可能プロセッサへの一実装方法の提案

この時間、内職の負荷がピークに達してまして、なにもきいてませんすみません。
リアルタイムな処理で動的再構成なデバイスを使う場合にどうコンテキストを分割したらコンテキスト切り替え時間がクリティカルにならずに済むか、みたいな話。ちゃんと解こうとすると NP 困難になってしまうので、ヒューリスティックに解決しようとする方向性。
最早実行可能条件とか最遅実行許容時間とか。
MPEG デコーダの処理フローをモデルとしてスケジューリングしてみた。分割してもしなくても同じ時間でできる=つまりハードウェア量だけ減ってウハウハ。
ひろなか先生:どんなデバイスをモデルとしてやっている?
→DRP みたいなやつ。全面切り替えな動的再構成で、状態を維持したまま追い出されたり戻ってきたり。
ふつうの OS (ソフトウェア)でやるのと似ているのだけれど、DR なデバイスと違うのはどこ?
→DR なデバイスで、面積が限られているような場合には、いままでは全部並列に動かせてたのを別のコンテキストに割り付けなきゃいけなくなって待ち時間が発生したりするわけだが、それで実行時間が守れなくなったりすると困るぜー、というのが大事なところです。つまり、スケジューリングにコンテキスト分割のところまで含まれるところが難しいぜ、ってことですな。並列度が変化したりするというところ。 (共著の木谷さん)
IPFlex の方(芝さん?): 特定の RTOS の上で制御をする、ということを考えているのか?
→このやり方を OS とかに組み込んでやるみたいな感じだ (ということを話していた)
→おっと、直接ハードウェアにこれを実装することを考えているんですよ(共著者の先生)
IPFlex の方(佐藤さん?): ハードウェアでやる場合に、外部の状況によってどうするかが変わってくること (電波状況で分岐のしかたが変わるとか) があると思うのだけれど、対応のさせ方のシナリオみたいなのはどうやって選択する?
→今回のは固定時間で処理が行われることしか考えてないので、今後の課題でございます

RECONF2005 53-55 (Nov.30: architecuture I)

粒度可変構造を持つ再構成論理セルアーキテクチャの提案熊本大の尼崎さん。 算術演算 (ALU) と論理演算 (LUT) の割合はアプリケーションによって違う。

粒度可変構造を持つ再構成論理セルアーキテクチャの提案

熊本大の尼崎さん。
算術演算 (ALU) と論理演算 (LUT) の割合はアプリケーションによって違う。ひとつもしくは複数のセルで両方を効率よく実現できたらうれしい。LUT のように論理の完全性をもち、加算器も表現できるようなセルの実現。
ハイブリッドセル (HC) を複数使うことで LUT もつくれるし、FA も作れる。キャリーパスとかを制御するために、HCの前に前置ロジックを置き、4個の HC をまとめた VGLC (Variable Grain Logic Cell) をひとつのロジックセルとして扱う感じ。RCA (Ripple Carry Adder) とか、LUT、MUX などになることができる。VGLC は 4HC, 20bit のメモリを持ち、18 入力 11 出力。
コンフィギュレーションビット数はたいていの場合、かなり減る。面積 (ROHM 0.35umで評価) もかなり。ロジックの面積効率なんかがかなり良くなる感じで、面白そう。チップ作ったりCAD作ったりする予定、だそうだ。

Q & A

NEC梶原さん: 論理表現能力の評価、n 変数の関数をいくつ HC 1 つで表現できるかでやってるんだけれども、実際にテクノロジマッピングをやってみたら、もっとかっこよくなるんでないか?
→次の人が乗算器とかのマッピング結果をしゃべります
→算術系じゃなくてランダムロジックもやるといいかもね
ふんがさん: 変数が多い場合とかは2変数に落とすんですか
→表現できない場合は演算器として使うのではなく、標準形に落としてやります。
→RCA だけど、32bit なんかの場合はだいじょうぶ?
→4bit RCA が最適かどうかはわからない。今後多ビットの構成についても考える。

粒度可変構造を持つ再構成論理セルを用いた基本演算回路の実装

乗算: 2次Booth
除算: 非回復法
VGLC へハンドマッピングして、VGLC の数 x VGLCひとつあたりの Tr 数とか、ASICで同じものを作った場合の Tr 数とかを比較。
Boothデコーダでは、3-LUT と Misc Logic (VGLC のゲートをうまいこと直接利用するやつ) で実現。

Q & A

ルネサスの方: 乗算器とか除算器で評価をとっているが、実際にはステートマシンの構成などで、配線の自由度がものをいうことになるのでは?
→ クラスタリングされていて内部の配線と外部の配線があるので、そのへんは分けて評価していかないといかんですね (飯田先生)
NECの梶原さん: Xilinx の比較的古いタイプの LUT と比較しておられるのだが、最近のクラスタ化されたものと比較するとどんな感じですか
→ 簡単にするために 4-LUT + D-FF ひとつのと比べたが、これからもっと詳しくやりたい

無線物理層のためのリコンフィギャラブルハードウェア構成法の一検討

無線物理層の構成はデータフロー型で、機能別に分けやすいし、なんとなく煮ている。FFT のポイント数とかがそれぞれ違ってくる感じなので、パラメータ設定でマルチモード端末を構成可能なハードウェア構成の検討ができそう。Reconfigurable というより、parameterizable かも。
FPGA を (たっくさん) 使ってプロトタイプを作っておりますです。Compact PCI で接続。

Q & A

ふんがさん: どれくらい専用化されてどれくらい汎用性がある?
→ バタフライ演算を丸ごとできるようなロジックユニットが必要。FPGA だと、スピードを上げるためにゲート使用率を下げなきゃいけなくて、性能的にしんどい。

カレー大バトル

もともと誘ったのは俺という見方もできるのだが、日程を決めたのは俺じゃないぞ。… とりあえず寝たい。

日曜にカレー食べに行こう、と誘われました。
もともと誘ったのは俺という見方もできるのだが、
日程を決めたのは俺じゃないぞ。
体調整えておきます。
とりあえず寝たい。

Starbucks @ Kokura

昨日の夜いろいろ仕事が進んだので、今日は D 論の章立てとか、その他の仕事で書くもののアウトラインとか、いろいろ準備的な仕事。… おいしそうなケーキ屋さんがいっぱいあるんだけど…

いま小倉のスターバックス。
小倉には珈琲館がないらしいので、スターバックスにやってきました。
昨日の夜いろいろ仕事が進んだので、今日は D 論の章立てとか、
その他の仕事で書くもののアウトラインとか、いろいろ準備的な仕事。
おみやげどうしよっかなー、と思うわけですが。めんたいこ?
おいしそうなケーキ屋さんがいっぱいあるんだけど…
甘いものがいいなぁ。

エチゼンクラゲ

長江流域の急速な発展で富栄養化が進んで、河口付近で大量発生したのが、5億匹/day とかで日本のほうに流れてくるんだそうだ。 なんでも、死ぬまででかくなり続けるんだそうで、でっかいのは直径 1m とか 2m で、100kg だとか 200kg だとか。

NHKでエチゼンクラゲの番組やってた。
長江流域の急速な発展で富栄養化が進んで、河口付近で大量発生したのが、5億匹/day とかで日本のほうに流れてくるんだそうだ。なんでも、死ぬまででかくなり続けるんだそうで、でっかいのは直径 1m とか 2m で、100kg だとか 200kg だとか。
で、はじめて知ったのだが、クラゲっていう奴は、あのいっぱいある触手の毒針でプランクトンとかを無差別攻撃して、そのまま吸い込むんだそうだ。しかし、殺した奴を全部吸い込めるわけはないうえに、小さい魚なんかも巻き込まれるわけで、1日で 50m プール一杯分くらいの容積の水が攻撃対象になるのだとか。それが毎日5億匹ですよ。
ヘリコプターからの映像みたら、海にいっぱい白い丸いのが浮いていて、びびった。こりゃ生態系も崩れますよ。
定置網に、魚に混じってクラゲが入ってるんじゃなくて、クラゲに混じって魚が入ってる映像に仰天。なんとかならんのかこれ。

now in ひろしま

広島で何やってたかというと、自転車でくるはずが電車になっちゃったので時間が余って、結局いつもの珈琲館で、論文書いてたわけですが。

広島で何やってたかというと、
自転車でくるはずが電車になっちゃったので時間が余って、
結局いつもの珈琲館で、論文書いてたわけですが。
Dscn0812
Dscn0816

テナント料

広島のカフェにて。… 土日とかの、お客さんがいっぱい入る日の売り上げ 1.5 日分くらいで、一ヶ月のテナント料が払えるくらいじゃないとダメだそうだ。

広島のカフェにて。
隣の席は美容師さんの採用面接。
土日とかの、お客さんがいっぱい入る日の売り上げ 1.5 日分くらいで、
一ヶ月のテナント料が払えるくらいじゃないとダメだそうだ。

DesktopManager

OS X は、アプリケーションからの描画要求を処理して、各ウィンドウのビットマップイメージを作成する。 んで、これはテクスチャとして OpenGL なレンダリングエンジンに投げる。

Desktop Manager
OS X 用の仮想画面ソフト。Quartz Extreme が必要。
まじすげえ。超カッコいいっす。速いし。
Quartz Extreme ってなんじゃい、と思って調べたのだが、
つまりこういうことだ。
OS X は、アプリケーションからの描画要求を処理して、各ウィンドウのビットマップイメージを作成する。んで、これはテクスチャとして OpenGL なレンダリングエンジンに投げる。こうすることで、ウィンドウが移動したりとか透明になったりとか、ぐにょーっと変形して下の方に引っ込んだりとか、そういう操作が可能な限りグラフィックコントローラのハードウェアの仕事になる、と。
んで、これを使うと仮想画面なんて簡単だと、そういうわけですな。これなら Expose とかそういう仕掛けもまったく不思議じゃないわけですよ。縮小表示されたウィンドウが普通に動いてるのとかを見てぎょっとしたんですが、縮小と antialias がハードウェア処理されてるなら、そんなにしんどくもならないわけで。実に素晴らしい。
Windows の次のバージョンは 3D になるとか、Unix でも Looking Glass (だっけ?) とか、ウィンドウを 3D な空間に表示する仕掛けは他にもいろいろ模索されてるわけだが、OS X は見掛けがおとなしいだけで、実は結構過激な実装になってるみたいだ。むふふ。