というわけで、OpenPBS/torque + maui を導入したのだが、計算ノードのどれかが reboot したりすると、走っているジョブが全部 restart する、という困った状態で悩んでいた。
で、結論からいうと、diskless (NFSroot) で /var まで共有してたのが悪かった。/var を共有するなんて、かなり恐ろしいことなのだけれど、いままでなんとなく動いてたのでそのままにしてたわけだが、やっぱりダメでした。はい。
ほんとは正式な対応方法があるんだろうけれど、pbs_mom を起動する前に個別の /var を NFS で mount するようにして、とりあえずちゃんと動くようになりました。めでたし。
いやー、ちゃんと動くとこれ、ほんと便利です。