CUDAで実行時間を測る方法

今までCudaUtilsライブラリ?に含まれるcutCreateTimerなどのTimer系マクロを使用していたのだけれど、今日たまたまCUDA関連で検索してたらclock関数というので計測する方法もあることを知った。

ソースとコメントをチラッと見てみたのだけれど、どうやらC標準のclock関数ではなくきちんとGPUのクロックを取得してくれるみたい。ただ、この関数とcut〜Timer系関数の関係性は不明。なんとなくcut〜Timerからこのclock関数を呼び出しているのではないかと予測するが、両方のキーワードで検索などしてみてもまったくページが出ない。
ただ、今までcut〜はカーネル外で使用していたので、もしかするとカーネル内ではclock関数しか使えないのかも。