最近、ようやくナチュラルに Treasure Data の Hive QL を叩けるようになってきて、いろいろな調査で使えるようになってきた。
どうやって計測したら良いか?と考えつつ突っ込んでおいたログから、意図通りの結果が引き出せると気持ちいい。
ただ、まだまだ RDBMS 的なクエリしか書けないので、もっと MapReduce を意識した書き方ができるようにならないとなぁとは思う。そんななか、今日やっと、CLUSTER BY
の効果を実感できた。
以前から良く読ませて貰っている「ほぼやけくそHive Hacks」で、CLUSTER BY
の存在自体は知っていたんだけど、どう使えば良いものなのか、いまひとつピンと来ていなかった。
でも、今日の調査時に作成していたクエリで「あー、こうやって使えばいいのか!」と理解できる瞬間があって、それ以後のクエリで使うようにした。
オレ、こういう「理解できる瞬間」がすごく好きなんだよねぇ。だから、これからもいろいろな知らないことを勉強していきたいと思う。