雑文発散

過去の日記

2014-04-30 [長年日記]

最近、ようやくナチュラルに Treasure Data の Hive QL を叩けるようになってきて、いろいろな調査で使えるようになってきた。

どうやって計測したら良いか？と考えつつ突っ込んでおいたログから、意図通りの結果が引き出せると気持ちいい。

ただ、まだまだ RDBMS 的なクエリしか書けないので、もっと MapReduce を意識した書き方ができるようにならないとなぁとは思う。そんななか、今日やっと、CLUSTER BY の効果を実感できた。

以前から良く読ませて貰っている「ほぼやけくそHive Hacks」で、CLUSTER BY の存在自体は知っていたんだけど、どう使えば良いものなのか、いまひとつピンと来ていなかった。

でも、今日の調査時に作成していたクエリで「あー、こうやって使えばいいのか！」と理解できる瞬間があって、それ以後のクエリで使うようにした。

オレ、こういう「理解できる瞬間」がすごく好きなんだよねぇ。だから、これからもいろいろな知らないことを勉強していきたいと思う。