雑文発散

«前の日記(2014-04-29) 最新 次の日記(2014-05-01)» 編集
過去の日記

2014-04-30 [長年日記]

[] Treasure Data が面白い

最近、ようやくナチュラルに Treasure Data の Hive QL を叩けるようになってきて、いろいろな調査で使えるようになってきた。

どうやって計測したら良いか?と考えつつ突っ込んでおいたログから、意図通りの結果が引き出せると気持ちいい。

ただ、まだまだ RDBMS 的なクエリしか書けないので、もっと MapReduce を意識した書き方ができるようにならないとなぁとは思う。そんななか、今日やっと、CLUSTER BY の効果を実感できた。

以前から良く読ませて貰っている「ほぼやけくそHive Hacks」で、CLUSTER BY の存在自体は知っていたんだけど、どう使えば良いものなのか、いまひとつピンと来ていなかった。

でも、今日の調査時に作成していたクエリで「あー、こうやって使えばいいのか!」と理解できる瞬間があって、それ以後のクエリで使うようにした。

オレ、こういう「理解できる瞬間」がすごく好きなんだよねぇ。だから、これからもいろいろな知らないことを勉強していきたいと思う。