Hive の UDF を作ったので、それを使ったクエリを作成して実行テストしているんだけど、まだ何かの原因でうまく動かない場所があるので試行錯誤中。ぬるぽとか出てくるんだよ、ぬるぽとか。
ちょっと元のデータが大きいのもあって、クエリ実行に時間がかかるのが難。時間がかかったあとでエラーとかが発生するので、なかなかツライ。
動作が安定するまでもっと小さなデータセットで動かせばいいんだけど、コケる原因のデータを特定する段階では、そういうわけにもいかないので結局大きなデータセットに向けてクエリを投げるのであった。
クエリ実行中の待ち時間を有効活用するために、別の作業をしたりしているけど、あんまりマルチタスクでの作業は得意じゃなくて、どちらのタスクの進捗も悪くて、どんどん自分のモチベーションが下がってしまって苦しい気分。