雑文発散

過去の日記

2015-05-28 [長年日記]

ちょっと Web ページのテキストを取得したくなった。

ブラウザで HTML ソースを表示してコピペするとか、curl コマンドでソースを落としてくるとかの方法はあるけど、特定の div 要素の中身だけを取り出すには、そこから先にちょっと手間がかかる。

「Web ページのテキストを取得したい」ということを実現するライブラリが世の中に存在しないはずは無いと思って Packagist で「scrape」を検索したら、何個も候補が出てきたので、パッと見で一番ダウンロード数が多い Goutte を使うことにした。

（PHP じゃない言語で、、、という考えもあったのだけど、目的を素早くこなす方を優先して今回はオレが一番慣れている PHP にした）

そういえば、以前もちょっと触ったことがあったなと思い出しながら、近い始めているんだけど、相変わらず「Goutte」の発音が分かってない。勝手に「ごうって」と読んでいるけれど、たぶん違うだろうな、これ（笑）

まぁ、この日記を書く時間があれば発音なんて調べられるわけなんだけど、この想いを伝えたくて文章化するのであった、まる。