Parallax Image

Cutls Code Archives


SNZ 2016

PHP Simple HTML DOM Parser

カテゴリ:PHP 投稿日:2016年3月9日

PHP Simple HTML DOM Parserというのを見つけたんでメモ
これはHTMLファイルを簡単にパースして特定の要素を引き出せるやつです。requireして使います。
まずこちらからダウンロードしてFTP等で上げます。
とりあえずfile.htmlというファイルから.contentクラスに入ってるデータを抜いてみましょう

require_once 'simple_html_dom.php';
//読み込む
$url='file.html';
//ファイル指定
$html = file_get_html($url);
$ret = $html->find( '.content' ,0);
//findを使う。0を指定して一番最初のやつを取得
//print_r($ret);
$text=$ret->plaintext;
//textを取得

print_rで$retを見るといろいろなデータが入っているのがわかると思います。もちろん(‘.content’)はid=”content”なら(‘#content’)、aタグなら(‘a’)にすれば取れます。またdiv id=”content”なら(‘div[id=content]’)でOK、divでかつclassがあるやつなら(‘div[class]’)で、(‘comment’)でコメントが取得できます。
また、コンマで複数条件の取得や(‘div p’)でdiv内のpを取り出せたりとなかなかいろいろ面白いことができるようです。
参考: PHP Simple HTML DOM Parserの使用方法 – Webスクレイピング ライブラリ