PHP Simple HTML DOM Parser
カテゴリ:PHP 投稿日:2016年3月9日PHP Simple HTML DOM Parserというのを見つけたんでメモ
これはHTMLファイルを簡単にパースして特定の要素を引き出せるやつです。requireして使います。
まずこちらからダウンロードしてFTP等で上げます。
とりあえずfile.htmlというファイルから.contentクラスに入ってるデータを抜いてみましょう
require_once 'simple_html_dom.php'; //読み込む $url='file.html'; //ファイル指定 $html = file_get_html($url); $ret = $html->find( '.content' ,0); //findを使う。0を指定して一番最初のやつを取得 //print_r($ret); $text=$ret->plaintext; //textを取得
print_rで$retを見るといろいろなデータが入っているのがわかると思います。もちろん(‘.content’)はid=”content”なら(‘#content’)、aタグなら(‘a’)にすれば取れます。またdiv id=”content”なら(‘div[id=content]’)でOK、divでかつclassがあるやつなら(‘div[class]’)で、(‘comment’)でコメントが取得できます。
また、コンマで複数条件の取得や(‘div p’)でdiv内のpを取り出せたりとなかなかいろいろ面白いことができるようです。
参考: PHP Simple HTML DOM Parserの使用方法 – Webスクレイピング ライブラリ