blogやニュースサイトの本文抽出
任意のサイトの本文抽出のアルゴリズムを考えてます。
目指すところはこんな感じ。
今のところ
で結果はこんな感じ。
PlainTextParser parser = new PlainTextParser();
String value = parser.convert("http://d.hatena.ne.jp/wildcats/20090428");
System.out.println(value);
いろいろとテストサイトを増やしてみる予定です。
Apacheが死んでる臭いですね。wildcats.mydns.jpにアクセス出来ないっぽい。追記:ルーターの設定をしくってたみたい。再開しました。 電車内でこの動画を見てマジに吹いたwwwww周りからは変な目でジロジロ見られるし。。。(^^;シンクロ自重wwwwww「日光テレビショッピング」辺りはなんとか我慢できるのだけど「上様ご乱心シリーズ」はかなり僕のツボにはまったらしい。とりあえずDDRをやったことある人は電車内でiPhoneを使ってこの動画を見よう。吹いたら打ち首ってタグにぴったりですw