wildcatsの日記

赤羽在住でIT関係の会社の社長やってます。

blogやニュースサイトの本文抽出

任意のサイトの本文抽出のアルゴリズムを考えてます。
目指すところはこんな感じ。

今のところ


PlainTextParser parser = new PlainTextParser();
String value = parser.convert("http://d.hatena.ne.jp/wildcats/20090428");
System.out.println(value);
で結果はこんな感じ。

Apacheが死んでる臭いですね。wildcats.mydns.jpにアクセス出来ないっぽい。追記:ルーターの設定をしくってたみたい。再開しました。 電車内でこの動画を見てマジに吹いたwwwww周りからは変な目でジロジロ見られるし。。。(^^;シンクロ自重wwwwww「日光テレビショッピング」辺りはなんとか我慢できるのだけど「上様ご乱心シリーズ」はかなり僕のツボにはまったらしい。とりあえずDDRをやったことある人は電車内でiPhoneを使ってこの動画を見よう。吹いたら打ち首ってタグにぴったりですw
いろいろとテストサイトを増やしてみる予定です。