blogやニュースサイトの本文抽出

任意のサイトの本文抽出のアルゴリズムを考えてます。
目指すところはこんな感じ。

今のところ



		PlainTextParser parser = new PlainTextParser();

		String value = parser.convert("http://d.hatena.ne.jp/wildcats/20090428");

		System.out.println(value);

で結果はこんな感じ。

Apacheが死んでる臭いですね。wildcats.mydns.jpにアクセス出来ないっぽい。追記：ルーターの設定をしくってたみたい。再開しました。電車内でこの動画を見てマジに吹いたｗｗｗｗｗ周りからは変な目でジロジロ見られるし。。。(^^;シンクロ自重ｗｗｗｗｗｗ「日光テレビショッピング」辺りはなんとか我慢できるのだけど「上様ご乱心シリーズ」はかなり僕のツボにはまったらしい。とりあえずDDRをやったことある人は電車内でiPhoneを使ってこの動画を見よう。吹いたら打ち首ってタグにぴったりですｗ

いろいろとテストサイトを増やしてみる予定です。

wildcatsの日記

赤羽在住でIT関係の会社の社長やってます。

blogやニュースサイトの本文抽出