wildcatsの日記

赤羽在住でIT関係の会社の社長やってます。

2009-05-17から1日間の記事一覧

blogやニュースサイトの本文抽出

任意のサイトの本文抽出のアルゴリズムを考えてます。 目指すところはこんな感じ。 今のところ PlainTextParser parser = new PlainTextParser(); String value = parser.convert("http://d.hatena.ne.jp/wildcats/20090428"); System.out.println(value);で…