2009年 1月 28

HTMLから本文を抜き出せるモジュール

HTML::ExtractContent

作者:伊奈林太郎(id:tarao)
解説スライド:http://up.orezdnu.org/papers/Kansai.pm/2009-03-22/slide.pdf
参照:http://perl-mongers.org/2008/10/extract-content-from-html.html

HTML::ContentExtractor
参照:http://d.hatena.ne.jp/tohtas/20081102/1225642884

HTML::ContentExtractor + Lingua::JA::Summarize::Extract
参照:http://naoya.g.hatena.ne.jp/naoya/20070324/1174712425

HTML::Feature
参照:http://d.hatena.ne.jp/download_takeshi/20071026/1193410600


Filed under: perlモジュール

Trackback Uri