2011年 1月 11

HTMLから本文(らしき)部分を抜き出せるとっても便利なモジュール。
HTML::Feature 3.00 リリースしました – ダウンロードたけし(寅年)の日記

オプションを指定する場合にちょいとバグがあるので修正。
CPANのバグ報告とか分からないので(汗

PATHは環境によって違うかも知れません。

/usr/lib/perl5/site_perl/5.8.8/HTML/Feature.pm

sub _setup {
    my $self = shift;
    $self->front_parser( HTML::Feature::FrontParser->new( context => $self ) );
    $self->engine( HTML::Feature::Engine->new( context => $self ) );
    # if ( !$self->{not_encode} ) { # Bug!?
    if ( !$self->config->{not_encode} ) {
        $self->{enc_type} ||= "utf8";
    }
}

/usr/lib/perl5/site_perl/5.8.8/HTML/Feature/Fetcher.pm
sub _setup {
    my $self    = shift;
    my $c       = $self->context;
    my $fetcher = LWP::UserAgent->new;
    my $config  = $c->config;
    if ( $config->{user_agent} ) {
        # $fetcher->user_agent( $config->{user_agent} ); # Bug!!
        $fetcher->agent( $config->{user_agent} );
    }

More from my site


Filed under: perlモジュール

Trackback Uri



コメントする