2015年 8月 1

plenvをhomebrewでインストールしたから?

  1. 新しいユーザー作成
  2. gitでplenvインストール
  3. Web::Scraperインストール

やはりscraperコマンド使えない…。

$ find ~/ -name scraper
.cpanm/work/1437464088.4723/Web-Scraper-0.38/bin/scraper

ソースはあるようなのだが…。しかたがないので手動で設置。

scraper コマンドを作成

~/.plenv/shims に他のコマンドが置いてあるようなので、ここに設置。

$ cd ~/.plenv/shims
$ touch scraper
$ chmod 755 ./scraper

catしたscraperコマンドのコード

先程作ったファイル(コマンド)を編集する。1行目は #!/usr/bin/env perl に変更すること。

#!/usr/bin/perl
use strict;
use warnings;

use Config;
use Term::ReadLine;
use Data::Dumper;
use HTML::Entities;
use URI;
use Web::Scraper;
use YAML;

sub WARN() {
    return sub {
        warn $_->isTextNode
            ? HTML::Entities::encode($_->as_XML, q("'<>&))
            : $_->as_HTML(q('"&<>), "", {});
    };
}

my $print = sub {
    if ($ENV{PAGER}) {
        open my $pager, "|$ENV{PAGER}";
        print $pager @_;
    } else {
        print @_;

    }
};

my(@stack, $source);

my $stuff   = process_args($ARGV[0])
    or die "Usage: scraper [URI-or-filename]\n";

my $term    = Term::ReadLine->new("Web::Scraper");
my $scraper = scraper { run_loop($_[0], $term) };
   $scraper->user_agent->env_proxy;

my $result  = $scraper->scrape($stuff);

sub process_args {
    my $uri = shift;

    if (!-t STDIN and my $content = join "", <STDIN>) {
        $source = [ 'stdin' ];
        return \$content;
    } elsif ($uri && $uri =~ m!^https?://!) {
        $source = [ "URI", $uri ];
        return URI->new($uri);
    } elsif ($uri && -e $uri) {
        $source = [ 'file', $uri ];
        open my $fh, "<", $uri or die "$uri: $!";
        return join "", <$fh>;
    }

    return;
}

sub run_loop {
    my($tree, $term) = @_;
    while (defined(my $in = $term->readline("scraper> "))) {
        if ($in eq 'd') {
            $Data::Dumper::Indent = 1;
            warn Dumper result;
        } elsif ($in eq 'y') {
            warn Dump result;
        } elsif ($in eq 's') {
            $print->($tree->as_HTML(q('"&<>), "  ", {}));
        } elsif ($in eq 'q') {
            return;
        } elsif ($in eq 'c') {
            print generate_code($source, $stack[-1]);
        } elsif ($in =~ /^c\s+all\s*$/) {
            print generate_code($source, @stack);
        } else {
            my $res = eval $in;
            warn $@ if $@;
            push @stack, $in unless $@;
        }
    }
}

sub generate_code {
    my($source, @stack) = @_;

    my $code_stack = join "\n", map { "    $_" . (/;$/ ? "" : ";") } @stack;
    my($var, $stuff) =
        $source->[0] eq 'stdin'         ? ('$input', '\join "", <STDIN>') :
        $source->[0] eq 'URI'           ? ('$uri',   qq(URI->new("$source->[1]"))) :
        $source->[0] eq 'file'          ? ('$file',  qq(\\do { my \$file = "$source->[1]"; open my \$fh, \$file or die "\$file: \$!"; join '', <\$fh> })) :
                                          '...';

return <<CODE;
#!$Config{perlpath}
use strict;
use Web::Scraper;
use URI;

my $var = $stuff;
my \$scraper = scraper {
$code_stack
};
my \$result = \$scraper->scrape($var);
CODE

}

とりあえず scraperコマンドが使えるようになった。

More from my site

  • Mojoliciousでactionの前後に実行される独自のHookを作る。before_action、after_action編Mojoliciousでactionの前後に実行される独自のHookを作る。before_action、after_action編 PerlのWebApplicationFrameworkであるMojoliciousでは様々なフックが用意されているのだけれど、actionの前後だけに実行したい場合は独自にフックポイントを追加しないといけない。 実装方法その1 一番単純な実装方法はaround_actionフックを使うのが良さそう。actionは$lastフラグが真の時に実行されるので前後に独自のフック […]
  • Net::Google::Analytics::OAuth2 で「エラーredirect_uri_mismatch」って言われてrefresh_access_tokenが取得できない時の対処方法Net::Google::Analytics::OAuth2 で「エラーredirect_uri_mismatch」って言われてrefresh_access_tokenが取得できない時の対処方法 refresh_access_tokenの取得 Google AnalyticsのAPIを活用してごにょごにょしたくてPerlでGoogle AnalyticsへアクセスするならNet::Google::Analyticsが便利 - ゆーすけべー日記を参考に試していたのだけれど、refresh_access_tokenが取得できない。 use […]
  • print <<EOM;〜EOMの中にperlの式を書くprint <<EOM;〜EOMの中にperlの式を書く ヒアドキュメントの中でPerlの式を書く print <<EOM; あいうえお かきくけこ EOM こんなのをヒアドキュメントという(らしい) この中にperlの式を埋め込むテクニック。 リンク先より引用 print <<EOM; TIME: @{[ time() ]} EOM 実行結果 TIME: […]
  • perlでirbしたいと思ったら出来るみたいperlでirbしたいと思ったら出来るみたい 前にRubyの勉強会に参加した時に irb を教えてもらって、便利だったのでPerlでも同じようなことが出来ないかググったら出来るみたい。 Perl5 で irb 相当のことをする方法、すなわち REPL をする方法 - blog.64p.org Perl5 で REPL(Read-Eval-Print-Loop)をつかいたければ、perl -de 1 […]
  • [Perl] DBIx::Class(DBIC)でtimestamp的なカラムの自動更新[Perl] DBIx::Class(DBIC)でtimestamp的なカラムの自動更新 今更ながらDBIx::Class(DBIC)に入門。使い始めてDBICの作法に翻弄されてる。 timestamp的なカラム、例えばupdated_atカラムを自動更新させるのにハマったのでメモ。 03日目: データモデル から抜粋 package Jobeet::Schema::ResultBase; use strict; use warnings; use […]
  • Amon2のロギングにLog::Handlerを使うAmon2のロギングにLog::Handlerを使う Amon2でログを取るにはLog::Minimalが推奨されている。 Logging — Amon2 6.11 documentation Log::Minimalが推奨されているけどファイルに書き出すのにコード書く必要があるっぽいので別のモジュールを探す。 ログモジュールのベンチマーク - […]

Filed under: perl

Trackback Uri



コメントする