Hapyrusで気軽にHadoop MapReduceを試す - 愛と勇気と缶ビール

本日の社内勉強会で、id:a_bicky先生にHadoop + MapReduceの話をしてもらった。面白かった。その時に、気軽にMapReduce処理を試せるHapyrus (https://www.hapyrus.com/) というサービスを教えてもらったので、試しにHapyrusに登録して(現在Beta版らしい)アプリケーション作ってみた。

登録とかについては特に難しいこともなんもないので、割愛。

アプリを作成した後、こちらから (1) データソースとなるtextファイル(4000文字まで) or Amazon S3のデータ, (2) map用スクリプト/reduce用スクリプトの計3つを登録してやれば、雲のむこうのHadoopでMapReduce処理をしてもらえるらしい。

現在利用出来る言語はPerl/Ruby/Python（裏はHadoop Streamingなのかしら？）。今回はPerlで作成。また、データソースにはハムレットの一幕一場、父王の亡霊が退場するところまでのテキストファイルを使った。行う処理は、とりあえず初歩の初歩として、いわゆるword count。

mapとreduceの処理は以下のような感じ。サンプルのRubyをみるとどうやらコマンドラインから入ってきたものを上から全部ぺろぺろする、いわゆるcatのような食い方をしてほしそうだったのでそれに合わせた。

map script

use strict;
use warnings;

while( <> ) {
    my $line = $_;
    chomp $line;
    my @words = split /\b/, $line;
    print "$_\t1\n" for grep { $_ =~ /\w+/ } @words;
}

reduce script

use strict;
use warnings;

my %hash;

while( <> ) {
    my $line = $_;
    chomp $line;
    my ($word, $i) = split /\t/, $line;
    $hash{$word}++;
}

for my $key (keys %hash) {
    print $key . "\t" . $hash{$key} . "\n";
}