『Dapper』を使ってRSS化されていないページの特定データを抽出する。

これをご覧になっている方は、”RSSを使ってブログを巡回”している人もいらっしゃるかと思います。
しかしRSS未対応のページや表の特定部分を抜き出して他で利用する場合、どうしたらいいのでしょうか。

以前RSSを提供していないHPからRSSを発行するサービスをご紹介しました。
これはサイトのURLを入力するだけで自動でRSSが発行されるものでした。

■RSS配信のないホームページからRSS受信をする。
http://haaya.net/1533

しかし、必要のない広告なども一緒に出力されてしまいます。
今回はもう少し進んで、特定部分の抜き出しを『Dapper』というwebサービスを使って
抽出をしてみようと思います。画像が多いのでご注意ください。

■今回作ろうと思うもの
NHK BSのホームページにある映画情報をRSSとして取得する。

NHK BSオンライン 映画カレンダー
http://www.nhk.or.jp/bs/cinemacalendar/index.html

■まず以下ページを開き、『Create a new Dapp』をクリック。
Dapper: The Data Mapper
http://www.dapper.net/

■先ほどのNHKのURLを入力し、『Dapp XML』を選択、『Next Step』。

■Dapper編集画面の中に先ほどのカレンダーが読み込まれます。
『Add to Basket』をクリックし『Next Step』。

■Dapperそのものは、複数のウェブサービスを組み合わせるコンセプトなので、単体で登録となると注意が出ます。
複数サービスを登録する場合には、先ほどの画面でアドレスバーに登録したいページを追加していくことで可能です。

■Dapperのミソとなる部分です。どの項目を抜き出すのか指定します。
今回は映画の日時とタイトル、内容が取り出せれば十分です。
日時部分をクリックして、取り出します。
余分な項目まで含まれてしまった場合には個別項目を『Clear』として除外します。
完成したら『Save Field』をクリック。

■フィールドの名前を入れます。項目名と考えていいのではないでしょうか。

■今度はタイトル、内容を取り出します。
同様に完成したら『Save Field』をクリック。

■フィールド名を入力します。

■さて、二つの項目を抜き出すことができました。ここで『Next Step』。

■抜き出した項目を組み合わせるために、グループ名をつけます。
チェックボックスにチェックを入れ、『Save Group』をクリック。グループ名をつけます。

■もうすぐ完成です。『Next Step』をクリック。

■初めて利用する場合にはユーザー登録が必要です。
適当なユーザー名、メールアドレス、パスワードを入力し、規約に同意して、『Next Step』をクリック。

■完成したものに名前と、説明、タグをつけ『Save』。
『Next Step』をクリック。

■どの形式で表示するのかを選択します。
今回はRSSでほしいので、『RSS Feed』をクリックして『Go』。
もしもこの記事のトップに表示されているような形式がほしければ
『Google Gadgets』形式で出力するといいでしょう。

■タイトルに先ほど抜き出した際の項目名をつけ、さらにFeedの内容に何を表示するのかを選択します。
また、時間の並び替えも可能です。

■これで完成です。
NHK BS Movie

■Dapperにはアラート機能もあって、RSSで分析したページに特定項目の単語が現れると、
メールで知らせてくれることもできます。

■この場合、タイトルに『黒澤』という単語が含まれている場合アラートを起動し、
メールでお知らせしますということです。

■アラートのメールは以下のようになっています。
少し調整が必要ですね。

*大変長くなってしまいましたが、このDapperはもう少し注目されてもいい技術だと私は思います。
実は出力項目にGoogleMapsもあるので、住所リストから地名と住所を抽出してGoogleMapsにマッピングすることも可能です。
今回NHKの映画カレンダーを選択しましたが、みなさんの周りにはまだまだ加工しがいのあるコンテンツが転がっています。
ぜひ挑戦してみてください。

SNSでもご購読できます。