2010-04-21(水) 22:47(UTC +0900) p Tweet
今週末、金曜日から日曜日にかけて実家へ帰省しておりました。
そのタイミングに合わせて(と云うつもりはなかったけど、結果的にそうなってしまった(爆))、以前からなんとか頑張っておりました
気象庁発表のデータを引用して Twitter で最新の火山噴火状況を呟くボット @vol_jp
も完成しましたのでお知らせ。
…↑と云うエントリを先週末には上げるつもりだったのですが、 blog の再開に手間取りまして、チョイと遅れてのご紹介です orz
結果的には、その後に色々と手直しもしているので、このタイミングで正解かも?(笑)
最終的に決めた仕様/ロジックは、次のような感じ。
- どうにかこうにかして、ターゲット URL の中身を取得
具体的には「気象庁 | 噴火に関する火山観測報」を狙う - 取得したリストを解析し、【爆発的噴火】した火山名と新着チェックに使える符号を抽出
- 抽出した符号から新着のインシデントであるかどうかを判断し、新着アリなら呟き処理へ、ナシなら終了処理へ、分岐
- 抽出した符号を使って組み立てられる詳細 URL を巡って、その中身を取得
- 詳細から取得した中身を解析し、(特に桜島対応として)年間の爆発回数や一報目、二報目の別を抽出
- 以上の処理で得られた諸々の情報を組み立て、それを Twitter 宛に API で呟く
- cron で巡回させる周期の間に複数回報が入ることがあるので、その回数分繰り返せるようにループ処理化
- 終了処理として、最新インシデントをログに書き出し、次回の新着チェックに使う判断子とする
- cron で回す周期は10min毎、発動は「毎9分」とする
- 詳細の URL が長いので短縮 URL にする
- opt: 英語で呟く別の bot も?
用いた言語は PHP で、理由は「何となく」です。
抽出(スクレイピング?)については、正規表現でサクッと、かつ、上手いこと応用できる記事を見つけたのでそちらを見ながら組み立て。
プログラムやら弄るのは久しぶりだし、 PHP 触るのも初めてだしッてコトで、ファイルの読み書きヒトツにも苦労したり…
あと、ループ処理に手こずりまして、公開後に何度も暴走させて連投被害を振りまいてしまったり orz
しかし、それ以外ではかなり楽させてもらいました。
特に、 bot として Twitter に接続する為の認証手順 OAuth や、詳細 URL を短縮させる bit.ly (j.mp) API の利用など、サンプルを頂いて取り込むだけで使えるようになるのは、素晴らしいですね!
実は、この辺が面倒そうだったのでなかなか bot を作ろうという気になれなかったんですけど、なるほど、整備済みの高速道をヒョイと利用するッてのはこんな感じなのか。
そんな感じで、参考にさせてもらったところのリストと、実際のコードを掲示しておきます。
ツッコミ所があれば、ビシビシお願いしますね。
- Webページへの公開情報を自動的に抽出・取得する Yama’s Memorandum
- 「phpによるスクレイピング処理入門」を書いてみた りょーちの駄文と書評
- 無題メモランダム TwitterボットをOAuthに対応させてみた – Google App Engine(Python)
- PHPでTwitter APIのOAuthを使う方法まとめ 頭ん中
- PHPでBit.lyのAPIを使って省略化URLを取得する関数 KEINOSの日記
<?php
// 日本時間に設定
date_default_timezone_set('JST');
// OAuth
// twitteroauth.phpを読み込む。パスはあなたが置いた適切な場所に変更してください
require_once("パス");
// Consumer keyの値
$consumer_key = "キー";
// Consumer secretの値
$consumer_secret = "秘密";
// Access Tokenの値
$access_token = "トークン";
// Access Token Secretの値
$access_token_secret = "秘密トークン";
// OAuthオブジェクト生成
$to = new TwitterOAuth($consumer_key,$consumer_secret,$access_token,$access_token_secret);
/*
// TwitterへPOSTする。パラメーターは配列に格納する
// in_reply_to_status_idを指定するのならば array("status"=>"@hogehoge reply","in_reply_to_status_id"=>"0000000000"); とする。
$req = $to->OAuthRequest("https://twitter.com/statuses/update.xml","POST",array("status"=>"Test OAuth update."));
TwitterへPOSTする以外にも、TLの取得、呟きの削除などAPIをOAuth認証で行うことが出来ます。
例えば、TLを取得するのなら
$req = $to->OAuthRequest("http://twitter.com/statuses/friends_timeline.xml","GET",array("count"=>"50"));
$req_array = simplexml_load_string($req);
foreach($req_array as $tweets){~}
呟きをお気に入りに追加するのなら
$req = $to->OAuthRequest("https://twitter.com/favorites/create/00000000.xml","POST",array());
...といった感じです。詳しくはTwitterのAPI仕様書を。
*/
// bit.ly で短縮する function
//要PHP5.2.xかjson_decode関数
function short_url($sLongURL,$sApiLogin,$sApiKey){
//see http://code.google.com/p/bitly-api/wiki/ApiDocumentation
$sApiVersion = "2.0.1";
$sUrl = rawurlencode($sLongURL);
$sFormat = "json";
$sRequestURL = "http://api.j.mp/shorten?version={$sApiVersion}&longUrl={$sUrl}&login={$sApiLogin}&apiKey={$sApiKey}";
// fPrint_r($sRequestURL);
$jResult = file_get_contents($sRequestURL);
$aResult = json_decode($jResult,TRUE);
if($aResult['statusCode']=="OK"){
$aItem = array_pop($aResult['results']);
return $aItem['shortUrl'];
}
else{
return $aResult['errorMessage'];
}
}
/* 使い方
//短くしたいURL
$sLongUrl = "http://maps.google.co.jp/maps?oe=UTF-8&q=%E6%97%A5%E6%9C%AC&um=1&ie=UTF-8&sa=N&hl=ja&tab=wl";
//bit.lyのログイン名
$sLogin = "hoge";
//bit.lyのAPIキー
$sApiKey = "R_aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa";
echo short_url($sLongUrl,$sLogin,$sApiKey );
*/
// 最終インシデントの読み込みとオフセット時刻への設定, rflp ReadFlagLogPointer
$rflp = fopen("最終状態保持のファイル", "r");
$ostm = fgets($rflp);
fclose($rflp);
// ターゲットURL, pfx PreFiX, TwitterFeeD
$pfx ="www.seisvol.kishou.go.jp/tokyo/STOCK/volinfo";
$url = "http://$pfx/gensho.html";
$tfd = "ボットの RSS";
// ターゲットの中身を吸い出す, ccs cContentSource, ksc KiShouChou
$ch = curl_init();
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_URL, $url);
$ksc = curl_exec($ch);
curl_close($ch);
// ターゲットの中身を吸い出す, ccs cContentSource, twt Twitter
$chtfd = curl_init();
curl_setopt($chtfd, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($chtfd, CURLOPT_CONNECTTIMEOUT, 13); // 活性確認のため、13秒待つ
curl_setopt($chtfd, CURLOPT_URL, $tfd);
$twt = curl_exec($chtfd);
curl_close($chtfd);
// エンコード変換
$ksc = mb_convert_encoding($ksc, 'UTF-8', 'SJIS');
// 情報を検索
// href='VG20100408092527.html'> 噴火に関する火山観測報(桜島爆発)(2010年04月08日09時25分発表) <
preg_match_all('/VG([0-9]{14})\.html.*火山観測報\((.*)爆発\)/', $ksc, $erpinfo, PREG_SET_ORDER);
preg_match_all('/<description>vol_jp.*VG([0-9]{14}).*<\/description>/', $twt, $twtinfo, PREG_SET_ORDER);
// Twitter の活性を確認し、動いてないようなら最終インシデントと同値にしておく
// Twitter への転記漏れを確認し、漏れがあればオフセット時刻を再設定, elst EruptLaST, tlst TwitterLaST
$elst = $erpinfo[0][1];
$tlst = $twtinfo[0][1];
if($tlst == NULL) {
$tlst = $ostm;
}
if($elst != $tlst) {
$ostm = $tlst;
}
// オフセット時刻までの data を取得し整形して表示, li Loopi, dtl DeTaiL
for($i = 0; $erpinfo[$i][1] > $ostm; $i++);
if($i != 0) {
for($li = $i-1; $li>=0 ;$li--) {
$dtltm = $erpinfo[$li][1];
$dtlvl = $erpinfo[$li][2];
$dtlurl = "http://$pfx/VG$dtltm.html";
$sLogin = "ユーザ名";
$sApiKey = "キー";
$shrturl = short_url($dtlurl,$sLogin,$sApiKey );
// 詳細を展開し、ポストに含める info を抽出し Twitter へポスト, erpltr LeTteR, erpcnt CouNT, erpdt DaTe
$chdtl = curl_init();
curl_setopt($chdtl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($chdtl, CURLOPT_URL, $dtlurl);
$kscdtl = curl_exec($chdtl);
curl_close($chdtl);
$kscdtl = mb_convert_encoding($kscdtl, 'UTF-8', 'SJIS');
// 日 時:2010年04月08日09時19分(080019UTC)第2報
// 今年396回目
if(preg_match('/第([0-9]+)報/', $kscdtl, $erpltrinfo)) {
$erpltr = " 第 $erpltrinfo[1] 報";
} else {
$erpltr = "";
}
if(preg_match('/今年([0-9]+)回目/', $kscdtl, $erpcntinfo)) {
$erpcnt = " (今年 $erpcntinfo[1] 回目)";
} else {
$erpcnt = "";
}
preg_match('/(....年..月..日..時..分)/', $kscdtl, $erpdtinfo);
$erpdt = $erpdtinfo[1];
// 結果を呟いてみる
$dtl = "$dtlvl 爆発 $erpdt$erpcnt$erpltr $shrturl";
// echo("$dtl<br />");
$req = $to->OAuthRequest("https://twitter.com/statuses/update.xml","POST",array("status"=>"$dtl"));
echo $req;
sleep(3);
}
}
// 最新インシデントの日時情報を取得し、フラグに書き込み, eflg ErupFLaG, wflp WriteFlagLogPointer
$eflg = $erpinfo[0][1];
$wflp = fopen("最終状態保持のファイル","w");
fputs($wflp, $eflg);
fclose($wflp);
?>
なんか冗長な処理があるとか、セキュリティ的にダメなやり方してるとか、そういう目利きはまだまだなので是非ツッコミを。
関連するかも知れない?
cat: Tips(ティップス), Twitter(ツイッター), 電脳系
tag: @vol_jp, API, bot, Twitter
1 Trackbacks
トラックバック
この記事のトラックバック URL
オススメ(殿堂)
オススメ(amazon)
オススメ(ニコ動)
オススメ(link)
検索
タグクラウド
最近のエントリ
カレンダー
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 | 31 | |
分類別
保管庫
- 2020年1月
- 2019年6月
- 2016年8月
- 2014年9月
- 2014年6月
- 2013年9月
- 2013年8月
- 2013年4月
- 2013年1月
- 2012年10月
- 2011年12月
- 2011年11月
- 2011年10月
- 2011年9月
- 2011年8月
- 2011年7月
- 2011年6月
- 2011年5月
- 2011年4月
- 2011年3月
- 2011年2月
- 2011年1月
- 2010年12月
- 2010年11月
- 2010年10月
- 2010年9月
- 2010年8月
- 2010年7月
- 2010年6月
- 2010年5月
- 2010年4月
- 2010年3月
- 2010年2月
- 2010年1月
- 2009年12月
- 2009年11月
- 2009年10月
- 2009年9月
- 2009年8月
- 2009年7月
- 2009年6月
- 2009年5月
- 2009年4月
- 2009年3月
- 2009年2月
- 2009年1月
- 2008年12月
- 2008年11月
- 2008年10月
- 2008年9月
- 2008年8月
- 2008年7月
- 2008年6月
- 2008年5月
- 2008年4月
- 2008年3月
- 2008年2月
- 2008年1月
- 2007年12月
- 2007年11月
- 2007年10月
- 2007年9月
- 2007年8月
- 2007年7月
- 2007年6月
- 2007年5月
- 2007年4月
- 2007年3月
- 2007年2月
- 2007年1月
- 2006年12月
- 2006年11月
- 2006年10月
- 2006年9月
- 2006年8月
- 2006年7月
- 2006年6月
- 2006年5月
- 2006年4月
- 2006年3月
- 2006年2月
- 2006年1月
- 2005年12月
- 2005年11月
- 2005年10月
- 2005年9月
- 2005年8月
- 2005年7月
- 2005年6月
- 2005年5月
- 2005年4月
- 2005年3月
- 2005年2月
- 2004年12月
- 2004年11月
- 2004年10月
- 2004年9月
- 2004年8月
- 2004年7月
- 2004年6月
- 2004年5月
- 2003年10月
- 2003年7月
- 2003年4月
- 2003年3月
- 2003年2月
- 2003年1月
- 2002年12月
- 2002年11月
- 2002年10月
- 2002年9月
- 2002年8月
- 2002年7月
- 2002年6月
- 2002年5月
- 2002年4月
- 2002年3月
- 2002年2月
- 2002年1月
- 2001年12月
- 2001年11月
- 2001年10月
- 2001年9月
laresjp