itFun.jp: Twitter Streaming API で1日分の日本語Tweetを観測してみた

2010/03/19

Twitter Streaming API で1日分の日本語Tweetを観測してみた

はい。
スクリプト自体はコピペです。

なんとなくツイッターStreaming APIを試してみた - xmallocのプログラミングノート

ただ、このままだとHTMLがターミナルにだぁーーーー!って出てくるだけなので、Printの部分をファイルにwriteするように変更しています。

Twitter Streaming APIはPublicTimeLineなどを垂れ流すという斬新なAPI。
TwitterのStreaming APIが正式版に－＠IT
完全なデータはGoogleやMicrosoftが大金を払って検索エンジンなどに組み込んでいますが、間引きされた情報でTwitterのアカウントさえもっていれば特別申請しなくても利用できる、画期的なAPIです。

そして、2010/03/18 13:30分から2010/03/19 13:30分までの24時間スクリプトを動かし放しにして、日本語Tweetを記録してみました。

$ wc tsa/tweet.csv
314217 2015948 45283267 tsa/tweet.csv

wcコマンドで24時間分のTweetを記録したtweet.csvファイルにはなんと 31万行…
テキストだけで45MB!
こいつぁーすげぇーや!

これだけの日本人の生の発言を収集しようと思うと普通に考えればかなり大変だと思います。
とは言っても、1日で日本人が31万件しか発言してない訳はないです。Twitter全体の1日あたりの発言数が5,000万件で、利用者の14％が日本人とすると今回収集できたデータは数十分の1程度です。

それでもなかなかおもしろみのあるデータではないかなと。

それでは適当に…

1日で非公式RTがつぶやかれる割合は

$ grep 'RT' tweet.csv | wc
26070 250917 6363083

つまり2万6,000回’RT’という単語が含まれたTweetがされているので、すごいアバウトに見て大体8％くらいですかね。

1日でリプライ（@）が使われるつぶやきの割合は

$ grep '@' tweet.csv | wc
131893 943502 20996333

かなり多いですね。
全体の42％は誰かに届くメッセージらしいです。

1日で見かけるリンク（http://）の割合は

$ grep 'http://' tweet.csv | wc
36506 289115 6717488

約11％はリンク付きらしいです。
かなりURLを目撃しているみたい。

そんな感じでなかなか面白いデータだと思います。
もうちょっと活用できないか試行錯誤してみたいと思います。