鴨川にあこがれる日々

軽い技術っぽい記事かいてます

2014-8-21~2015-3-8までの「図書館」を含むツイートで遊んでみた(その1)

はじめに

約半年間,Twitterから特定のデータを集めました.
それの簡単な集計を行いましたので,報告までに.

動機

2013年2月28日の私は
「図書館とビッグデータって組み合わせないかな」
とか言っていました.*1

例えば

  • 貸出履歴
  • 無線LANの情報
  • 来館データ
  • 蔵書データ
  • 図書の動き(一部の図書館の書架でとれるはず)

などがあるかと思います.
学生にそんなデータがオープンになってるはずもありませんし*2,特に図書館は個人情報を外部に公開することはほぼ不可能*3なので,上の例は無理です.

ビッグではありませんが,ぱっと思いつくのはこれです.

なので図書館が含まれるツイートを解析しようと思いました.

データ概要

2014-8-21~2015-3-8まで約半年間の「図書館」を含むツイートをTwitterのSearchAPIで集めました.
風のうわさで2時間たたないとSearchで漏れがあるとかなんとか聞いたことがあったので,Cronであえて2時間遅れた時間のデータを集めました.
なのでこの間にツイート消されたものについては集められていません.

もちろん,非公開アカウントも集めていません.


データの項目としては

  • ユーザID
  • ツイートID
  • 場所
  • 被リツイート数(SearchAPIで取得時)
  • お気に入り数(SearchAPIで取得時)
  • 本文
  • クライアント名
  • 投稿時間

です.
数は4,429,942ツイート,約443万件です.


「別に”図書館”を含まなくても図書館について言及していることはたくさんあるのでは?」
ということがありますが,無視します.

なぜならどこまでが図書館に関係するツイートかわかりませんし,
例えば英語のLibraryとか含めるとプログラミングでのlibraryとの分けるのが大変になるので.*4

内容

その1なので,簡単な集計です

まずはSQLでできる簡単な集計をしてみました.

てはじめに投稿されたクライアントのトップ20です.
おそらくiPhoneAndroidのようなスマホの公式クライアントが多いと踏んでいました.
ユニーク数は31,252件です.

結果

1310813	Twitter for iPhone
683192	Twitter for Android
456657	twittbot.net
423923	Twitter Web Client
74240	IFTTT
55189	占ぃったー
52876	TweetDeck
46340	twicca
45146	autotweety.net
44920	Janetter
44476	Keitai Web
40778	Twitter for iPad
34118	Twitter for Websites
32128	dlvr.it
27362	ついっぷる 
25171	jigtwi
24576	Echofon
23972	Tweetbot for iΟS
21610	Twitter for Android Tablets
19792	Biyon≡( ε:)

予想通りでした.
約3割がiPhoneから投稿されたことになります.


次に場所です.
ほとんどがNullとか空白です.
おそらくはswarmなどのチェックインがメインとなると思うので,
人口の多い都内だと思いました.


結果

287	Tsukuba City
262	Chiyoda-ku
236	Toshima
228	Sapporo City Kita Ward
217	Bunkyo
216	Kyoto City Sakyo Ward
214	Kyoto-shi Fushimi-ku
209	Kumamoto-shi
203	Tsukuba-shi
199	Setagaya
192	Sendai-shi Aoba-ku
178	Kanazawa City
175	Kyoto-shi Sakyo-ku
175	Shinjuku-ku
166	Yokohama City Nishi Ward
152	Chuo-ku
148	Suginami Ward
135	Chuo



>> Tsukuba City <<

僅差で千代田区を押さえてつくばです.
原因は筑波大生でしょうか.


同じようにユーザです.
ユニーク数は1,280,738件です.
IDからユーザにたどれてしまうので,投稿数だけ(ただしボットは結果のあと言及します)

7951
7747
6797
6274
6252
5747
4713
4342
4339
4239
4060
4056
4023
3832
2845
2813
2758
2614
2598
2429

半年で8000回つぶやくのはいったい...

これ


半年間同じツイートを延々としているBotでした.
2位はきれいな図書館について言及するBot
3位は大図書館の羊飼いについて言及するBot
4位はlibrarynews
5位は武雄関係をすべてRTするBot
...上位はbotです.



次にグラフにしてみましょう.
(いままで通りだとRでの描画ですが,ちょっと一年ぶりにjuliaを使いました.先日のハッカソンの影響です)


まずは時間別のつぶやき数です.
横が時間,縦がツイート数です.
22時が一番多いと踏んでいたのですが,正午と23時あたりが多いようです.
f:id:another16javac:20150309081018p:plain



曜日別でも見てみましょう.
曜日が均等になるように8月25日(月)から3月8日(日)まで
アニメ「大図書館の羊飼い*5が木曜0時台にやっていたので,その木曜日は多いのかなぁとか,
休日は図書館行く人多いのかなぁとか予想しました.

結果です.



f:id:another16javac:20150309083011p:plain
火曜,水曜に何あったのではと思うような偏りです.


これですかね...

後日検証です.



所感

Botがかなりいるので,それを排除した上で集計した方がいいかもしれません.
曜日別の偏りがモヤモヤしますね...

終わり

*1:寝ぼけたことを

*2:あったら http://twitter.com/nozawa0301まで 教えて下さい...

*3:研究など除く

*4:もちろん,やれれば最高だと思います.

*5:知識情報・図書館学類なのに見てません