読者です 読者をやめる 読者になる 読者になる

鴨川にあこがれる日々

軽い技術っぽい記事かいてます

計量書誌学(図書館情報学)の指標をDMM.R18で試してみる

注意

当該記事は,DMM.R18に含まれるコンテンツに関して言及した記事です.
そのような記事や表現が苦手な方は,お手数ですが,お戻りいただけると,良いかと思います.

はじめに

講義で,計量書誌学を受講しています.
その中で研究活動に関する指標をいくつか学んだ*1ので,DMM.R18を例にとって紹介します.

計量書誌学とは
計量書誌学 - Wikipedia
ざっくりいうと図書や雑誌,論文などの資料のデータを扱う学問です.

f:id:another16javac:20150523015200p:plain

対象データ

本記事では,2015年5月22日22:00にDMMのアフィリエイトAPIから

  • 2015年に配信が始まったコンテンツ
  • ビデオコンテンツ(素人,アニメ,映画を含まないもの)

を満たす10,242件のうち,DMM.R18のメタデータ*2に女優名の記述がある6,239件を対象としています.

ユニークな女優数は5,325です.

計量書誌学の指標

完全計数法

論文の著者として何回登場するかという指標です.
対象とする論文の集合において,著者として何本書いているかという値になります.
DMM.R18のビデオで例えると,共演者など関係なく,ビデオに何本出演しているか,ということになります.


上位10人の結果です.

210 波多野結衣
158 篠田あゆみ
158 上原亜衣
145 桜井あゆ
120 風間ゆみ
120 本田莉子
116 小早川怜子
115 大槻ひびき
114 川上ゆう(森野雫)
112 有村千佳

先日のAくんが言っていた有村千佳という方はかなりの作品に出演しているようです.
これではよくわからないのでjuliaでplotしてみます.

f:id:another16javac:20150523010830p:plain
横軸は完全計数法の値,縦軸は,その頻度(完全計数法での値にいる女優数)です.
頻度1だと約2,800名がいるので,1つの作品にしかでていない女優が2800名近くいることになります.

NLPでよく聞くzipf則のような形状になりました.

調整計数法

完全計数法では,著者であれば共著者の人数は考慮しませんでした.
調整計数法では,著者の人数で割ります.

例によってDMM.R18のビデオを例にしてみましょう.
あるビデオにn人が出ていた場合は,それぞれ1/nを女優の値として加算します.
同じ作品数出ていた場合は,より少ない共演者数のビデオに出演した方がこの値は高くなります.


上位10人の結果です.

波多野結衣,78.77889773183159
篠田あゆみ,69.03224250935924
本田莉子,51.76265452253147
上原亜衣,44.93519600340455
桜井あゆ,41.00290259366625
蓮実クレア,38.05363784620352
風間ゆみ,37.083682109170915
千乃あずみ,36.98165999765732
澤村レイコ(高坂保奈美、高坂ますみ),35.441552938271776
宮部涼花,35.10153615444179

さきほどの完全計数法が最も大きかった波多野さんがこちらでももっとも大きい値を持っています.
ちなみにAくんが好きな有村千佳という方は,29.547904049218083でした.
この値が1より少ない人は,3,646人いました.

単著論文計数法

これは,著者が1人の論文数を数えます.
例えるならば,単体作品(女優が一人だけが出演している作品)に何本出演しているか,ということになります.

上位10名です.

61 波多野結衣
60 篠田あゆみ
45 本田莉子
33 上原亜衣
31 飯岡かなこ
31 千乃あずみ
31 宮部涼花
29 七草ちとせ
28 蓮実クレア
28 香山美桜

やはり波多野さんという方がもっとも高かったです.

最後に

これらの共著関係をネットワークにして分析できそうです.
計量書誌学では,共著関係や論文の引用関係,被引用関係などをネットワークにすることがあります.

この例ですと,今回は出していませんが,監督と女優の関係や共演関係などがあるかと思います.
女優の重要度のようなものをPageRankで計算できそうです.
作品のジャンルを考慮したPageRankなどやってみると面白いのかもしれません.*3

おまけ程度に,今回の共演関係をネットワークで可視化すると最初に示したネットワークになります.
f:id:another16javac:20150523015200p:plain

*1:もし間違っていることを書いていたらコメントいただけると幸いです.

*2:データに関するデータ

*3:topic sensitive pagerank(2002)あたり