読者です 読者をやめる 読者になる 読者になる

鴨川にあこがれる日々

軽い技術っぽい記事かいてます

2015年度版NDL全国書誌におけるNDC9の分布について

図書館

はじめに

DMM.R18のデータだけ触ってるとそろそろ変質者のように見られてしまうので,図書館系のデータを使います.

nzw.hatenablog.jp
2月20日から国立国会図書館(NDL)が公開している全国書誌を集めていました.
3ヶ月程度経ったので,特に自分の気になる部分について集計しました.

出版年が2015年の図書のデータではなく,収集期間に全国書誌が登録されたデータですのでご注意ください.

データ

RSSのデータだけでは,情報が足りないので,RSSに含まれるURL+".json"のデータをmongoDBに格納しています.

資料のデータは,例えばこんな感じです.*1
http://iss.ndl.go.jp/books/R100000002-I025761386-00.json

収集期間は,2015年2月20日から同年6月10日までです.
このデータは,図書に限っていないため,NDCが付与されていないものもあります.
今回は,NDCが付与されているデータだけがほしいので,NDC9というフィールドがある34,900件を対象とます.

ちなみに,NDC9のフィールドは,配列になっているので,複数付与されうるんでしょうか,よくわかりませんでした.わかる方がいたら教えていただけると幸いです.

複数付与されている場合は,先頭のNDCだけを取り出しました.

本題

まず1桁目だけでplotしてみましょう.
例によってGadflyのヒストグラムをつかいました.

f:id:another16javac:20150612102834p:plain

x軸が1桁目,y軸はその頻度です.
7類が一番多いです.

続いて2桁目まで見ていきます.
f:id:another16javac:20150612103249p:plain

x軸が読み取れなくなりました...
頻度を見てみましょう.

freq NDC
5693 "72"
4766 "91"
2152 "29"
1883 "49"
1521 "36"
1460 "21"
1446 "33"
1314 "37"
1205 "31"
1105 "76"
 922 "59"
 617 "51"
 526 "93"
 507 "32"
 460 "78"
 458 "28"
 455 "67"
 397 "77"
 361 "15"
 355 "54"
 331 "79"
 312 "38"
 309 "68"
 307 "74"
 297 "14"
 274 "52"
 273 "50"
 272 "70"
 271 "18"
 256 "53"
 216 "61"
 206 "75"
 206 "34"
 206 "00"
 194 "30"
 178 "19"
 170 "81"
 155 "48"
 145 "41"
 135 "45"
 134 "58"
 134 "55"
 115 "62"
 114 "64"
 107 "16"
 103 "57"
 100 "65"
  99 "40"
  83 "01"
  80 "12"
  79 "46"
  78 "39"
  76 "22"
  70 "60"
  70 "42"
  64 "69"
  62 "02"
  59 "47"
  58 "66"
  58 "56"
  52 "92"
  52 "80"
  51 "17"
  47 "94"
  47 "13"
  46 "43"
  46 "23"
  42 "71"
  42 "20"
  41 "95"
  38 "44"
  35 "90"
  31 "04"
  29 "11"
  26 "83"
  22 "06"
  21 "82"
  20 "35"
  18 "07"
  17 "98"
  13 "73"
  13 "10"
  12 "97"
  12 "08"
  11 "63"
   9 "03"
   8 "25"
   8 "24"
   6 "96"
   6 "05"
   4 "99"
   4 "84"
   3 "85"
   2 "Y9"
   2 "89"
   2 "88"
   2 "87"
   1 "26"


3桁目も見ていきます.
f:id:another16javac:20150612104300p:plain
不適切な可視化ですね.申し訳ありません.

具体的にどれが多いか上位5件だけみていきましょう.

freq NDC
5391 "726"
3316 "913"
1899 "291"
1109 "210"
 818 "911"

対応するNDCがなにであるかというと,

  • 726:漫画
  • 913:日本の小説,物語
  • 291:地理の日本
  • 210:日本史
  • 818:日本の方言・訛語

でした.
漫画がだいぶ数があるようです.


以上です.

*1:トリニティセブンについては深い意味はありません,好みです