鴨川にあこがれる日々

軽い技術っぽい記事かいてます

Ruby

wikipediaダンプデータのInsertが重かった時の話

はじめに Wikipediaは,記事本文やリダイレクト情報など殆どの情報をダンプデータで公開しています. Wikipedia:データベースダウンロード - Wikipedia身の回りの研究では, word2vecの学習データに記事本文を使う Mecabの辞書を拡張するために見出し語を使…

青空文庫から会話の連鎖を取り出す

前置き 別に大したことは書いておりません. ただのRubyスクリプトです. はじめに 機械学習とかディープラーニングとか人工知能といった単語が最近バズってます.最近ですとこれでしょうか.人工知能マシン、プログラマーに怒る(ウォール・ストリート・ジ…

計量書誌学(図書館情報学)の指標をDMM.R18で試してみる

注意 当該記事は,DMM.R18に含まれるコンテンツに関して言及した記事です. そのような記事や表現が苦手な方は,お手数ですが,お戻りいただけると,良いかと思います. はじめに 講義で,計量書誌学を受講しています. その中で研究活動に関する指標をいく…

gemのmongoが動かなくなった

はじめに 私的にNDLの全国書誌データのデータをRubyで集めてmongoDBに格納しています. 先日,mongoのgemをupdateしたら動かなくなったので,対処法を書きます. 環境 OS:centos mongo:2.6.9 gem mongo:2.0.3 本題 gemを1系のmongoから2.0.3にupdateしたら `<main></main>…

情報管理誌のRSSから抄録を入手するまで

はじめに 先日STI updatesと「情報管理」誌が新着情報のRSS配信を再開されました. STI updatesと「情報管理」誌が新着情報のRSS配信を再開 | カレントアウェアネス・ポータルarXiv.orgには抄録の情報もあるのですが,上記の情報管理誌にはなかったので,RSS…

「図書館及び関連組織のための国際標準識別子(ISIL)」を触ってみた

2015年5月8日に追記しました. はじめに 先日NDLで新しいデータとして図書館及び関連組織のための国際標準識別子(ISIL)が公開されました. オープンデータセット | 国立国会図書館-National Diet LibraryRDF形式のデータで馴染みがなかったので,簡単に触…

知人に相談されたことをいかにして解くか(AV女優編)

はじめに この記事にはAV女優に関する言及がいくつかあります. 苦手な方はスクロールせずに戻っていただけると幸いです. とある知り合い(以下Aさん)に深刻な面持ちでこのような相談を受けました. 「有村千佳っていう好きなAV女優が5月で引退してすごい…

NDLの「全国書誌(作成完了書誌)」を取得

要点 NDLの全国書誌一覧を使って情報量を増やしたjson形式のデータを取得するスクリプトを書きました. はじめに 私は,本のデータが欲しいことがあります. (MLのアルゴリズムを試す,最近出版された図書が気になる...など)まずは図書館が配信しているRSS…

Rubyにおける繰り返し処理の比較

はじめに 知人とこんな話題になりました.*1 Rubyで10から0までをforとかでまわしたいときにforを無理やりつかうか知名度が低いdowntoを使うか的な話,どっちもどっちな感じで決めにくい. ちなみにdowntoのほうがbenchmarkで計ったら速い— nzw (@nozawa0301…

herokuにあるsinatraアプリをcloneしてデプロイするまで

はじめに HerokuというPaaSがあります. RubyでいえばSinatraやRuby on Railsのアプリを簡単に公開できるサービスです.個人的には,ハッカソンやアプリコンテストなどのAPIサーバー代わりに使っています.heroku上にアプリがあるが,公開鍵をなくしてしまっ…

paiza_runで遊ぶ

はじめに paizaというコーディング転職サイトがあります.paiza [パイザ] | IT/WEBエンジニアのためのコーディング転職サイト ITプログラマー・エンジニア転職のpaiza同じ会社がブラウザ上でコードが実行できるサービスをだしています. Web-based online co…

TwitterAPIを使ってソーシャルグラフを描く(データ収集編)

この記事はシステム主専攻ver1.0 Advent Calendar 2014の5日目の記事です. 現在は2015年1月ですが,細かいことは置いておきましょう.システム主専攻ver1.0 Advent Calendar 2014 - Adventar システム主専攻ver1.0 Advent Calendar 2014 - Adventar はじめ…

ポケスト公開しました

現在は停止しています はじめに ポケサー(ポケモンサークル)の知り合いが信州のリンゴを持っていたので,食べたくなって要望に答えました. ポケモンサークルはTwitterのアカウントを持っているらしく,それがどれだけアクティブなのか,一覧にしたかった…

個人用黒歴史クリーナーを自作しよう

はじめに RubyとGemのTwitterを使って,個人アカウントのツイートの履歴を全部削除するコードについて言及します. 以前3回ほど試みましたが,日本語のドキュメントの頼ったばかりにできませんでした. 観念して英語で探したので,備忘録としても.タイトル…

SearchAPIを実行するRubyスクリプトをさくらインターネットのVPS上でcronで実行

はじめに 以前のエントリ 「図書館」が含まれるtweetを集めてみた By Ruby - 鴨川にあこがれる日々 「図書館」が含まれるtweetを集めてみた By Ruby - 鴨川にあこがれる日々 を3ヶ月間,5日ごとに手動で実行していたのですが,さすがに手間でした. そこでさ…

RoR4をMySQLで設定をした

はじめに Ruby on Rails3でこないだまでコードを書いていましたが,(ブログには書いてない)Ruby on Rails4(以下RoR) で書く必要がでてきたので,備忘録として. レファレンス Rails開発環境の構築(rbenvでRuby導入からBundler、Rails導入まで) - Qiita rbe…

ブラックボックス感半端じゃ無いけど重複をのぞいた「図書館」を含むツイートにword2vecをつかい単語の類似度を測ってみた

たまにword2vecというツールをここ最近聞くようになりました。 word2vec - Tool for computing continuous distributed representations of words. - Google Project Hosting 自然言語処理の技術でニューラルネットというモデルを使っているツールだそうです…

「図書館」が含まれるtweetを集めてみた By Ruby

(前回のグラフはどこいったって話ですが)図書館というのは強い言葉だと思っています。「Twitter」という言葉は知らない人はたくさんいますけど、「図書館」という言葉はだれだって知っているでしょう。仮説:図書館という言葉は概念が強く、それによって利用…

Twitterでフォロー関係にあるアカウント一覧をCSVで取得 By Ruby

Twitterでソーシャルグラフが作りたくなったので、まず自分のフォローしているユーザーのID、名前、紹介文だけ取得することにした。 いくつか検索でRubyで取得する方法を調べたが、next_cursorがどうとかで試したができず、自分でやってみたら680人ならすぐ…

RubyでEuclidの互除法

Euclidの互除法をRubyでかいてみた。 2つの自然数の入力に対して、それらの最大公約数を求める、というもっとも有名なアルゴリズムである。まずはソース a = gets.chomp.to_i b = gets.chomp.to_i if b > a a,b = b,a end while true if (a%b) == 0 puts b b…