読者です 読者をやめる 読者になる 読者になる

鴨川にあこがれる日々

軽い技術っぽい記事かいてます

8月の振り返り

技術的なこと サーバ 気づいたらcronの実行にしか使っていなかったので,レンタルサーバを解約した.実は図書館系のデータ*1をずっと集めていたのだが,気づいたら解約日になっていたので闇に消えた.cronで実行していたコードは,PC起動時にスクリプト実行…

私なりのDeep Learningに関する情報の集め方

はじめに aonotas.hateblo.jpに感化され,被りがないように書いてみました. 深層学習歴(?)は半年でして,研究では使ってないので深いことは書けませんが... 好きなフレームワークはKeras*1です. 本題 arxivをfeedlyで購読 私は以下の3つを登録して,…

NNLMで城ヶ崎美嘉のセリフを学習してみた

はじめに これに関係した記事になります. nzw.hatenablog.jp 当時はnumpyを使ってNNを記述しましたが,ここ最近は遊びでchainerとかkerasなどのライブラリを使っています. 今回は思いつきでkerasでセリフの再現ができるが試してみました.手前味噌で申し訳…

城ヶ崎美嘉(CV:佳村はるかさん)の誕生日なので,セリフが城ヶ崎美嘉か城ヶ崎美嘉じゃないかを多層パーセプトロンで判別してみた

注意 深層学習じゃありません. はじめに 私はPではないので知りませんでしたが,今日は「アイドルマスターシンデレラガールズ」の城ヶ崎美嘉(CV:佳村はるか)の誕生日です.twitter.comおめでとうございます!ちなみに佳村はるかさんといえば「SHIROBAKO」…

PythonでKullback-LeiblerダイバージェンスとJensen-Shannonダイバージェンス

11月5日追記 最下部に追記しました. 前置き 2つの確率分布の違いを表す指標にKullback-Leiblerダイバージェンス(以下KLダイバージェンス)とJensen-Shannonダイバージェンス(以下JSダイバージェンス)があります.詳しいことはamzn.to の1.6を参考にしてくだ…

lualatex-jaでエラーがでた

追記(2015-10-03 18:30) Mac texを入れ直したら直りました. 追記(2015-09-19 20:34) 別のMacの環境で当記事と同じことを行いましたが,エラーの解決はできませんでした. はじめに lualatex-jaを更新したら,texの変換ができなくなった(厳密にはorgmodeのb…

2010年enwikiのpages-articles.xml.bz2を探すのに手間がかかった話

はじめに wikipediaのダンプデータはとても便利で言語処理ではよく使われたりします.はやり(?)のGlove論文やword2vecとの比較論文では2010年の英語版のwikipediaのデータを使っています. おそらくpages-articles.xml.bz2を解凍してテキストを取り出した…

org modeからreveal.jsを出力する話

はじめに 言語処理の記事がブクマをたくさんいただいて驚いております nzwです.自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々nzw.hatenablog.jp スライドは何で作っていますでしょうか? keynote MSのpower point ht…

自然言語処理を自習したくなったら参考になりそうなサイトなど

雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています.最終更新 2016年08月19日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015東北大学の乾・岡崎研究室の岡崎先生が作られ…

pandasのメモ

はじめに 個人用のpandasメモです.pandas Python Data Analysis Library — pandas: Python Data Analysis Library 機械学習をRubyでやるのはライブラリがなく関係でほぼ不可能なので,いい加減Pythonに入門しようと思いました.pandas,scikit-learn,gensi…

wikipediaダンプデータのInsertが重かった時の話

はじめに Wikipediaは,記事本文やリダイレクト情報など殆どの情報をダンプデータで公開しています. Wikipedia:データベースダウンロード - Wikipedia身の回りの研究では, word2vecの学習データに記事本文を使う Mecabの辞書を拡張するために見出し語を使…

kaggleにsubmitだけした話

機械学習の勉強*1をしていると, 「なんとなくわかった気持ちにはなったけど,実際にどんな風にアルゴリズムを使ったらいいかわからない」ということがあります.ちょうど4月にインターン先で知ったでKaggleを思い出しました.Kaggle: The Home of Data Scie…

beamerのToo many symbol fonts declaredの対処

はじめに emacsのorgmodeでorgファイルからbeamerに変換すると,エコンパイルが通らなかったのでその対処を書きます. (探したけど,全然なかった) マシンによって出たりでなかったりしたので,不思議です... 環境 emacs 24.5 (preludeを使ってます) ma…

word2vecのサブサンプリングのtについて

はじめに 昨年の研究とブログとバイトでword2vecを使ったので,そろそろちゃんと中身を理解しようとしました.*1とりあえず以下の論文を読みましたが,途中で引っかかったので,ブログにまとめておきます. 英語力不足などもあり,結局解決していません.wor…

計量書誌学(図書館情報学)の指標をDMM.R18で試してみる

注意 当該記事は,DMM.R18に含まれるコンテンツに関して言及した記事です. そのような記事や表現が苦手な方は,お手数ですが,お戻りいただけると,良いかと思います. はじめに 講義で,計量書誌学を受講しています. その中で研究活動に関する指標をいく…

gemのmongoが動かなくなった

はじめに 私的にNDLの全国書誌データのデータをRubyで集めてmongoDBに格納しています. 先日,mongoのgemをupdateしたら動かなくなったので,対処法を書きます. 環境 OS:centos mongo:2.6.9 gem mongo:2.0.3 本題 gemを1系のmongoから2.0.3にupdateしたら `<main></main>…

情報管理誌のRSSから抄録を入手するまで

はじめに 先日STI updatesと「情報管理」誌が新着情報のRSS配信を再開されました. STI updatesと「情報管理」誌が新着情報のRSS配信を再開 | カレントアウェアネス・ポータルarXiv.orgには抄録の情報もあるのですが,上記の情報管理誌にはなかったので,RSS…

「図書館及び関連組織のための国際標準識別子(ISIL)」を触ってみた

2015年5月8日に追記しました. はじめに 先日NDLで新しいデータとして図書館及び関連組織のための国際標準識別子(ISIL)が公開されました. オープンデータセット | 国立国会図書館-National Diet LibraryRDF形式のデータで馴染みがなかったので,簡単に触…

JuliaTokyo#3でLTしてきた話

はじめに 数値計算に特化したプログラミング言語にJuliaというものがあります.*12014年の2月に初めて触ったんですが,当時はv0.2で速さがわかりませんでした.先月のはじめにあったハッカソンのサンプルコードになぜかJuliaがあり,それがきっかけで1年ぶり…

知人に相談されたことをいかにして解くか(AV女優編)

はじめに この記事にはAV女優に関する言及がいくつかあります. 苦手な方はスクロールせずに戻っていただけると幸いです. とある知り合い(以下Aさん)に深刻な面持ちでこのような相談を受けました. 「有村千佳っていう好きなAV女優が5月で引退してすごい…

2014-8-21~2015-3-8までの「図書館」を含むツイートで遊んでみた(その1)

はじめに 約半年間,Twitterから特定のデータを集めました. それの簡単な集計を行いましたので,報告までに. 動機 2013年2月28日の私は 「図書館とビッグデータって組み合わせないかな」 とか言っていました.*1例えば 貸出履歴 無線LANの情報 来館データ …

日経電子版×クックパッド共催データハッカソンに参加した話(クックパッド賞頂きました)

追記(2015年3月9日03:15) こういう機会はあまりまだ多くないので,なんで楽しかったのか,何がよかったのかについて(主に環境)少し書こうかと思いました.本文下に追加しました. めっちゃ楽しかったし,こういうのが増えてほしい!!!!!111 前置…