鴨川にあこがれる日々

軽い技術っぽい記事かいてます

国際会議でイギリス

バンケット会場 会場の周辺施設 本場の魚と芋です pic.twitter.com/ykCyCyeAoA— nzw (@nzw0301) 2017年2月6日 はじめに WSDM 2017 – The 10th ACM International Conference on Web Search and Data MiningWSDMという国際会議の併設のワークショップに論文が…

年末に読んだ本とか

今年の目標は死なないことです*1. 本 先月末に念願の佐久島(妃真加島のモデル)に行きました.観光客が多いシーズンは夏なので個人的にはちょうどよかったです.三河湾の島の中では一番でかいですが,栄えてはいないそうです.この道中や宿で読書をしてい…

2016年の振り返り

去年と同様に. 月ごと 01月.不審者が住んでいる建物に出たり,プライベートでいろいろあってでわりとしんどかった.前厄でこれなので本厄は死ぬのでは.scalaを書こうとして挫折. 02月.引っ越. 03月.言語処理学会年次大会@東北.学位授与式.トピック…

2016年に買ったものとか

気を緩めるとGibbs samplingのことを考えてしまう気質*1と進学した関係もあり交際費が激減したためAmazonで昨年の倍くらい注文した(基本的に漫画か小説).よいものはよいと言いたいので,褒めます. ヘッドホン audio-technica プロフェッショナルモニター…

8月の振り返り

技術的なこと サーバ 気づいたらcronの実行にしか使っていなかったので,レンタルサーバを解約した.実は図書館系のデータ*1をずっと集めていたのだが,気づいたら解約日になっていたので闇に消えた.cronで実行していたコードは,PC起動時にスクリプト実行…

7月の振り返り

月末はバタバタしそうなので,先に書いておきます. 技術的なこと 上旬に以前の環境が壊れた研究室のサーバーの再構築の手伝いをした.ユーザ作成,ライブラリ再インストールの作業がめんどくさいのだが,自動化ツールを身につけるほどの頻度でもないので,…

6月の振り返り

技術的なこと 月初めにKerasの日本語訳化がほぼ完了したとのことだったので,気になった翻訳にPR投げたり,本家に追従するPR投げるとかしていました. Keras Documentation「語彙統一したいです」みたいなissueを立てたはいいけど,そればかりやってると時間…

私なりのDeep Learningに関する情報の集め方

はじめに aonotas.hateblo.jpに感化され,被りがないように書いてみました. 深層学習歴(?)は半年でして,研究では使ってないので深いことは書けませんが... 好きなフレームワークはKeras*1です. 本題 arxivをfeedlyで購読 私は以下の3つを登録して,…

5月の振り返り

技術的なこと 4月から深層学習のフレームワークであるkerasにはまり,片っ端から基礎的なニューラルネットの記述をしていたので,その続きをしていました. そんなところ4月末くらいに機械学習勉強会に参加されている先生から「kerasのチュートリアルやって…

NNLMで城ヶ崎美嘉のセリフを学習してみた

はじめに これに関係した記事になります. nzw.hatenablog.jp 当時はnumpyを使ってNNを記述しましたが,ここ最近は遊びでchainerとかkerasなどのライブラリを使っています. 今回は思いつきでkerasでセリフの再現ができるが試してみました.手前味噌で申し訳…

4月の振り返り

はじめに 技術的なことはqiitaかgithub.ioに記述するようになってしまい,以前ほどこちらにコンテンツをあげることが減りました. その月にしたことを,振り返ってみようかと思います. 技術系のこと keras 頭が悪いので,深層学習のフレームワークでchainer…

word embeddingsの演算とデータセットについて知ってること

NLP

はじめに 自分が使った分だけですが,まとめました 評価の話 学習した分散表現の評価方法としてよく見るのは word similarity analogy です*1.この2つであれば omerlevy / hyperwords — Bitbucket に評価値を計算するPythonスクリプトとデータセットが入っ…

ブログが分裂していた話

はじめに 昨年の12月からqiitaにプログラミング関係の記事を書くようにしたので,このブログを書く機会が減りました*1.使い分けてるのでそのことについて書こうと思います.一身上の都合によりQiitaの記事をgithub.ioに移行しました. 本題 qiita コードが…

難読ラノベタイトル

「主人公は弱いんだけど最強みたいなラノベがたくさんあるよね」という話を友達としていて,それらしいラノベを探していたら,タイトルがほとんど読めませんでした. キラキラネームみたいですね... 気になったので30分くらいamazonで探しただけなので,…

2015年の振り返り

忘年会シーズンですが,2015年忘れたくないので振り返りをします. 月ごとに振り返り 1月 12月に研究室に配属されて年明けずっと研究室にはいったら輪講をしたいと思っていたので,名著「言語処理のための機械学習入門」を週1章ペースで読んでた.ダーツを買…

klis advent calendar 2015お疲れ様でした

ここ2 ~ 3年くらい毎年12月1日から12月25日にかけていろんな人がブログ記事を投稿するアドベントカレンダーというのを見るようになりました. 自分が最初に見たのは,はぐれ学生アドベントカレンダー2013です.はぐれ学生 Advent Calendar 2013 - Adventar自…

大学院入ってないけど,大学院について

はじめに おはようございます,klis advent calendar 2015の主催をしておりますnzwです. この記事はその12月1日分です.最初に説明するとこのカレンダーは,以下の2つを満たした有志の方によって行われています. 記事中に"klis"を含む 知識情報・図書館学…

城ヶ崎美嘉(CV:佳村はるかさん)の誕生日なので,セリフが城ヶ崎美嘉か城ヶ崎美嘉じゃないかを多層パーセプトロンで判別してみた

注意 深層学習じゃありません. はじめに 私はPではないので知りませんでしたが,今日は「アイドルマスターシンデレラガールズ」の城ヶ崎美嘉(CV:佳村はるか)の誕生日です.twitter.comおめでとうございます!ちなみに佳村はるかさんといえば「SHIROBAKO」…

深層学習をはじめた

はじめに 先日,これに参加*1して,心底思ったのは「深層学習を避けては通れない」ということでした.connpass.com 深層学習やろうにも,はじめて見るにも何をしたらいいのかさっぱりなので,現状行っている勉強について書こうかと思います. 本題 まず,と…

PythonでKullback-LeiblerダイバージェンスとJensen-Shannonダイバージェンス

11月5日追記 最下部に追記しました. 前置き 2つの確率分布の違いを表す指標にKullback-Leiblerダイバージェンス(以下KLダイバージェンス)とJensen-Shannonダイバージェンス(以下JSダイバージェンス)があります.詳しいことはamzn.to の1.6を参考にしてくだ…

gloveとかword2vecの性能の測り方

追記 記事書いた後にこんな論文があったのでまとめています. Evaluation methods for unsupervised word embeddings EMNLP2015 読み会 from nzw Nozawa www.slideshare.net はじめに アクセスログをみているとgloveの記事nzw.hatenablog.jpがずっとアクセス…

lualatex-jaでエラーがでた

追記(2015-10-03 18:30) Mac texを入れ直したら直りました. 追記(2015-09-19 20:34) 別のMacの環境で当記事と同じことを行いましたが,エラーの解決はできませんでした. はじめに lualatex-jaを更新したら,texの変換ができなくなった(厳密にはorgmodeのb…

2010年enwikiのpages-articles.xml.bz2を探すのに手間がかかった話

はじめに wikipediaのダンプデータはとても便利で言語処理ではよく使われたりします.はやり(?)のGlove論文やword2vecとの比較論文では2010年の英語版のwikipediaのデータを使っています. おそらくpages-articles.xml.bz2を解凍してテキストを取り出した…

コミュニティの評価指標について2つだけ

はじめに ほとんどのデータはグラフ(orネットワーク)として表すことができます. 道路,空港,タンパク質,購買履歴,レシピ,地図...などなど. 言語処理や機械学習でTriple(図書館情報学でおなじみ)やテンソルを用いた学習やGoogleのKnowledge Graphsで…

org modeからreveal.jsを出力する話

はじめに 言語処理の記事がブクマをたくさんいただいて驚いております nzwです.自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々nzw.hatenablog.jp スライドは何で作っていますでしょうか? keynote MSのpower point ht…

自然言語処理を自習したくなったら参考になりそうなサイトなど

雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています.最終更新 2016年08月19日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015東北大学の乾・岡崎研究室の岡崎先生が作られ…

相づちをとりだしたらそれっぽくなった話

こんにちは はじめに ちょうど最近TwitterのBotをつくったのですが,なにを喋らせようか迷っていました.*1 michil (@_michil) | Twittertwitter.com以前やったこれが使えそうです.青空文庫から会話の連鎖を取り出す - 鴨川にあこがれる日々nzw.hatenablog.…

pandasのメモ

はじめに 個人用のpandasメモです.pandas Python Data Analysis Library — pandas: Python Data Analysis Library 機械学習をRubyでやるのはライブラリがなく関係でほぼ不可能なので,いい加減Pythonに入門しようと思いました.pandas,scikit-learn,gensi…

wikipediaダンプデータのInsertが重かった時の話

はじめに Wikipediaは,記事本文やリダイレクト情報など殆どの情報をダンプデータで公開しています. Wikipedia:データベースダウンロード - Wikipedia身の回りの研究では, word2vecの学習データに記事本文を使う Mecabの辞書を拡張するために見出し語を使…

ブログを半分くらい移転します

研究室で論読しているPRMLという本の演習問題の数式を何度かこのBlogに載せてきました.数式の変換がはてな記法ではうまく展開されず*1,また数式の展開がかなりもっさりして数式を見に来られない方に申し訳ない気持ちになったので,数式を含むページとそう…

kaggleにsubmitだけした話

機械学習の勉強*1をしていると, 「なんとなくわかった気持ちにはなったけど,実際にどんな風にアルゴリズムを使ったらいいかわからない」ということがあります.ちょうど4月にインターン先で知ったでKaggleを思い出しました.Kaggle: The Home of Data Scie…

青空文庫から会話の連鎖を取り出す

前置き 別に大したことは書いておりません. ただのRubyスクリプトです. はじめに 機械学習とかディープラーニングとか人工知能といった単語が最近バズってます.最近ですとこれでしょうか.人工知能マシン、プログラマーに怒る(ウォール・ストリート・ジ…

PRML 演習9.3

9章に入りました. 8章はグラフィカルモデルが読める段階くらいまできたので,後半はすっ飛ばしました. はじめに 式(9.10)と式(9.11)をうまく計算して式(9.7)を求めます.例としてまずはでやってみてからについて求めます. 数式がうまく展開されなかったの…

PRML 演習8.17

はじめに メッセージパッシングのあたりから怪しくなってきましたが,頑張って解きます. 本題 まず以下のような無向グラフを考える. 3と5が観測されているときに,を示す. 観測された場合は,以下のようになる. 上記のグラフよりからの経路は,ただひと…

beamerのToo many symbol fonts declaredの対処

はじめに emacsのorgmodeでorgファイルからbeamerに変換すると,エコンパイルが通らなかったのでその対処を書きます. (探したけど,全然なかった) マシンによって出たりでなかったりしたので,不思議です... 環境 emacs 24.5 (preludeを使ってます) ma…

2015年度版NDL全国書誌におけるNDC9の分布について

はじめに DMM.R18のデータだけ触ってるとそろそろ変質者のように見られてしまうので,図書館系のデータを使います.NDLの「全国書誌(作成完了書誌)」を取得 - 鴨川にあこがれる日々nzw.hatenablog.jp 2月20日から国立国会図書館(NDL)が公開している全国…

word2vecよりも高性能らしいGloVeを触ってみた

はじめに word2vecよりも性能が高いとかなんとか / “GloVe: Global Vectors for Word Representation” http://t.co/cZPAafJ6Zl #自然言語処理— ηozawa kento (@nozawa0301) June 4, 2015word2vecというツールが,かなり流行りました. そのあといくつも単語…

PRML 演習 8.14

はじめに 研究室の方針で卒論に直接関係する章を優先的に進めようということになり, 2章の途中から一気に下巻8章のグラフィカルモデルです.ちなみにグラフィカルモデルといえば,トピックモデル関連の論文にはほぼ必ず登場します.Amazon.co.jp: トピック…

word2vecのサブサンプリングのtについて

はじめに 昨年の研究とブログとバイトでword2vecを使ったので,そろそろちゃんと中身を理解しようとしました.*1とりあえず以下の論文を読みましたが,途中で引っかかったので,ブログにまとめておきます. 英語力不足などもあり,結局解決していません.wor…

計量書誌学(図書館情報学)の指標をDMM.R18で試してみる

注意 当該記事は,DMM.R18に含まれるコンテンツに関して言及した記事です. そのような記事や表現が苦手な方は,お手数ですが,お戻りいただけると,良いかと思います. はじめに 講義で,計量書誌学を受講しています. その中で研究活動に関する指標をいく…

PRML演習2.10 ディリクレ分布の共分散

Amazon.co.jp: パターン認識と機械学習 上: C.M. ビショップ, 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, 村田 昇: 本amzn.to演習2.10は,ガンマ関数の性質を利用することをヒントにしつつ,式(2.38)のディリクレ分布の平均,分散,共分散を求めます.今…

PRML演習2.10 ディリクレ分布の分散

Amazon.co.jp: パターン認識と機械学習 上: C.M. ビショップ, 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, 村田 昇: 本amzn.to演習2.10は,ガンマ関数の性質を利用することをヒントにしつつ,式(2.38)のディリクレ分布の平均,分散,共分散を求めます.今…

PRML演習2.10 ディリクレ分布の平均

Amazon.co.jp: パターン認識と機械学習 上: C.M. ビショップ, 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, 村田 昇: 本amzn.to演習2.10は,ガンマ関数の性質を利用することをヒントにしつつ,式(2.38)のディリクレ分布の平均,分散,共分散を求めます. …

PRML 2.8 2変数を使った分散

お知らせ 突然数式が展開されなくなったので, PRML2章 に同様の式展開を記載しています. Amazon.co.jp: パターン認識と機械学習 上: C.M. ビショップ, 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, 村田 昇: 本amzn.to演習2.8は,p72で言及されている式(…

PRML 2.8 2変数を使った平均

* 余談 当ブログのPRMLの解答は,矮小yousack.hateblo.jp と補完関係にあるため,どちらかに挙がっていれば,積極的に記事にはしない予定です. Amazon.co.jp: パターン認識と機械学習 上: C.M. ビショップ, 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, …

gemのmongoが動かなくなった

はじめに 私的にNDLの全国書誌データのデータをRubyで集めてmongoDBに格納しています. 先日,mongoのgemをupdateしたら動かなくなったので,対処法を書きます. 環境 OS:centos mongo:2.6.9 gem mongo:2.0.3 本題 gemを1系のmongoから2.0.3にupdateしたら `<main></main>…

PRML演習2.7 解答

* 余談 当ブログのPRMLの解答は,矮小yousack.hateblo.jp と補完関係にあるため,どちらかに挙がっていれば,積極的に記事にはしない予定です. Amazon.co.jp: パターン認識と機械学習 上: C.M. ビショップ, 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, …

PRML演習2.5 式2.265の導出

Amazon.co.jp: パターン認識と機械学習 上: C.M. ビショップ, 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, 村田 昇: 本amzn.to式2.265の導出を行う.\begin{align} \Gamma(a)\Gamma(b) &= \int^{\infty}_0exp(-x)x^{a-1}dx \int^{\infty}_0exp(-y)y^{b-1}…

情報管理誌のRSSから抄録を入手するまで

はじめに 先日STI updatesと「情報管理」誌が新着情報のRSS配信を再開されました. STI updatesと「情報管理」誌が新着情報のRSS配信を再開 | カレントアウェアネス・ポータルarXiv.orgには抄録の情報もあるのですが,上記の情報管理誌にはなかったので,RSS…

「図書館及び関連組織のための国際標準識別子(ISIL)」を触ってみた

2015年5月8日に追記しました. はじめに 先日NDLで新しいデータとして図書館及び関連組織のための国際標準識別子(ISIL)が公開されました. オープンデータセット | 国立国会図書館-National Diet LibraryRDF形式のデータで馴染みがなかったので,簡単に触…