7月の振り返り

shopetan.hatenablog.comホワイトボードに書いた私の文字が、死ぬ間際の人間のようだったそうです。 文字には気持ちを込めて書いていきたいと思うなどしました。 大学のこと 修論の中間発表会がありました。 主査と副査の先生を除くと教員が1名で普段のゼミ…

上半期の振り返り

shopetan.hatenablog.com に感銘を受けたので、再開してみます。 月ごと 1月:2月に国際会議があったのでDMM英会話を始めた。今もだけど、全然言ってることわからなくて大変だった。国際会議併設のワークショップの準備をしていた気がする。 2月:イギリスに…

国際会議でイギリス

バンケット会場 会場の周辺施設 本場の魚と芋です pic.twitter.com/ykCyCyeAoA— nzw (@nzw0301) 2017年2月6日 はじめに WSDM 2017 – The 10th ACM International Conference on Web Search and Data MiningWSDMという国際会議の併設のワークショップに論文が…

年末に読んだ本とか

今年の目標は死なないことです*1. 本 先月末に念願の佐久島(妃真加島のモデル)に行きました.観光客が多いシーズンは夏なので個人的にはちょうどよかったです.三河湾の島の中では一番でかいですが,栄えてはいないそうです.この道中や宿で読書をしてい…

2016年の振り返り

去年と同様に. 月ごと 01月.不審者が住んでいる建物に出たり,プライベートでいろいろあってでわりとしんどかった.前厄でこれなので本厄は死ぬのでは.scalaを書こうとして挫折. 02月.引っ越. 03月.言語処理学会年次大会@東北.学位授与式.トピック…

2016年に買ったものとか

気を緩めるとGibbs samplingのことを考えてしまう気質*1と進学した関係もあり交際費が激減したためAmazonで昨年の倍くらい注文した(基本的に漫画か小説).よいものはよいと言いたいので,褒めます. ヘッドホン audio-technica プロフェッショナルモニター…

8月の振り返り

技術的なこと サーバ 気づいたらcronの実行にしか使っていなかったので,レンタルサーバを解約した.実は図書館系のデータ*1をずっと集めていたのだが,気づいたら解約日になっていたので闇に消えた.cronで実行していたコードは,PC起動時にスクリプト実行…

7月の振り返り

月末はバタバタしそうなので,先に書いておきます. 技術的なこと 上旬に以前の環境が壊れた研究室のサーバーの再構築の手伝いをした.ユーザ作成,ライブラリ再インストールの作業がめんどくさいのだが,自動化ツールを身につけるほどの頻度でもないので,…

6月の振り返り

技術的なこと 月初めにKerasの日本語訳化がほぼ完了したとのことだったので,気になった翻訳にPR投げたり,本家に追従するPR投げるとかしていました. Keras Documentation「語彙統一したいです」みたいなissueを立てたはいいけど,そればかりやってると時間…

私なりのDeep Learningに関する情報の集め方

はじめに aonotas.hateblo.jpに感化され,被りがないように書いてみました. 深層学習歴(?)は半年でして,研究では使ってないので深いことは書けませんが... 好きなフレームワークはKeras*1です. 本題 arxivをfeedlyで購読 私は以下の3つを登録して,…

5月の振り返り

技術的なこと 4月から深層学習のフレームワークであるkerasにはまり,片っ端から基礎的なニューラルネットの記述をしていたので,その続きをしていました. そんなところ4月末くらいに機械学習勉強会に参加されている先生から「kerasのチュートリアルやって…

NNLMで城ヶ崎美嘉のセリフを学習してみた

はじめに これに関係した記事になります. nzw.hatenablog.jp 当時はnumpyを使ってNNを記述しましたが,ここ最近は遊びでchainerとかkerasなどのライブラリを使っています. 今回は思いつきでkerasでセリフの再現ができるが試してみました.手前味噌で申し訳…

4月の振り返り

はじめに 技術的なことはqiitaかgithub.ioに記述するようになってしまい,以前ほどこちらにコンテンツをあげることが減りました. その月にしたことを,振り返ってみようかと思います. 技術系のこと keras 頭が悪いので,深層学習のフレームワークでchainer…

word embeddingsの演算とデータセットについて知ってること

NLP

はじめに 自分が使った分だけですが,まとめました 評価の話 学習した分散表現の評価方法としてよく見るのは word similarity analogy です*1.この2つであれば omerlevy / hyperwords — Bitbucket に評価値を計算するPythonスクリプトとデータセットが入っ…

2015年の振り返り

忘年会シーズンですが,2015年忘れたくないので振り返りをします. 月ごとに振り返り 1月 12月に研究室に配属されて年明けずっと研究室にはいったら輪講をしたいと思っていたので,名著「言語処理のための機械学習入門」を週1章ペースで読んでた.ダーツを買…

大学院入ってないけど,大学院について

はじめに おはようございます,klis advent calendar 2015の主催をしておりますnzwです. この記事はその12月1日分です.最初に説明するとこのカレンダーは,以下の2つを満たした有志の方によって行われています. 記事中に"klis"を含む 知識情報・図書館学…

城ヶ崎美嘉(CV:佳村はるかさん)の誕生日なので,セリフが城ヶ崎美嘉か城ヶ崎美嘉じゃないかを多層パーセプトロンで判別してみた

注意 深層学習じゃありません. はじめに 私はPではないので知りませんでしたが,今日は「アイドルマスターシンデレラガールズ」の城ヶ崎美嘉(CV:佳村はるか)の誕生日です.twitter.comおめでとうございます!ちなみに佳村はるかさんといえば「SHIROBAKO」…

深層学習をはじめた

はじめに 先日,これに参加*1して,心底思ったのは「深層学習を避けては通れない」ということでした.connpass.com 深層学習やろうにも,はじめて見るにも何をしたらいいのかさっぱりなので,現状行っている勉強について書こうかと思います. 本題 まず,と…

PythonでKullback-LeiblerダイバージェンスとJensen-Shannonダイバージェンス

11月5日追記 最下部に追記しました. 前置き 2つの確率分布の違いを表す指標にKullback-Leiblerダイバージェンス(以下KLダイバージェンス)とJensen-Shannonダイバージェンス(以下JSダイバージェンス)があります.詳しいことはamzn.to の1.6を参考にしてくだ…

gloveとかword2vecの性能の測り方

追記 記事書いた後にこんな論文があったのでまとめています. Evaluation methods for unsupervised word embeddings EMNLP2015 読み会 from nzw Nozawa www.slideshare.net はじめに アクセスログをみているとgloveの記事nzw.hatenablog.jpがずっとアクセス…

lualatex-jaでエラーがでた

追記(2015-10-03 18:30) Mac texを入れ直したら直りました. 追記(2015-09-19 20:34) 別のMacの環境で当記事と同じことを行いましたが,エラーの解決はできませんでした. はじめに lualatex-jaを更新したら,texの変換ができなくなった(厳密にはorgmodeのb…

2010年enwikiのpages-articles.xml.bz2を探すのに手間がかかった話

はじめに wikipediaのダンプデータはとても便利で言語処理ではよく使われたりします.はやり(?)のGlove論文やword2vecとの比較論文では2010年の英語版のwikipediaのデータを使っています. おそらくpages-articles.xml.bz2を解凍してテキストを取り出した…

コミュニティの評価指標について2つだけ

はじめに ほとんどのデータはグラフ(orネットワーク)として表すことができます. 道路,空港,タンパク質,購買履歴,レシピ,地図...などなど. 言語処理や機械学習でTriple(図書館情報学でおなじみ)やテンソルを用いた学習やGoogleのKnowledge Graphsで…

org modeからreveal.jsを出力する話

はじめに 言語処理の記事がブクマをたくさんいただいて驚いております nzwです.自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々nzw.hatenablog.jp スライドは何で作っていますでしょうか? keynote MSのpower point ht…

自然言語処理を自習したくなったら参考になりそうなサイトなど

雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています.最終更新 2016年08月19日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015東北大学の乾・岡崎研究室の岡崎先生が作られ…

相づちをとりだしたらそれっぽくなった話

こんにちは はじめに ちょうど最近TwitterのBotをつくったのですが,なにを喋らせようか迷っていました.*1 michil (@_michil) | Twittertwitter.com以前やったこれが使えそうです.青空文庫から会話の連鎖を取り出す - 鴨川にあこがれる日々nzw.hatenablog.…

pandasのメモ

はじめに 個人用のpandasメモです.pandas Python Data Analysis Library — pandas: Python Data Analysis Library 機械学習をRubyでやるのはライブラリがなく関係でほぼ不可能なので,いい加減Pythonに入門しようと思いました.pandas,scikit-learn,gensi…

wikipediaダンプデータのInsertが重かった時の話

はじめに Wikipediaは,記事本文やリダイレクト情報など殆どの情報をダンプデータで公開しています. Wikipedia:データベースダウンロード - Wikipedia身の回りの研究では, word2vecの学習データに記事本文を使う Mecabの辞書を拡張するために見出し語を使…

青空文庫から会話の連鎖を取り出す

前置き 別に大したことは書いておりません. ただのRubyスクリプトです. はじめに 機械学習とかディープラーニングとか人工知能といった単語が最近バズってます.最近ですとこれでしょうか.人工知能マシン、プログラマーに怒る(ウォール・ストリート・ジ…

PRML 演習9.3

9章に入りました. 8章はグラフィカルモデルが読める段階くらいまできたので,後半はすっ飛ばしました. はじめに 式(9.10)と式(9.11)をうまく計算して式(9.7)を求めます.例としてまずはでやってみてからについて求めます. 数式がうまく展開されなかったの…