読者です 読者をやめる 読者になる 読者になる

鴨川にあこがれる日々

軽い技術っぽい記事かいてます

2010年enwikiのpages-articles.xml.bz2を探すのに手間がかかった話

はじめに

wikipediaのダンプデータはとても便利で言語処理ではよく使われたりします.

はやり(?)のGlove論文やword2vecとの比較論文では2010年の英語版wikipediaのデータを使っています.
おそらくpages-articles.xml.bz2を解凍してテキストを取り出したものだと思います.
同じデータを探して苦労したので,まとめておきます.

本題

仮に今年のものならすぐに手にはいります.
https://dumps.wikimedia.org/enwiki/
10G超えてるので,注意してください.


古いものはここにあります. Wikimedia Downloads

2010 XML filesをリンクの先を辿って行くとここにたどり着きます. enwiki dump progress on 20101011
しかし,ほしいarticleのリンクが死んでます.
結局そのページのURLとファイル名をくっつけてwget したらうまくいきました.

wget https://dumps.wikimedia.org/archive/2010/2010-11/enwiki/20101011/enwiki-20101011-pages-articles.xml.bz2

それでも6Gありますが.

展開すると26Gあるのでテキストに変換します.

xml2sqlが良いかと思います.
Data dumps/xml2sql - Meta
のタグでエラーを起こすのでgrepで取り除いたものをxml2sqlにかけてやります.
grep -v はマッチしない行の抽出です.

grep -v "<redirect />" enwiki-20102011pages-articles.xml | xml2sql -v

これで3つのファイルが生成されます.

  • page.txt
  • revision.txt
  • text.txt

text.txtが目的の本文です.
mediawikiの記法が残っているので削除する必要がありますが.


以上です.