ダウンロードしたwikipediaのxml formatサンプル。
wikipediaをダウンロードする場所
http://dumps.wikimedia.org/jawiki/
上記のページからlatestのjawiki-latest-pages-articles.xml.bz2を選べば最新版wikipediaがダウンロードできます。
wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
wikipediaの各記事のxml format
各記事のxml formatは以下のようになっています。
基本的には、pageタグで囲まれているようです。ただし、次に書くように例外もあります。
<page> <title>アンパサンド</title> <ns>0</ns> <id>5</id> <revision> <id>46524710</id> <parentid>44911376</parentid> <timestamp>2013-03-06T22:31:33Z</timestamp> <contributor> <username>Addbot</username> <id>712937</id> </contributor> <minor /> <comment>ボット: 言語間リンク 31 件を[[d:|ウィキデータ]]上の [[d:q11213]] に転記</comment> <text xml:space="preserve">{{記号文字|&amp;}} [[Image:Trebuchet MS ampersand.svg|right|thumb|100px|[[Trebuchet MS]] フォント]] '''アンパサンド''' ({{lang|en|ampersand}}, '''&amp;''') とは「…と…」を意味する[[記号]]である。[[英語]]の {{lang|en|"and"}} に相当する[[ラテン語]]の {{lang|la|"e t"}} の[[合字]]で、{{lang|en|"etc."}} (et cetera = and so forth)を {{lang|en|"&amp;c."}} と記述することがあるのはそのため。[[Trebuchet MS]]フォントで は、[[ファイル:Trebuchet MS ampersand.svg|10px]]と表示され "et" の合字であることが容易にわかる。 __TOC__ {{Clear}} == 歴史 == [[Image:Historical ampersand evolution.svg|thumb|right|390px|アンパサンドの進展]] その使用は1世紀に遡ることができ (1)、5世紀中葉 (2,3) から現代 (4-6) に至るまでの変遷がわかる。 [[Z]] に続く[[ラテン文字]][[アルファベット]]の27字目とされた時期もある。 記号名の「アンパサンド」は、ラテン語の「&amp; はそれ自身 "and" を表す」{{lang|la|(&amp; per se and)}} からきている。 {{Clear}} ==手書き== [[File:Ampersand-handwriting-1.png|right|thumb|80px|手書きのアンパサンド]][[Image:Ampersand-handwriting-2.svg|right|thumb|80px|手書きのアンパサンド(簡素化)]] 日常的な手書きの場合、欧米でアンパサンドは「'''ε'''」に縦線を引く単純化されたものが使われることがある。 また同様に、「'''t'''」または「'''+'''(プラス)」に輪を重ねたような、[[無声歯茎側面摩擦音]]を示す発音記号「'''{{IPA|ɬ}}'''」のようなものが使われることもある。 == プログラミング言語 == [[プログラミング言語]]では、[[C言語|C]] など多数の言語で AND [[演算子]]として用いられる。以下は C の例。 * <code>X = A '''&amp;&amp;''' B</code> のように2個重ねたものは[[論理積|論理 AND]] を表す。この場合 A, B がともに真ならば X も真、それ以外は偽である。 * <code>0x12345678 '''&amp;''' 0x0f0f0f0f</code> のように1個であれば[[ビット演算#AND|ビット AND]] を表す。この場合の結果は <code>0x02040608</code> である。 [[BASIC]] 系列の言語では[[文字列]]の連結演算子として使用される。<code>"foo" '''&amp;''' "bar"</code> は <code>"foobar"</code> を返す。また、主に[[マイクロソフト]]系では整数の[[十六進法|十六進表記]]に '''<code>&amp;h</code>''' を用い、<code>&amp;h0F</code> (十進で15)のように表現する。 [[Standard Generalized Markup Language|SGML]]、[[Extensible Markup Language|XML]]、[[HyperText Markup Language|HTML]]では、アンパサンドを使って[[SGML実体]]を参照する。 == その他 == {{commons|Ampersand}} * '''[[&amp; (シングル)]]'''(アンド)は、[[浜崎あゆみ]]が[[2003年]]に発売した4曲入りマキシ[[シングル]]。 * '''[[&amp; (一青窈のアルバム)]]'''(アンド)は、[[一青窈]]が[[2005年]]に発売した[[アルバム]]、及び同アルバムに収録された楽曲。 *'''[[&amp; (漫画)]]'''(アンド)は、[[おかざき真里]]による[[漫画]]作品。 * '''アンパサンド'''は、[[日本]]の[[競走馬]]。⇒[[アンパサンド (競走馬)]] == 符号位置 == {| class="wikitable" style="text-align:center;" !記号!![[Unicode]]!![[JIS X 0213]]!![[文字参照]]!!名称 {{CharCode|38|0026|1-1-85|アンパサンド|amp}} {{CharCode|65286|ff06|1-1-85|アンパサンド(全角)}} |} {{punctuation marks|&amp;}} {{DEFAULTSORT:あんはさんと}} [[Category:約物]] [[Category:ラテン語の語句]]</text> <sha1>4duebxtzaadjddpy3036cey6451d992</sha1> <model>wikitext</model> <format>text/x-wiki</format> </revision> </page>
pageタグに囲まれているけど記事ではない例
下記のような特殊なページはpageタグで囲まれていても普通の記事ではないようです。
ダウンロードしたxmlを扱う場合はこの点に注意が必要です。
このような特殊なページは、titleタグの中身の先頭に「Wikipedia:」と書いてあるかどうかでとりあえず見分けられるようです。
<page> <title>Wikipedia:Sandbox</title> <ns>4</ns> <id>6</id> <redirect title="Wikipedia:サンドボックス" /> <revision> <id>36654478</id> <parentid>36654304</parentid> <timestamp>2011-03-06T16:16:58Z</timestamp> <contributor> <username>Y-dash</username> <id>309126</id> </contributor> <comment>テストは[[Wikipedia:サンドボックス]]でお願いいたします。 / [[Special:Contributions/Kompek|Kompek]] ([[User talk:Kompek|会話]]) による ID:36654304 の版を[[H:RV|取り消し]]</comment> <text xml:space="preserve">#REDIRECT [[Wikipedia:サンドボックス]]</text> <sha1>8x10n6namf7oawlowe0whbs04o55b8d</sha1> <model>wikitext</model> <format>text/x-wiki</format> </revision> </page>
<page> <title>Wikipedia:削除記録/過去ログ 2002年12月</title> <ns>4</ns> <id>2</id> <restrictions>sysop</restrictions> <revision> <id>2168856</id> <timestamp>2002-12-06T09:23:16Z</timestamp> <contributor> <username>Brion VIBBER</username> <id>1</id> </contributor> <comment>deleted "Linux": goatse.cx</comment> <text xml:space="preserve">Below is a list of the most recent deletions. All times shown are server (U.S. Pacific) time. <ul><li>09:23 2002年12月6日 [[User:Brion VIBBER|Brion VIBBER]] deleted "Linux" <em>(goatse.cx)</em></li> </ul></text> <sha1>gbhvqlwj7ga4v9ghhy0n88iqmlo19vz</sha1> <model>wikitext</model> <format>text/x-wiki</format> </revision> </page>