統計文献学

2010年3月14日 日曜日

センター試験で分からないときは、取りあえず2をマークする!など、出題者の癖読みから少しでも点を取ろうとする受験生はあとを絶たないと思う。実際、早嶋もそうしていました。

無駄な知識を特集しているトリビアの泉という番組でも確か同じような事を言っていました。クイズミリオネアの選択問題で一番正解の確率が高い番号が2だと。

実際は、有意性を感じるまでのデータではありませんでしたが、出題者は乱数を意識して回答を作るわけではなく恣意的に作っている結果から2に集中したのでしょう。

出題者の意図として1と4は外したくなります。そのため2番と3番に正解が集中するのでしょう。このような癖を読むこと、小さいころから自然と行っていましたが、このような事を専門に行う学問が存在します。

統計文献学です。

この分野では、ある文学作品が特定の作家が書いたものなのか?贋作なのか?を推定する時、それを統計学に委ねる手法です。シェイクスピアの研究者であったテイラーがボリビアン図書館にある詩はシェイクスピアの作ではないか?と仮説を持ちました。これに対して、統計文献学は次のように活用されます。

実際、シェイクスピアの作品として知られている作品から使われている単語を調査します。それらの使用頻度を調べます。そして、シェークスピアが新しく誌を書いた場合、どのくらい新しい単語を使うのか?という確率的な推論を作ります。

どのくらい新しい言葉を使うのか?どのくらい使われている言葉を使うのか?これらを基にボリビアン図書館で発見された詩はかなりの確率でシェークスピア作と結論を下されたのです。

早嶋聡史




コメントをどうぞ

CAPTCHA