金と緑のエントロピー

ヴォイニッチ手稿,投資,農作について,データ分析手法を使って不真面目に研究する場所です.

ヴォイニッチ手稿の分析用データを得る方法

 

ヴォイニッチ写本の謎

ヴォイニッチ写本の謎

 

 

ヴォイニッチ手稿(ヴォイニッチ写本とも呼ぶ)とは,未解読の言語で書かれた古文書のことです.
1902年にイタリアで発見されました.

 

見たことのない植物や,女性の絵が描かれており,何より見たことのない文字を使って書かれています.

 

未だにその内容は解読されておらず,
“宗教家や科学者が秘密の情報を隠すために独自の言語を作成した”,
“単なるいたずらで何の意味もない”,
など様々な推測がなされています.

 

また,時折“ヴォイニッチ手稿が読める”といった人物が現れて(その真偽は定かではありませんが),
オカルトめいたものを愛する方々ではその都度話題となるなど,
兎にも角にもロマンあふれるアイテムとなっています.

 

ヴォイニッチ手稿はこれまでも多くの研究者によってその解読が試みられ,
そのおかげで現在ではWebで原本の画像が容易に見られ,
(参考:https://shkspr.mobi/blog/2013/08/voynich-manuscript-ebook/)
分析を容易にするための加工がなされたデータも多く存在します.

 


当ブログでは,
このロマン溢れる古文書を題材に,
あくまで趣味の範囲でヴォイニッチ手稿の解読に向けた実験をやっていきます.

 

ヴォイニッチ手稿の解読には,
物理的な紙質等の調査,宗教的観点から読み解く,など
様々なアプローチが有るかと思いますが,
当ブログでは,特に暗号解読の手法を中心とした,データ分析による数学的な方法で解読を試みていきたいと考えます.

 

筆者は暗号解読の研究者でもなんでもありませんので,
効率が悪いところもあれば,
間違ったところもあるかと思います.

既に知られた研究結果も,気にせず再分析します.


所詮アマチュアの聞きかじった程度と笑っていただき,
間違いについてはお叱り,ご訂正いただけますと幸いです.


さて,まずはヴォイニッチ手稿のデータ獲得方法です.
ヴォイニッチ手稿は世界中の研究者にとって解読を夢見るアイテムであるため,
様々なチームによって,分析可能なデータ化(transcription)がなされています.

 

そもそも人が書いた文字のどれが同じ文字かも定かではないし,
また挿絵との関係性もわかっていないため,
データには文字の表し方や文字判定,
挿絵の記載など様々なものが有り,
具体的にどのデータが一番だと言えるものではありません.

 

とりあえず,筆者は以下のサイトから拝借したデータを用いて分析を行います.
http://www.voynich.nu/transcr.html
中盤のstill available for downloadを選べば,テキストデータでダウンロード可能です.

 

他にも,以下のサイトで得られるデータなどは綺麗に加工されていて使い勝手が良さそうです.

http://www.ic.unicamp.br/~stolfi/voynich//98-12-28-interln16e6/

 

例えば挿絵と合わせた分析を行う場合など,このデータでは不都合な点があるかもしれません.
その場合は都度データを変更するものとし,
当ブログでは,以降ではこちらのデータを使って分析をして行こうと思います.

 

次回は,pythonを使った,ヴォイニッチ手稿データの基礎的分析について触れていきたいと思います.