カルチャロミクス

読んだ本の感想。

エレツ・エイデン & ジャン=バティースト・ミシェル著。
2016年2月24日 第1刷発行。



今まで出版された本の情報から、言語の変転を分析する試み。

以下は、「Nグラム・ビューワー」へのリンク。

https://books.google.com/ngrams

第1章 歴史を見通す新しい眼鏡
科学の限界は観測範囲で決定する。

古代から人間は情報を蓄積してきたが、現代では世界中で一年間に生み出される一人当たりの情報量は一テラバイトになる。人類全体では毎年5ゼタバイト。

さらに、2035年?にはSNSは現在の10万倍もの情報を蓄積していると予想する。

本書では、グーグルの「デジタル図書館」を利用する。3000万冊を超える本(今まで出版された本は約1億3000万冊?)がデジタル化された。

以下はビッグデータの問題点

①構造
様々な情報が混じり、一貫性が無い。
②因果関係との不適合
情報が大量であり、確率的にしか原因と結果を説明出来ない。
③著作権等
多くの情報が企業や個人の独占的所有下にある。

第2章 ジップの法則と不規則動詞たち
ジップの法則:
単語の出現頻度順位は、第A番目の単語の出現頻度が1/Aに比例する。

単語の順位と頻度は逆比例の関係にあり、50番目に多く使用される単語は、500番目に多く使用される単語の10倍使用される。これは一部の単語が極端に多く使用される事を示し、「べき乗則」が成立する。

◎不規則動詞(-ed)
過去形で語尾に-edがつかない言語は極めて頻繁に使用される。不規則動詞は動詞全体の3%だが、使用頻度上位10位の動詞は全て不規則動詞だ。

それは英語の歴史と関係がある。

紀元前10,000年~紀元前4000年にかけて、インド・ヨーロッパ祖語が広範に使用されたとする。母音交替(アプラウト)というシステムがあり、単語中の母音を変化させて時制等が異なる別の単語にしたとする。

不規則動詞の変化のパターンには、母音交替が関係している(sing → sang、ring → rang等)。

-edと表記する接尾辞(デンタル・サフィックス)が過去形を示すために使用されるようになったのは、紀元前500年~紀元前250年頃のスカンジナヴィアのドイツ祖語とされる。

デンタル・サフィックスで過去時制を表現する方法が急速に広まり、800年頃に古英語による叙事詩『ベーウルフ』が登場した頃には、英語動詞の75%は-edで過去形を表すようになったという。

この過程を規則化と呼び、現代も進行中である。例えば、thrive(繁栄する)という単語は、1920年頃のニューヨークタイムズではthroveという過去形だったが、2009年のタイムズではthrivedと表現されている。

現代まで残っている300ほどの不規則動詞は、使用頻度が非常に高いがために規則化を逃れてきたらしい。

さらに、使用頻度により規則化される時期を予想出来る。古英語での177の不規則動詞の内、四世紀後の中英語で不規則動詞だったのは145で、近代英語では98が不規則動詞として残っていた。177の内で、使用頻度上位12の単語は規則化されていない。

こうした例から使用頻度と規則化される年数を考えると、ある不規則動詞の1/100の使用頻度しかない不規則動詞が規則化されるまでに要する年数は前者の1/10になる(使用頻度の多いdrive-droveという単語がdrive-drivedとなるのは現在から約7800年後であるらしい)。

◎不規則動詞(-t)
過去形になると、語尾に-tが付く動詞がある。

burn/burnt、dwell/dwellt、learn/learnt、smell/smellt、spell/spellt、spill/spillt、spoil/spoilt等。これらの動詞は英語圏の人間にとって支え合う関係にあるため、使用頻度から予想されるより非常に長い期間、不規則動詞として残ったとする。

しかし、spoilとlearnは1800年までに規則化され、英国では毎年、英国東部の都市、ケンブリッジの人口に匹敵する人々がburntに代わってburnedを使用するようになっており、dwellだけが不規則動詞とし留まっているらしい。

第3章 ビッグデータで辞書を評価する
nグラム:
本に登場する全ての語や句の記録一式。

グーグルブックスに登録されている約3000万冊の本から辞書を評価すると、コンピューターによって現代英語で使用されている単語を全て含む辞書を作成する事が出来る。

全33巻のオックスフォード英語辞典(OED)であっても収録語数は50万語以下であり、著者達が作成した148万9337の単語を含む辞書には及ばない。

デジタル辞書は、従来の辞書の及ばない領域を探索可能であり、定量的な考察も可能。

例えば、1900年~1950年まで英語は新語と死後が均衡し、単語数は大きく変化していない。しかし、1950年にかけて英語の語彙数が急増し、英単語数は約二倍になった。昨今では毎年8400の単語が加わっているという。

こうした計量もデジタル辞書ならば可能となる。

第4章 名声を定量化することは可能か?
本に名前が登場する頻度で名声の度合いを計測する。

◎チャールズ・ディケンズ
1836年に最初の小説『ピックウィック・ペーパーズ』を出版した頃から出現頻度が高くなる。本人の死(1870年)の後も名声は上昇し続けるが、1900年になると出現頻度が低下していく。

***************

◎コホート分析
1930年頃に、ノルウェーの医師クルスティアン・アンドヴォードが結核を調査した方法。同時期に生まれた人々の集団(コホート)に人々を分けて、結核への罹患状況を調べる。
すると、生年に関わらず結核に感染する可能性が高いのは五歳~十四歳、二十歳~二四歳と判明した。全人口を対象に結核による死者の平均年齢が年を追う毎に上昇するのは、若い人間ほど結核への罹患率が低いからである。
結核が高齢者が罹患し易い病気になったのでなく、ノルウェー人の若い世代が徐々に結核への抵抗力を持ちつつあるという仮説が立てられる。

⇒本書においても、同年代に誕生した人名や単語を集団として分けて分析している

1800年~1949年に生まれた人々を年毎に集団に分けて人名の出現頻度を調べる。

①頂点
どの集団でも誕生後75年が平均名声の頂点であった。しかし、有名になり始める時期が違い、1800年生まれでは45歳の時から本に人名が出現し始めるが、1950年生まれでは半数が29歳の時点で辞書に載る単語の出現頻度に到達している。

②速さ
1800年生まれの集団は名声が二倍になるのに約8年が必要だが、1950年生まれでは約3年で名声が二倍になる。

③下降
平均して75歳で頂点に達した名声は、徐々に下降していく。1800年生まれの集団では名声の半減期は120年だったが、1900年生まれでは71年になっている。

第5章 言論弾圧の痕跡を測る
幾つかの言論弾圧の影響を調べる。

◎シャガール(ドイツ)
1917年に30歳だったシャガールはソヴィエト連邦の視覚芸術部門の人民委員への就任を断り、1923年にパリへ行く。以後、シャガールの生ではフランス語での出現頻度が上昇する。

ナチスドイツは前衛芸術を嫌い、ユダヤ人でシュールレアリストだったシャガールの作品は姿を消していく。そのため、1936年~1943年でドイツ語でマルク・シャガールというフルネームは一回しか無い。

1933年は、ドイツ学生連盟が、ドイツ文化から好ましくない思想を一掃するキャンペーンを開始する。カール・マルクス、F・スコット・フィッツジェラルド、アルベルト・アインシュタイン、H・G・ウェルズ、ハインリヒ・ハイネ等が焚書の対象となった。

その影響を調べると、哲学と宗教関係の著者の知名度が1/4に低下し、政治関係の著者は1/2、歴史家は-10%程の影響を受けている。

◎ソヴィエト連邦
1925年にソヴィエト連邦唯一の指導者となったスターリンは、自らが抹殺した人物であるレオン・トロツキー、グリゴリー・ジノヴィエフ、レフ・カーメネフ等の記録を抹消した。

1953年のスターリン死後も彼等の名声は復元せず、復元には1980年代のペレストロイカを待たなくてならなかった。

◎米国
共産主義を調査するために1938年に設置された特別委員会が1945年に連邦下院非米活動委員会になる。映画産業がプロパガンダの場となる事を恐れ調査が行われる。
この時、共産主義者の情報を明かす事を拒否した人物達をハリウッド・テンと総称するらしい。共産主義者のブラックリストは1960年に破棄され、ハリウッド・テンの一人だったドルトン・トランボが『栄光への脱出』の脚本を担当する事となる。
この影響もnグラムで明確に見て取れる。

◎中国
中国には以下の二つの天安門事件がある。

四五天安門事件:
1976年に周恩来首相の死を悼む人々が天安門広場に約1万人集まった事。

六四天安門事件:
1989年に胡耀邦前総書記の死を追悼する学生達が天安門広場を占拠し、軍隊に鎮圧された事件。

1976年に「天安門」というごくの出現頻度は跳ね上がるが、1989年では抑圧されている事が見て取れる。英語と中国語の乖離が激しい。

第6章 集合的記憶と集合的忘却
本の情報から、集団が記憶をどのように保持するか考える。

◎年号
集団的忘却を測定するために、著者達は1816や1952等の西暦の年号に対応する数字の出現頻度を調べた。

①連想
1950年という単語は、1930年代まで多くの人間が無関心だったが、1940年代初頭になると少し言及されるようになり、1950年から数年は大いに出現回数が増加する。

ある年代への関心の低下は最初は急激だが、以後は緩やかに進む。これは個人の忘却と似ているらしい。

②忘却速度
忘却の半減期は年によってかなり違う。1872年の言及頻度が最大の1/2になるのは1896年で24年経過しているが、1973年への言及頻度は10年後の1973年に半分になっている。

⇒時代が進むに連れて、集合的忘却速度が速まっている

◎発明品
著者達は、Wikipediaに掲載されていた発明品の誕生した年をヒントに、情報が広まる速度を調べた。

147の発明品で調べると、社会へ浸透する速度 = 集合的学習速度は速まっているとする。

以下の3つの時代区分。

①19世紀初頭(1801年~1840年)
②19世紀半ば(1841年~1880年)
③世紀の変わり目(1881年~1920年)

上記①では、本の中での言及頻度が最大値の1/4に達するのに65年かかっているが、上記③では26年である。普及の目安である最大値の1/4に達する期間は10年毎に約2.5年ずつ短くなっている。

第7章 ビッグデータがもたらす未来
著者の考察。

本書では、デジタル化された本の記録によって、集団としての人間を定量的に考察している。デジタル化は、新聞は活字化されなかった手紙、有形の歴史遺産等にも及ぶはずであり、過去の記録を定量的に考察出来る環境が整えられつつある。

デジタル化は未来において様々な分野に波及するはずであり、個人情報保護や政府による監視等の問題が発生すると思われる。

学問においては、人文科学(分析を通して人間を研究する)に科学(実験と観測に基づく考察)の手法が入っていく過程と考える。



上記の本においては、ハリ・セルダンという数学者が集団としての未来を予測する。

大量のデータを使用すれば、集団の未来を予測出来るかもしれない。

一つの試みとして、「文化の慣性」を計測する実験がある。出現頻度が上昇している単語の上昇傾向が継続し、出現頻度が下降している単語の下降傾向が継続するかを調べる。

上昇傾向、下降傾向が20年継続した単語集団は、その後も慣性が継続するため、歴史を予測出来ると言える?

********************

◎インターネット上のブログ記事を活用した集団理解
ブログ中の単語を以下の4種類に分類する。

①非流行語
出現頻度は一定値のまわりでランダムに変動する。
②流行語
指数関数的に使用頻度が増加し、ピークを迎えて、指数関数的に使用頻度が減少する。
③ニュース語
突然、不連続的に使用頻度が増加し、その後、べき乗の関数で使用頻度が減少する(例:マイケル・ジャクソン)。
④イベント日語
特定のイベント日付に向かってべき乗で使用頻度が増加し、その後、べき乗で減少する(例:クリスマス)。

2011年3月11日まで、「津波」という単語は日常語の一つで、少ないが安定した使用頻度であったが、震災の当日に激増している。べき乗の関数で計算すると、「津波」の出現頻度が以前の日常語のレベルになるまでに約25年が必要らしい。

また、広範にブログ記事を収集する事で、全体的な集団感情を推測出来る。POMSという心理分析の手法に従い、「緊張、抑鬱、怒り、活力、疲労、混乱」の基本的な感情に対応する単語群を特定しその増減によって感情の変化を定量化する。

特に「活力」の変動は、株価との連動性が高いらしい。

解説を書いた高安美佐子 東京工業大学教授は、インターネットにおける噂の伝播を数理モデル化し、誤情報を修正、鎮静化する方法をシミュレーションで解明しようとしているらしい。

人気ブログランキングへ
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

ABCDEFG

Author:ABCDEFG
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
フリーエリア
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード