シグナル&ノイズ 天才データアナリストの「予測学」(ネイト・シルバー)

Book

 

データサイエンスが支配する現代

著者のネイト・シルバーを知っているだろうか?FiveThirtyEightというWebサイトを知っているだろうか?

 

今の所、21世紀はITが世の中に広がり、世の中を支配する世紀となっている。IT技術の中でも、データサイエンスは特に近年脚光を浴びるようになった。近年とはいっても、セイバーメトリクスのようにスポーツ界などでは2000年代のはじめ頃から本格的にデータが武器として使われるようになっている。

 

筆者のネイト・シルバーはデータサイエンティストで、FiveThirtyEightという、統計を駆使した予測を提供するサイトを運営している。TIME紙が選ぶ世界で最も影響がある100人にも選ばれたことがある人物でもある。

 

FiveThirtyEight
Nate Silver’s FiveThirtyEight uses statistical analysis — hard numbers — to tell compelling stories about elections, politics, sports, science, economics and li...

 

FiveThirtyEightでは、政治、スポーツ、科学、経済、文化のセクションを持ち、各分野で様々な記事を提供している。「次の大統領が誰になるか?」「スーパーボウルはどちらのチームが勝つか?」といった問題は多くの人が気にする問題であって、時には賭け事の対象になる。

 

皆の関心事は昔から予想屋がいるものだが、決してその予想は信頼が置けるほど正しいものではなかった。しかし、ごく限られた範囲ではあるが、近年のデータサイエンスの発達やビッグデータ、統計学(特にベイズ統計学)の発達はこれまでノイズに影響されがちだった予測をより洗練されたものにするようになった。

 

ノイズの中からシグナルを見つける

 

ところで、沢山データを突っ込めば必ずしも良い予測モデルができるわけではない。沢山のデータから何百もの予測を生み出そうとすれば、確率的には一定の「統計学的に有意な」予測が生まれてしまう。医学研究にはつきものだが、この中で意味のあるシグナルを見つける作業(あるいは、逆にすべての予測は仮説に基づいていなければならない、という立場もある。)は困難だ。

 

一方、たとえ1日250京バイトずつ情報量が増えていったとしても、有益な情報は同じようには増えない。そのほとんどはノイズであり、ノイズはシグナルより急速に増える。証明しなければならない仮説と使用するデータは増える一方だが、客観的な真実はほぼ一定なのだ。

 

予測が発達した、とはいえど、確実なものが予測により分かるようになったわけではない。あくまで予測とは「確率的なもの」であるという事であり、その取扱いが洗練されてきているというだけのことだ。

 

一つの例としては、天気予報が良い例だ。宇宙空間に浮かぶ人工衛星は天気予報の予測に必要なデータを日夜収集している。各地の詳細なデータと合わせて天気予報の精度はこの数十年で急速に向上した。

 

天気予報を見るときに「明日は確実に晴れる」とか、「明日は確実に雨が降る」という情報を期待している人は少ないのではないだろうか。多くの人は、「明日は60%の確率で雨が降る」という情報を目にして、その情報を元に、傘を持っていくかどうかを自分で考えて行動している。

 

天気予報を形作るモデルは非常に複雑なデータを処理しており、意味のないノイズが大量に混ざったデータから意味のあるシグナルを取り出して解釈する。過程にはコンピュータのちからだけでなく、人間の予想も組み合わせている。この結果は確実なものを提供するわけでなく、確率論的な、解釈が必要な答えを出す。

 

予想のプロセスは大胆に決定的なものを生み出すよりも、繊細な情報の取扱いが必要とされる。このプロセスを辿れる予測者のことを、筆者は「キツネ」にたとえている。

キツネはこれといった原則を持たない生き物で、たくさんの小さな考えを信じており、問題に向けてさまざまなアプローチを試みる。彼らは微妙な差異や不確実性、複雑性、異なる意見に寛容である。

しかし、キツネはよりよい予測をする。彼らはデータのなかに大量のノイズがあることをすぐに察知し、間違ったシグナルを追いかけない。「わからないことがある」ことをよくわかっている。

 

 

シグナルが見られる確率

先日、マンデルブロが提唱した株式市場の変動についての理論を取り上げた。べき乗分布として知られる株式市場の分布は実は世の中の出来事の数多くに当てはまることが知られている。

 

マグニチュードが増すに連れてそのような大きな地震が起こる確率は減っていくが、これもべき乗則(マグニチュードが1増えるにつれて確率が10分の1になる)に従っている。驚くべきことに、テロによる1件あたりの死者数と発生頻度にも似たような関係が見られるという。

 

実はこうした法則を良く理解していないと対応を誤ることがある。「こんなに大きい災害が起こるはずない」と高をくくって対策をしないでいると、実際にその災害が発生してしまったときに想定外の大損害を被ることがあるということだ。

 

東日本大震災のように規模の大きい地震は数百年に1度しか起きない確率だが、それでもその頻度で起こりうる。そして私達の予測はせいぜい数十〜数百年のデータに基づくものであり、ただその短い期間に起こらなかったからといって可能性を捨てきってしまってはならないのだ。

 

確率論とうまく付き合って生きる

今の発達した予測学であっても、提供が可能な予測は世の中のすべてを明らかにしてくれるものではない。「絶対に病気が治る」とか、「絶対に儲かる」という根拠のないフレーズに惹かれる人は多いだろうが、不確実なフレーズこそよく耳を傾けなければならない。

 

読者の皆さんには、予測を検討するときにはシグナルとノイズについて注意深く考え、確率論的に表現しているものを探すことをすすめたい。私たちの予測能力の限界を考えれば、そのほうが誠実な言い方だ。複雑な現象について自信たっぷりに予測を発表している人は、問題を慎重に検討していないか、過剰適合している統計モデルを使用しているか、あるいは真実を追求するより名前を成すことに関心があるのだろう。

 

本書で取り扱う確率統計学は非常に複雑なものであり、高度な統計学とコンピュータサイエンスの知識がなければ取り扱えない。しかし、今後これらから生み出されたデータに頻繁に触れるようになるであろう私達は、データを解釈して、決断する能力を身に着け無くてはならない時代が来ている。

コメント