ネイチャー』誌に掲載された研究によると、アメリカの主要政党は、地球温暖化について知れば知るほど、政党間のコンセンサスが得られにくくなるとのこと。 現在、毎日250兆バイトの情報が生成されていますが、毎日そのペースで情報が増えていくのであれば、その有用性は限りなくゼロに近いはずです。そのほとんどは単なるノイズであり、ノイズはシグナルよりもはるかに速く成長します。検証すべき仮定が多すぎ、解明すべきデータが多すぎますが、客観的事実の数は相対的に一定です。人間の脳は驚異的な能力をもっていますが、IBMの分析によると、その記憶容量は、世界が毎日生み出す情報量の100万分の1にすぎません。記憶する情報は慎重に選ばなければなりません。
例えば、米国の経済予測。米国政府は経済指標に直接関係する年間4万5千件のデータを公表しており、民間のデータプロバイダーは最大400万件の統計データを把握しています。エコノミストの中には、すべてのデータを混ぜ合わせ、一般的なデータに質の高い「化粧」をしたいという誘惑に勝てない人もいます。第二次世界大戦後のたった11の不況の結果を説明しようとする統計モデルが、400万件のデータから選択しなければならないとしたら、結果として得られる相関関係の多くは欺瞞的なものになるでしょう。ビッグデータの専門家は相関関係が大好きですが、原因と結果を分析できなければ、次の不況の兆候を判断するためにどの指標を使うべきかを決定することはできません。
人がノイズを信号と勘違いする行動は、統計学的に「オーバーフィッティング」として知られています。人間の脳はパターンをとらえ、予測をすることで働きます。一般的に、IQの高い人はニューラルネットワークの学習能力が高く、パターンを捉える能力が高いと言われています。パターンを捉える能力が高いということは、非常に小さなサンプルに潜む曖昧な「パターン」を捉えることができるということです。
しかし、少ないサンプルやノイズの多すぎるサンプルから「法則」を結論づけるのは極めて危険です。自然の営みには明確な法則がないことが多く、法則を発見しようと目を凝らして掘り進むと、結果的に賢さを賢さと勘違いすることになります。その結果、賢さを賢さと勘違いしてしまうのです。フォン・ノイマンはオーバーフィッティングを生々しく表現しています。4つのパラメータを与えれば象に当てはめることができ、さらに1つのパラメータを加えれば、象に幹をはばたかせることができる、と。人間の脳だけでなく、機械学習もこのようなオーバーフィッティングに陥りやすいのです。
予測の失敗は、ノイズを信号として扱うことに加えて、技術的発展を予測できないことと関係があります。たとえば、19世紀末にロンドン・タイムズ紙のライターが、ロンドンの街路に馬糞が堆積している問題を調査したところ、1940年代ごろまでには、市内のすべての道路が厚さ2.7メートルもの馬糞で覆われるだろうと述べています。彼が予想しなかったのは、その約10年後にヘンリー・フォードがT型自動車の生産を開始するということでした。
ロンドンは馬糞の危機を免れただけでなく、馬と自動車をめぐる産業は一変しました。鍛冶屋は職を失い、馬の牧場は閉鎖され、油田労働者、加工業者、組立業者は市場で希少な資源となりました。より最近の例では、iPhoneが発売された2006年、ノキアがわずか7年後に72億ドルで売却されることになるとは誰が予想したでしょうか?
技術進歩の最大のパラドックスは、より正確に未来を予測できるビッグデータの時代への移行を可能にする一方で、技術進歩が未来予測の最大の変数にもなっていることです。