グラフの重要性って過小評価されてない?正しいグラフが作られるか否かが、生死を分ける時もある!

結.コンピューターの機能向上によりグラフの重要性高まる

 フレンドリーとワイナーによれば、19世紀までは、現在でもつかわれているグラフ(円グラフ、折れ線グラフ、棒グラフ)のほとんどは、データが1次元で表示されることがほとんどだったそうです。たとえば、プレイフェアが作ったイギリス海軍の支出を示す折れ線グラフでは、1つの変数だけが示されていて、時間の経過とともにそれがどのように変化するかが分かるだけでした。しかし、19世紀中頃には、グラフは1次元から進化し始めました。イギリスの科学者ジョン・ハーシェルが散布図を考案しました。タフテがそれを賞賛したこともあって、散布図は2つの変数を同時に扱う際のグラフとして良く使われるようになりました。変数は、気温や金額や失業率やワイン消費額等さまざまなものが使われました。1つの変数を使った折れ線グラフと違って、散布図では点が雲を描くように散らばります。1つ1つの点は、2つの変数によって位置(座標)が決まります。

 散布図は直感的に見ることができます。マイアミ大学教授のアルベルト・カイロが著書”
How Charts Lie(グラフのウソを見破る技術)”に記していますが、散布図では名前が示す通り、点が散らばっているのですが、その散らばり具合によって2つの変数の相関があるか無いかを知ることができます。正の相関があるとか、負の相関があるとか、相関が無いとかが分かります。

 有名な例があります。それは1911年頃のことですが、天文学者のアイナー・ヘルツシュプルンヘンリー・ノリス・ラッセルは、縦軸に絶対等級もしくは光度、横軸に表面温度や色指数(青から赤)をとった恒星の散布図を作りました(恒星の色は表円温度によって決まり、その輝度は表面温度と大きさによって決まる)。フレンドリーとワイナーが認めているように、その散布図は美しいものではないものの、恒星進化論を理解するための重要なグラフでした。その散布図で恒星の分布を見ると、大部分の恒星が図の左上(明るく高温)から図の右下(暗く低温)に延びる線上に位置していることが分かりました。その線を主系列と呼びますが、主系列の上方には巨星が多く、下方には矮星が多いことが分かりました。

 そのようなグラフでは、グラフ上の任意の2点間の距離は、完全に抽象的な意味を持っていました。上の恒星の散布図上で、距離の近い2つの恒星は特徴が似ています。驚くほど多くの星が、赤みがかった薄暗い星でした。なぜなら、主系列上には赤い矮星が多いからです。赤みがかった薄暗いの星が散布図にの主系列上に集中しているのは、それらが物理的に似ているわけではなく、概念的に近いことを示していました。

 ところで、2つの変数を使った散布図でクラスターを見つけて相関が有るか無いかを分析することができるのに、なぜ3つの変数を使った散布図は存在しないのでしょうか。実は存在しています。フレンドリーとワイナーが3つの変数を使った散布図を知っていたのですが、それは2型糖尿病についての理解を深めるのに役立ちました。それは、1979年に2人の科学者、ジェラルド・M.リーベンとR. G.ミラーが、2型糖尿病患者の膵臓のインスリン分泌量と血糖値で散布図を作りました。そして、3つ目の変数として、インスリンの効き具合を使いました。その3次元の散布図で浮かび上がったのは、だらりとした2つの翼ようなものが付いた卵のような立体でした。これにより、リーベンとミラーは、患者を3つのグループに分類し(顕性糖尿病のグループ、潜在性糖尿病のグループ、糖尿病でないグループ)に分けて、患者があるグループから他のグループに移る際の状態を理解することができました。以前は、顕性糖尿病になる前に潜在性糖尿病を患うと考えられていましたが、しかし、散布図で明らかになったのですが、そうではありませんでした。現在では、顕性糖尿病と潜在性糖尿病は2つの全く別な疾患であることが分かっています。

 しかし、3つの変数による散布図の作成が可能であれば、4つとか5つとか6つとか100個の変数を使った散布図の作成は可能なのかという疑問が湧いてきます。今日では、多くの変数を用いた散布図が作られていて活用されています。そうしたグラフは、目がくらむほど複雑ですが、基本的な構造は、19世紀に考案されて頃の散布図と全く同じです。ある多次元の散布図があるのですが、その散布図では、出会い系Webサイトの質問の1つ1つが変数として扱われていて、まさに超多次元でした。2012年に応用数学が専門の大学院生クリス・マッキンリーは、OkCupid(オーケー・キューピッド)という出会い系サイトのデータを分析し、男女ともに質問に対する回答が近似しているグループがいくつもあることを見つけ出しました。そして、各グループごとにカップルになりやすい異性のグループが存在しているかを調べました。軸とした変数(質問)は、ストリーミングサービスで映画をどれくらい見るかというものや、ソーシャルメディアにどれくらい時間を費やすかというものなどでした。また、超多次元の散布図はDNAの解析でも使われていて、さまざまな変数(多次元)で分析することにより、全く遠い存在であると思われていた2種族が遺伝的に共通して受け継いでいるのもが多いことが判明したこともありました。

 そうした多次元の散布図を作って分析したとしても、その散布図は視覚的に表現することは不可能で、目で見ることは出来ません。そうした散布図は、超高性能のコンピューターの中で計算されていて、その中でのみデータが集積していたり分散している状況が把握されています。データのビジュアル化は、さまざまな事象を扱いやすくして理解しやすくする手段でした。現在では、データの分析で盛んに研究されているのは、膨大なデータや事象の中から人間が認識できないような相関をコンピューターが自動で見つけるというようなことです。膨大なデータの海の中から、データの集積している傾向が1つ見つけることが出来れば、それは人間の目には見えないものでグラフ化して視覚的に見せることは不可能ですが、科学的に大きな発見につながることが多いのです。そうしたコンピューターによる分析の基となっているのは、グラフが発明された際に生み出されたものごとを数値化して分析するという視点です。グラフの発明は望遠鏡の発明ほど重要であると言われることは無いのですが、実は同じくらい画期的な出来事なのです。グラフの発明は人類の見識や視野を広げ、大きく科学の発展に貢献しました。♦

以上