2024年9月1日日曜日

データ可視化も使いよう — 変化を促すのに役立てられるよ

このエントリーをはてなブックマークに追加
Pocket

ナイチンゲールがクリミア戦争の死因の分析の説明に鶏冠図(polar-area diagram)を用いた*1時代から有用性が知られるデータ可視化が、企業の意思決定に目立った貢献がなく、もう流行っていないように見えるのは何故かという考察が話題を集めていた。

これはデータ可視化の問題と言うよりは、BIツールのダッシュボードの問題であろう。BIツール導入事例紹介を見ると、以前から集計していたはず*2の数字を綺麗に表示しているものが多く、無意味と言うことは無いが、目新しさはない*3。手間隙の削減はともかく、見せている数値は同じだ。当然、企業活動の変化は考えづらい。

データ可視化が意思決定に役立たないと言うことはなくて、問題は使い方。説得の意図なくありきたりのデータをありきたりの方法で図示しているだけでは、変化をもたらすことは難しい。

1. 素朴な手法でも有用なことはある

数字の羅列のぱっと見でデータを把握することは難しい。データを短時間で把握できるようにするのが可視化の御利益だ。分析対象ではなく、データ自体の異常に気づくこともある。この有用性は昔から変わらない。

ある観点からデータを整理しているだけなので、どのようにデータ可視化するかが重要だ。典型的な観点であれば、そう難しい話ではない。推移を見たければ折れ線グラフ、大小比較をしたければ棒グラフ、相関を見たければ散布図、分布を見たければヒストグラム、群間比較をしたければ箱ヒゲ図がある。

しかし、微妙な差異や非線形の相関など、教科書的な手法をそのまま使うだけでは、分かりづらい特徴もある。表示は二次元、無理して三次元なので、高次データは工夫なくして図示できない。何よりメッセージ性が低い。

2. 分析と言うよりは説得のための手法

データ可視化の限界は低いように感じるが、それは分析手法として考えるからだ。しっかりした観点を持った人が手法を選んで工夫をすれば、プレゼンテーションに強い説得力を与える道具になる。ナイチンゲールの鶏冠図は、政府に兵士の死因をぱっと見で把握させるためのものだ。ナイチンゲールは図を描く前に把握できていた。ミナードの「1812年ロシア戦役」*4ような、洞察がある人が作図した主張が明確なインフォグラフィックは、その洞察をシェアしてくれる。

3. 計量分析×データ可視化

手の込んだ新しい図を提案せずとも、分析者の観点を図に織り込むことはできる。例えば、高次元のデータの散布図は描けないし、三次元でもぱっと見で把握できるような代物にはならないが、他の変数の影響を統制た従属変数と着目している説明変数の二次元の散布図は描ける。それに予測線と予測区間を書き加えれば、分析者がデータから見出したことは明確に伝わる。サブサンプル間の統計的に有意な差異の図示になるガブリエル比較区間は、t値にアスタリスクをつけた表より分かりやすい。離散選択モデルなど非線形モデルの推定結果の変数の値に対する限界効果の図示は直感的で、平均限界効果を並べるよりも理解してもらいやすい。最近は推定結果の信用区間を図示するようになってきたが、これも効果量と誤差の関係をぱっと見で把握してもらう目的がある。

4. 凶器のデータ可視化

有用な分、ミスリーディングになる事もある。メディアで見かける下部を省略した棒グラフや、歪な形状の円グラフなど、読者や視聴者を騙しにかかっているデータ可視化は困ったものだ。最近は株式市場の騰落を示すのにTreemapが使われているが、実際のところ時価総額と騰落率の数字をデカデカと表示してくれたほうが分かりやすい。かっこいい図は悪くはないが、伝えたいメッセージを表しているかが大事である*5。これらをバカにしてきた人も、作図方法を把握せずにヴァオリンプロットを使ったり、信用区間のプロットで操作群と対照群の差異を確認してしまっているかも知れない。

5. まとめ

データ可視化が計量分析を代替するようなことはないが、そこそこ役立つ道具ではあるし、計量分析をプレゼンテーション面から補完することもできる。データ可視化も使いよう。BIツールの場合は計量分析と組み合わせることが難しそうではあるので、そもそも強いメッセージ性を出せないと思うが、毎日チェックするようなものではなく、ad-hocな分析でベタなグラフではイマイチなときは工夫してみよう。矢印で注釈を入れるだけでも、メッセージ性は高まる。もちろん、不必要に頑張る必要は無い。しかし、色覚障害者に配慮せずに緑を使ってしまっていたり、三次元棒グラフを描いたりするのはナシの方向で。

*1ナイチンゲールと統計

*2過去にデータベースに入っているデータを集計して出力する機能が無い販売管理システムがあり、CSVで出力はできて、事務の人がExcelでがんばって集計されていたのを耳にしたことがある。そういうところで確認できる集計データが増えているかも知れない。

*3従業員個人が保持しているデータをアップロードさせて集計するような機能もあるが、企業資源計画(ERP)や顧客関係管理(CRM)のシステムのデータを集計して表示するのが主たる使途のようだ。SAP Dashboard Builderの開発案件、そういえば一時、ぼちぼちあったような。

*4ナポレオンがモスクワ遠征への行軍でどのように兵力を失っていったかを、示したインフォーグラフで、兵力の減少と地理情報が同時に分かるようになっている。

*5テレビ局としてはパニック感を伝えたいのであろうが、気づかないいことにする。

0 コメント:

コメントを投稿