野村総合研究所データサイエンスラボの偉い人が「令和の「データサイエンティスト」に必要な能力」と言う記事を書いて、その中の「統計学や機械学習における基礎的な知識・スキルを整理してマッピングした…図」が、統計学や機械学習に詳しい人々の困惑を招いている。
データサイエンスの文脈でよく言及されているらしき知識*1を古典的~現代的と基礎的~実践的の二軸で分類しようとしているのだが、概念の整理が不十分で、情報の整理整頓ができていない。課題と解決方法、手法と手法の総称、複数の手法を実装したライブラリ/実装が記入されており、その一部が一貫した意味を持たない矢印でつながれている*2。基礎知識として記入された用語の選び方に規準は見い出せない。中心極限定理があるのに大数の法則はない。
データサイエンスラボと言っているわけだし、もう少し知識を体系的に把握する努力をして欲しい。欠損値の入り方を含めたデータ生成プロセスやサンプルサイズに応じて解決すべき課題と手法が定まってくるので、二軸のポジショニングマップにまとめようと言うのがそもそも無理な気もするが。
*1スキルと言っているし、大手SIerである野村総合研究所のまわりの案件で技術者募集時によく言及される用語を並べてみたのではないかとも思う。
*2矢印でつながれた用語と用語の関係を幾つか考えてみよう。「(37)過学習」と「(38)クロスバリデーション」は、課題と解決方法の関係だ。「(29)クラスタリング」手法と「(30)K-means」法、「(35」自然言語処理」と「(36)GPT-3」は包含関係のある用語だ。「(33)時系列分析」と「(34)Prophet」、「(27)決定木」と「(28)LightGBM」は、手法とその実装/ライブラリの関係だ。
矢印の意味が一貫していないどころか、用語が不適切だと思われるもの、意味が推察できないものがある。「(22)アルゴリズム」→「(40)ブラックボックス問題」は、アルゴリズムではなくてライブラリと書く方が適切であろう。「(16)ベイズ統計」と「(18)因果推論」は、統計的因果推論の多くは非ベイズ手法なので誤りに思える。
基礎的~実践的の評価も理解が難しい。「(23)回帰分析」よりも「(25)回帰分析におけるP値」が基礎的になっているのだが、回帰分析の係数のt値とP値を導出するには、回帰分析の知識が必要になる。P値自体は回帰分析よりも基礎的かも知れないが、「(14)仮説検定」が別にあるので、「回帰分析における」は限定用法のはずだ。
0 コメント:
コメントを投稿