データサイエンティストのための第一原理思考 (First Principles Thinking for Data Scientists)

以下はhttps://towardsdatascience.com/first-principles-thinking-for-data-scientists/の翻訳です。

優秀なデータサイエンティストを偉大なデータサイエンティストに変えるマインドセット
第一原理思考とは何か？
データサイエンティストが今、これを必要とする理由
第一原理がすべてを変える場所
コンパスと地図
免責事項

優秀なデータサイエンティストを偉大なデータサイエンティストに変えるマインドセット

1899年、ウィルバー・ライトはスミソニアン博物館に手紙を書き、人類の飛行に関する資料を全て要求しました。彼と弟のオーヴィルは、当時の主要な航空研究者によるあらゆる論文、理論、計算を徹底的に読み込みました。彼らはオットー・リリエンタールのグライダー設計、オクターヴ・シャヌートの工学原理、サミュエル・ラングレーの揚力と抗力に関する表を研究しました。

そして、彼らは根本的なことをしました。その全てに疑問を呈したのです。

自分たちのグライダーが公表されているデータ通りに性能を発揮しなかったとき、ライト兄弟は自分たちのミスだと決めつけませんでした。彼らは独自の風洞を建設し、200以上の翼の設計を自分たち自身でテストしました。そこで彼らが見つけた事実は、彼らを驚かせました。業界全体が頼りにしていたリリエンタールの揚力係数が、少しどころか、完全に、徹底的に間違っていたのです。

ライト兄弟がこれに疑問を呈したのは傲慢さからではありません。彼らは第一原理思考を用いていたのです。そして、それこそが、彼らが1903年に初飛行を成功させたことと、より多くの資金、名声、リソースを持っていたラングレーが、わずか9日前に自身の航空機をポトマック川に墜落させたこととの違いを生みました。

今日のデータサイエンティストは、同様の課題に直面しています。私たちは、プレイブック、フレームワーク、ベストプラクティス（A/Bテストガイド、メトリクス分類、モデル選択チェックリストなど）に囲まれています。これらのツールは非常に貴重です。しかし、ラングレーの表のように、盲目的に適用すると私たちを誤った方向に導く可能性があります。

私が知る最も戦略的なデータサイエンティストは、フレームワークと第一原理のどちらかを選択するわけではありません。彼らは両方を使います。フレームワークはスピードを与えます。第一原理は明瞭さを提供します。両者が一緒になることで、タスクの実行者と戦略的なパートナーを区別するのです。

第一原理思考とは何か？

第一原理思考とは、問題をその根本的な真実に分解し、ゼロから再構築することです。アリストテレスはこれを「物事が知られる最初の根拠」を見つけることと表現しました。

実践的には、次のように問いかけます。

絶対に真実だとわかっていることは何ですか？
私たちが前提としていることは何ですか？
それらの前提のうち、挑戦できるものはどれですか？

これは既存の知識を否定することを意味しません。ライト兄弟は利用可能なすべての研究を学びましたが、それを絶対的なものとして扱いませんでした。

データサイエンティストにとっても同じことが言えます。フレームワークは地図であり、慣れた地形を通る実績のある近道です。第一原理はコンパスであり、地図が少しぼやけたときに私たちを方向づけ続けます。

データサイエンティストが今、これを必要とする理由

データサイエンスにおいてフレームワークが至る所にあるのには、もっともな理由があります。それらは、私たちが実験を実行し、メトリクスを定義し、モデルを迅速に構築するのに役立ちます。しかし、それらは誤った自信を生み出すこともあります。

私は、間違った質問に答えた完璧なA/Bテストを実行したチームを見てきました。標準的なメトリクスが、印象的に見えるけれども意味のあるものを何も測定していないダッシュボードを生み出すのを見てきました。これらの失敗は、フレームワークに欠陥があったために起こったのではありません。誰も立ち止まって第一原理の質問をしなかったために起こったのです。

私たちは実際にどのような意思決定に情報を提供しようとしているのか？
私たちは本当にどのような価値を測定しようとしているのか？
そもそもこのレベルの複雑さが必要なのか？

AIがデータサイエンスの実行側面を自動化しているため、このことはこれまで以上に重要になります。生成AIは、データを照会し、視覚化を生成し、フレームワークを見事に適用できます。しかし、あなたが正しい質問をしているかどうかを判断することはできません。

第一原理思考は、あなたの差別化要因です。それは、フレームワークを現実に根付かせ続けるスキルであり、戦略的なデータサイエンティストの最も防御可能な能力になりつつあります。

第一原理がすべてを変える場所

ここでは、データサイエンスのプレイブックが十分に確立されているにもかかわらず、それを盲目的に厳守すると不十分な結果を生むであろう3つの例を紹介します。

1. 教科書を超えたA/Bテスト

フレームワークは、仮説を定義し、ユーザーをランダム化し、主要なメトリクスを測定し、有意性を確認するように言います。これは、正しい質問をしている場合は完全に機能します。

しかし、第一原理の質問はもっと前に来ます。私たちはどのような意思決定に情報を提供しようとしているのか？どのような不確実性を解消しようとしているのか？

私はかつて、新しいレコメンデーションアルゴリズムをテストしているチームに助言しました。フレームワーク思考では、「ユーザーをランダム化し、クリックスルー率を測定し、2週間実行する。勝者を出荷せよ」となります。

しかし、第一原理で立ち止まったことで、異なることが明らかになりました。私たちはクリック数について不確実だったわけではありません。初期のシグナルはクリック数が増加することを示唆していました。私たちが不確実だったのは、それらのクリックが真のエンゲージメントにつながるのか、それとも単なるノイズになるのかということでした。

そこで、私たちは測定するものを変更しました。クリック数ではなく、再訪問、セッションの深さ、長期的なエンゲージメントに焦点を当てました。結果はどうだったでしょうか？新しいアルゴリズムはクリック数を12%増加させましたが、再訪問を8%減少させました。標準的なフレームワークなら「出荷せよ」と言ったでしょう。第一原理のアプローチは「まだだ」と言いました。

私たちは、新しいアルゴリズムがクリックベイト（誘い込み）すぎると判断しました。フレームワークは私たちに方法論を与えましたが、第一原理は正しい質問を与えてくれました。

2. 私たちのメトリクスは何を本当に測定しているのか？

ノーススター、OKR、HEARTなどのメトリクスフレームワークは、構造を与えるため強力です。しかし、それらは重要なものを測定したという錯覚を生み出すこともあります。

第一原理思考は問いかけます。私たちが気にかけている根本的な行動や価値は何ですか？このメトリクスはそれを実際に捉えていますか？

エンゲージメントを考えてみましょう。多くのフレームワークは、DAU（デイリーアクティブユーザー）、セッション時間、またはセッションあたりのアクションを提案します。これらは合理的な代替指標ですが、正しいのでしょうか？

瞑想アプリの場合、セッションが長い方が「優れている」ように見えるかもしれませんが、根本的な目標は持続可能な実践です。それは時間とともに短いセッションを意味するかもしれません。

分析ツールの場合、ユーザーあたりのクエリが多いことは、より深い使用を示唆するかもしれませんが、ユーザーが答えを見つけるのに苦労していることを意味する可能性もあります。本当の価値は、より速く、より的を絞ったインサイトです。

私は以前、新しい仕事に就き、主要な成功メトリクスとして週次アクティブユーザーを誇らしげに報告するダッシュボードを引き継ぎました。しかし、掘り下げてみると、ほとんどの「アクティブ」ユーザーはログインし、周りを見て、単一のタスクも完了せずに立ち去っているだけだと気づきました。第一原理の観点から、私は本当の価値は完了したタスクであると判断しました。そして、メトリクスを切り替えると、（予想通り）新しい定義では使用量がはるかに低いことが判明しましたが、新しい枠組みは、意味のある採用を促進するために何に焦点を当てるべきかという明瞭さを私たちに提供しました。

フレームワークはメトリクスのメニューを提供します。第一原理思考は、それらのいずれかがあなたの製品の価値を実際に反映しているかどうかを教えてくれます。標準的なメトリクスが完璧な場合もありますが、危険なほど誤解を招く場合もあります。

3. 第一原理がローンチを救った事例

私が経験した最も明確な例の1つは、キャリアの早い段階で、営業がリードの優先順位付けに役立てるための「ユーザー品質スコア」の構築を私のチームが担当したときに起こりました。

フレームワークのアプローチは明白でした。教師あり学習、コンバージョン確率の予測、スコアによるランク付けです。データ、特徴量、方法論は揃っていました。

作業開始から2週間後、わずかな性能スコアの向上に苦戦していたとき、誰かが尋ねました。営業はこのスコアで実際にどのような意思決定をするのだろうか？

私たちは営業に尋ねました。答えは「正確な確率を教えてほしい」ではありませんでした。それは、「このリードに時間をかけてパーソナライズされた電話をかけるべきか、それとも定型化されたクイックメールを送るだけでよいか」ということでした。

これによりすべてが変わりました。私たちは、全確率範囲にわたる複雑なモデルを必要としていませんでした。1つの閾値を中心に最適化された、シンプルで解釈可能な分類器が必要だったのです。

枠組みを再構築することで、アンサンブルモデルからロジスティック回帰に移行し、特徴量の半分を削減し、3週間早く出荷し、営業が実際に使用するものを届けました。

第一原理に戻ることで、私たちは真の問題を明確にし、その後、標準的なフレームワークに戻ってソリューションを構築したのです。

コンパスと地図

ここでの教訓は、戦略的なデータサイエンティストはフレームワークと第一原理のどちらかを選択しないということです。彼らはそれらを組み合わせます。

フレームワークは地図であり、迅速に行動し、蓄積された知識を活用することを可能にします。

第一原理はコンパスであり、地図があなたの道筋を明確に示していないときに、あなたを正しい方向**に保ちます。

ライト兄弟は、当時の研究を拒否したわけではありません。彼らはそれを基に構築しましたが、いつ基本に戻るべきかも知っていました。

それこそが、戦術的なデータサイエンティストと戦略的なデータサイエンティストを分けるマインドセットの転換です。それは、より多くの方法を知っていることでも、より一生懸命働くことでもありません。いつ地図に従い、いつコンパスを確認するかを知っていることなのです。

AIの導きにより、フレームワークの適用はますます容易になるでしょう。しかし、コンパス—それはあなた自身で築くものです。そして、それは来るべき数年間、あなたが適切で、戦略的で、不可欠な存在であり続けるためのものとなるでしょう。

これは、私の新刊『The Strategic Data Scientist: Level Up and Thrive in the Age of AI』（戦略的なデータサイエンティスト：AI時代にレベルアップし、成功する方法）で探求する核心テーマの1つです（Amazonアフィリエイトリンク）。これは、基礎的な思考と実績のあるフレームワークを組み合わせて、インパクトを生み出し、ロードマップに影響を与え、「単なる技術的な実行者」ではなく「戦略的なパートナー」としての地位を確立することについての本です。

AIの能力が向上するにつれてあなたの仕事がどのように変わるのか疑問に思っている方、あるいは単にデータサイエンティストとしてより大きなインパクトを与え、昇進に向けて進歩したいと考えている方は、ぜひAmazonで本書をチェックしてください！

免責事項

記事は、一般的な情報提供のみを目的としてのみ作成したものであり、投資家に対する有価証券の売買の推奨や勧誘を目的としたものではありません。また、記事は信頼できると判断した資料およびデータ等により作成しておりますが、その正確性および完全性について保証するものではありません。また、将来の投資成果や市場環境も保証されません。最終的な投資決定は、投資家ご自身の判断でなされますようお願いします。