自社のデータ、AIに使える状態ですか?
AIの性能はモデルではなくデータが決めます。データの状態を診断する5つの質問と、不完全なデータから始める現実的な方法をお伝えします。
AIの性能はモデルが決めるのではありません。 データが決めるのです。
「AI導入します」と宣言した翌日
問題も定義し、ツールも選び、経営陣の承認も得ました。チームは意欲的にプロジェクトに着手します。そしてデータを開いてみます。
その瞬間、空気が変わります。
顧客データはCRM、スプレッドシート、営業担当者のメモ帳に分散しています。同じ顧客が3つの名前で存在しています。売上データの日付形式がシートごとに異なります。重要なフィールドの30%が空欄です。
これは珍しい状況ではありません。ほとんどの企業が置かれている現実です。
データの問題は技術の問題ではない
多くの組織がデータの問題をIT部門に回します。「データを整理してください。」しかし、データが散らかっている理由のほとんどは技術ではなく業務のやり方にあります。
入力ルールがありません。 顧客名を「(株)モノ」と書くか「モノ」と書くか「MONO」と書くか、誰も決めていません。10年間それぞれのやり方で入力し続けた結果が、今のデータです。
システムが分断されています。 営業はCRM、経理はERP、マーケティングはGAと広告プラットフォーム。各システムが独立して運用され、データが孤島になっています。同じ顧客の購買履歴とマーケティング反応データがつながっていません。
データを資産として見たことがありません。 データはレポートを作るための素材であって、それ自体を管理すべき資産ではありませんでした。だから品質管理プロセスが存在しません。
AIはこの現実の上に載せなければなりません。
完璧なデータを待てば永遠に始められない
ここでよくある落とし穴があります。「まずデータを完璧に整備して、それからAIを始めよう。」論理的には正しく見えます。しかし現実では、このアプローチはほぼ必ず失敗します。
理由はシンプルです。どのデータをどのレベルまで整備すべきか、AIを使ってみないとわからないからです。
すべてのデータを完璧にするには何年もかかります。しかし「顧客問い合わせの自動分類」に必要なデータは、直近6か月の問い合わせ履歴とカテゴリラベルだけかもしれません。小さな実験がデータ整備の範囲と優先順位を教えてくれます。
原則はこうです:全部を直すのではなく、最初の実験に必要なデータだけ直す。
データの状態を診断する5つの質問
今すぐ確認できるチェックリストです。
① 解こうとしている問題に関連するデータは存在するか?
最も根本的な質問です。驚くことに、「顧客離脱を予測したい」と言いながら、離脱顧客を定義したり記録したりしたことがないケースは少なくありません。データが存在しなければ、最初のプロジェクトはAIではなくデータ収集です。それも十分に価値のあるスタートです。
② そのデータにアクセスできるか?
データは存在するが、法的に使えない(個人情報の問題)、技術的に取り出せない(レガシーシステム)、組織的に許可されない(他部署の所有)という場合があります。アクセス可能性をプロジェクト初期に確認しないと、かなり進んでから壁にぶつかります。
③ データの量は十分か?
AIモデルによって必要なデータ量は異なります。生成AIを活用した分類や要約は数十~数百件でも始められます。一方、予測モデルは数千~数万件が必要になることがあります。データが不足しているなら、ルールベースのシステムや人の判断から始めて、データが蓄積されてからAIに移行する段階的アプローチが現実的です。
④ データの質はどうか?
欠損値が多いか? 重複があるか? フォーマットは一貫しているか? 入力ミスは多いか? データの質を100%完璧にする必要はありません。しかし「どの程度散らかっているか」を知っていることと知らないことは、まったく違います。現状を把握すること自体が第一歩です。
⑤ データは継続的に蓄積されているか?
AIは一度作って終わりではありません。継続的に学習し改善するには、データが入り続ける必要があります。「過去のデータはあるが、今は収集していない」なら、まず収集パイプラインを構築することがAIに先行すべきです。
データ整備、どこから始めるか
5つの質問に答えたら、次の順序で動いてください。
第一に、最小の範囲から。 全社データ統合ではなく、最初のAI実験に必要なデータセット1つを決めます。「直近3か月の顧客問い合わせ1,000件」のように具体的に。
第二に、整理基準を決めます。 完璧にではなく、「このフィールドが埋まっていて、このフォーマットに従っていれば使える」という最低基準を立てます。
第三に、整理と実験を同時に進めます。 データ整理が終わるのを待たず、整理できた部分からAIに入れてみてください。結果がおかしければ、データのどの問題が原因かが見えてきます。実験がデータ整備の方向を定めてくれます。
第四に、入力ルールを今から作ります。 過去のデータは修正しつつ、未来のデータは最初からきれいに蓄積されるよう、入力基準、検証ロジック、担当者を定めます。これは技術の問題ではなく習慣の問題であり、組織文化の問題です。
データはAIの燃料ではなく土壌である
「データはAIの燃料」という比喩をよく耳にします。しかし燃料よりも土壌に近いものです。
燃料は燃やせばなくなります。しかし土壌は、丁寧に手入れすれば作物を育て続けます。良いデータ環境は一つのAIプロジェクトだけを支えるのではなく、今後登場するすべてのAIプロジェクトの基盤になります。
今データが散らかっていても大丈夫です。大切なのは現状を正確に知ること、そして小さな範囲から改善を始めることです。
完璧な土壌を待たないでください。一坪の畑から耕し始めてください。