公司的数据,能用于 AI 吗?

AI 的性能不是模型决定的,而是数据决定的。五个诊断问题帮你评估数据就绪度,以及如何从不完美的数据起步。

AXAI 转型数据咨询

AI 的性能不是模型决定的。 是数据决定的。

宣布"要上 AI"的第二天

问题定义好了,工具选好了,管理层也批了。团队干劲十足地启动项目。然后打开了数据。

气氛瞬间变了。

客户数据分散在 CRM、电子表格和销售人员的记事本里。同一个客户以三个不同的名字存在。营收数据的日期格式每张表都不一样。关键字段有 30% 是空的。

这不是什么特殊情况。这是大多数企业面对的现实。

数据问题不是技术问题

很多组织把数据问题甩给 IT 部门。"帮忙整理一下数据。"但数据一团糟的原因,大多不是技术问题,而是工作方式的问题。

没有输入规则。 客户名称写"Mono公司"还是"Mono"还是"MONO"?从来没人规定过。十年来各自按各自的方式输入,结果就是现在的数据。

系统是割裂的。 销售用 CRM,财务用 ERP,市场用 GA 和广告平台。各系统独立运行,数据变成了一座座孤岛。同一个客户的购买记录和营销响应数据无法关联。

从来没把数据当作资产。 数据只是做报表的原材料,不是需要专门管理的资产。所以压根就没有数据质量管理流程。

AI 必须在这个现实之上运行。

等数据完美了再开始,就永远开始不了

这里有一个常见的陷阱:"先把数据彻底整理好,然后再启动 AI 项目。"逻辑上好像没问题,但在实践中几乎总是失败。

原因很简单。哪些数据需要整理到什么程度,不试试 AI 根本不知道。

要把所有数据弄得完美无缺,可能要好几年。但"客户咨询自动分类"所需的数据,可能只是最近半年的咨询记录和分类标签。小实验会告诉你数据整理的范围和优先级。

原则是这样的:不要修复全部,只修复第一个实验需要的数据。

诊断数据状态的五个问题

下面是一份可以立刻使用的检查清单。

① 与我们要解决的问题相关的数据存在吗?

最根本的问题。令人惊讶的是,很多公司说"想预测客户流失",却从来没有定义或记录过什么叫流失。如果数据不存在,第一个项目不是做 AI,而是收集数据。这同样是一个有价值的起点。

② 能拿到那些数据吗?

数据存在,但可能法律上不能用(隐私问题)、技术上取不出来(老旧系统)、组织上不允许(归其他部门管)。如果不在项目初期确认数据的可获取性,进展到一半才发现走不通。

③ 数据量够吗?

不同的 AI 方法需要不同的数据量。用生成式 AI 做分类或摘要,几十到几百条就能起步。而预测模型可能需要几千到几万条。数据不够的话,先用规则系统或人工判断起步,等数据积累起来再过渡到 AI,这种分阶段方式更现实。

④ 数据质量怎么样?

缺失值多吗?有重复吗?格式统一吗?输入错误常见吗?不需要把数据质量做到 100% 完美。但"知道有多乱"和"不知道有多乱"是完全不同的。搞清楚现状本身就是第一步。

⑤ 数据还在持续积累吗?

AI 不是做一次就完了。要持续学习和改进,数据就得源源不断地进来。如果"有历史数据,但现在已经不收集了",那在做 AI 之前,应该先把数据采集管道搭起来。

数据整理,从哪里开始

回答完五个问题后,按以下顺序行动。

第一,从最小范围开始。 不是全公司数据整合,而是确定第一个 AI 实验需要的一个数据集。比如"最近 3 个月的 1,000 条客户咨询",要这么具体。

第二,制定整理标准。 不是"做到完美",而是"这个字段填了、格式对了就能用"——设定最低标准。

第三,整理和实验同步推进。 不要等整理完再开始。整理好一部分就丢给 AI 试试。如果结果不对,就能看出是数据的哪个问题导致的。实验为数据整理指明方向。

第四,从现在开始建立输入规则。 历史数据要修,但未来的数据要从一开始就干净地积累——定好输入标准、验证逻辑和责任人。这不是技术问题,是习惯问题,是组织文化问题。

数据不是 AI 的燃料,而是土壤

经常听到"数据是 AI 的燃料"这个比喻。但数据更像土壤而非燃料。

燃料烧完就没了。但土壤只要好好耕作,就能不断长出庄稼。好的数据环境不只支撑一个 AI 项目——它会成为未来所有 AI 项目的基础。

现在数据一团糟也没关系。重要的是准确了解现状,然后从小范围开始改善。

别等完美的土壤。先耕一小块地。