우리 회사 데이터, AI에 쓸 수 있는 상태인가
AI의 성능은 모델이 아니라 데이터가 결정합니다. 데이터 상태를 진단하는 다섯 가지 질문과, 완벽하지 않은 데이터에서 시작하는 현실적인 방법을 이야기합니다.
AI의 성능은 모델이 결정하지 않습니다. 데이터가 결정합니다.
AI를 도입하겠다고 선언한 그 다음 날
문제도 정의했고, 도구도 골랐고, 경영진 승인도 받았습니다. 팀이 의욕적으로 프로젝트에 착수합니다. 그리고 데이터를 열어봅니다.
그 순간 분위기가 바뀝니다.
고객 데이터는 CRM, 스프레드시트, 영업 담당자의 메모장에 나뉘어 있습니다. 같은 고객이 세 가지 이름으로 존재합니다. 매출 데이터의 날짜 형식이 시트마다 다릅니다. 핵심 필드의 30%가 비어 있습니다.
이건 특이한 상황이 아닙니다. 대부분의 기업이 처한 현실입니다.
데이터 문제는 기술 문제가 아니다
많은 조직이 데이터 문제를 IT 부서에 넘깁니다. "데이터 정리 좀 해주세요." 하지만 데이터가 엉망인 이유는 대부분 기술이 아니라 업무 방식에 있습니다.
입력 규칙이 없습니다. 고객명을 "(주)모노"로 쓸지 "모노"로 쓸지 "MONO"로 쓸지, 아무도 정하지 않았습니다. 10년 동안 각자의 방식으로 입력한 결과가 지금의 데이터입니다.
시스템이 분리되어 있습니다. 영업은 CRM, 재무는 ERP, 마케팅은 GA와 광고 플랫폼. 각 시스템이 독립적으로 운영되면서 데이터가 섬이 되었습니다. 같은 고객의 구매 이력과 마케팅 반응 데이터가 연결되지 않습니다.
데이터를 자산으로 본 적이 없습니다. 데이터는 보고서를 만들기 위한 재료였지, 그 자체로 관리해야 할 자산이 아니었습니다. 그래서 품질 관리 프로세스가 존재하지 않습니다.
AI는 이 현실 위에 올라가야 합니다.
완벽한 데이터를 기다리면 영원히 시작하지 못한다
여기서 흔히 빠지는 함정이 있습니다. "데이터를 먼저 완벽하게 정비하고, 그 다음에 AI를 시작하자." 논리적으로는 맞아 보입니다. 하지만 현실에서 이 접근은 거의 항상 실패합니다.
이유는 간단합니다. 어떤 데이터를 어떤 수준으로 정비해야 하는지, AI를 안 써봐서 모르기 때문입니다.
모든 데이터를 완벽하게 만들려면 몇 년이 걸립니다. 하지만 "고객 문의 분류 자동화"에 필요한 데이터는 최근 6개월 문의 내역과 카테고리 라벨뿐일 수 있습니다. 작은 실험이 데이터 정비의 범위와 우선순위를 알려줍니다.
원칙은 이렇습니다: 전체를 고치지 말고, 첫 번째 실험에 필요한 데이터만 고쳐라.
데이터 상태를 진단하는 다섯 가지 질문
지금 바로 점검해볼 수 있는 체크리스트입니다.
① 우리가 풀려는 문제와 관련된 데이터가 존재하는가?
가장 근본적인 질문입니다. 놀랍게도, "고객 이탈을 예측하고 싶다"면서 이탈 고객을 정의하거나 기록한 적이 없는 경우가 많습니다. 데이터가 존재하지 않으면, 첫 번째 프로젝트는 AI가 아니라 데이터 수집입니다. 이것도 충분히 가치 있는 시작입니다.
② 그 데이터에 접근할 수 있는가?
데이터가 존재하지만, 법적으로 쓸 수 없는 경우(개인정보 이슈), 기술적으로 꺼낼 수 없는 경우(레거시 시스템), 조직적으로 허용되지 않는 경우(타 부서 소유)가 있습니다. 접근 가능성을 프로젝트 초기에 확인하지 않으면, 한참 진행한 뒤에 벽에 부딪힙니다.
③ 데이터의 양은 충분한가?
AI 모델에 따라 필요한 데이터 양이 다릅니다. 생성형 AI를 활용한 분류나 요약은 수십~수백 건으로도 시작할 수 있습니다. 반면 예측 모델은 수천~수만 건이 필요할 수 있습니다. 데이터가 부족하다면, 규칙 기반 시스템이나 사람의 판단으로 시작하고, 데이터가 쌓이면서 AI로 전환하는 단계적 접근이 현실적입니다.
④ 데이터의 질은 어떠한가?
결측값이 많은가? 중복이 있는가? 형식이 일관적인가? 입력 오류가 흔한가? 데이터 질을 100% 완벽하게 만들 필요는 없습니다. 하지만 "어느 정도 지저분한가"를 아는 것과 모르는 것은 완전히 다릅니다. 현재 상태를 파악하는 것 자체가 첫 걸음입니다.
⑤ 데이터가 계속 쌓이고 있는가?
AI는 한 번 만들고 끝이 아닙니다. 지속적으로 학습하고 개선되려면, 데이터가 계속 들어와야 합니다. "과거 데이터는 있지만 지금은 수집하고 있지 않다"면, 먼저 수집 파이프라인을 만드는 것이 AI보다 선행되어야 합니다.
데이터 정비, 어디서부터 시작할 것인가
다섯 가지 질문에 답했다면, 다음 순서로 움직이세요.
첫째, 가장 작은 범위부터. 전사 데이터 통합이 아니라, 첫 번째 AI 실험에 필요한 데이터셋 하나를 정합니다. "최근 3개월 고객 문의 1,000건"처럼 구체적으로요.
둘째, 정리 기준을 정합니다. 완벽하게가 아니라, "이 필드가 채워져 있고, 이 형식을 따르면 쓸 수 있다"는 최소 기준을 세웁니다.
셋째, 정리와 실험을 동시에 진행합니다. 데이터 정리가 끝나기를 기다리지 말고, 정리된 부분부터 AI에 넣어보세요. 결과가 이상하면, 그게 데이터의 어떤 문제 때문인지가 보입니다. 실험이 데이터 정비의 방향을 잡아줍니다.
넷째, 입력 규칙을 지금부터 만듭니다. 과거 데이터는 고치되, 미래 데이터는 처음부터 깨끗하게 쌓이도록 입력 기준, 검증 로직, 담당자를 정합니다. 이건 기술이 아니라 습관의 문제이고, 조직 문화의 문제입니다.
데이터는 AI의 연료가 아니라 토양이다
"데이터는 AI의 연료"라는 비유를 자주 듣습니다. 하지만 연료보다는 토양에 가깝습니다.
연료는 태우면 사라집니다. 하지만 토양은 잘 가꾸면 계속해서 작물을 키워냅니다. 좋은 데이터 환경은 하나의 AI 프로젝트만 지원하는 게 아니라, 앞으로 나올 모든 AI 프로젝트의 기반이 됩니다.
지금 데이터가 엉망이라도 괜찮습니다. 중요한 건 현재 상태를 정확히 아는 것, 그리고 작은 범위에서 개선을 시작하는 것입니다.
완벽한 토양을 기다리지 마세요. 한 뼘 밭부터 가꾸세요.