Engineering🇺🇸 English

런칭에서 망하는 진짜 이유: 합의·책임·운영

조직/팀을 위한 AI 프로젝트 프로덕션 가이드

런칭에서 망하는 진짜 이유: 합의·책임·운영

런칭에서 망하는 진짜 이유: 합의·책임·운영

조직/팀을 위한 AI 프로젝트 프로덕션 가이드

기술이 아니라 조직이 문제다

코드는 완벽합니다. 모델 성능도 좋습니다. 그런데 런칭이 자꾸 지연되거나, 런칭 후 3개월 내에 조용히 내려갑니다.

왜? 합의가 없고, 책임이 불명확하고, 운영 체계가 없어서입니다.

1. 승인과 합의

문제: "누가 오케이 했어?"

AI 프로젝트는 결과가 확률적입니다. 100% 정확도란 없습니다. 그런데 "얼마나 틀려도 되는지" 합의 없이 런칭하면, 첫 번째 실패에서 프로젝트가 멈춥니다.

증상:

  • 런칭 직전에 갑자기 브레이크
  • "이거 법무 검토 받았어?" "보안팀은?"
  • 한 번 실패하자 "AI는 아직 이르다" 결론

처방:

  • 런칭 전 이해관계자 명단 작성 (법무, 보안, CS, 사업)
  • 허용 실패율 합의 (예: 5% 오답 허용)
  • 단계적 롤아웃 합의 (내부 → 베타 → 전체)

2. 책임 소재 (RACI)

문제: "이거 누가 고쳐야 해?"

모델이 틀린 답을 했습니다. 누가 책임지나요? ML 팀? 백엔드 팀? 프로덕트 팀? 책임이 불명확하면 모두가 "내 일 아님"이 됩니다.

증상:

  • 장애 발생 시 핑퐁
  • "모델 문제인데요" "아니 데이터 문제예요" "그건 프롬프트 문제..."
  • 아무도 안 고치고 방치

처방:

역할담당책임
**모델/프롬프트**ML 팀정확도, 품질
**인프라/배포**플랫폼 팀가용성, 레이턴시
**데이터**데이터 팀검색 품질, 인덱싱
**사용자 경험**프로덕트 팀에러 메시지, 폴백
**정책/가드레일**법무/컴플라이언스민감 주제, 규제

RACI 매트릭스로 정리: Responsible(실행), Accountable(책임), Consulted(자문), Informed(통보)

3. 보안과 권한

문제: "이 데이터 써도 돼?"

AI는 데이터를 먹습니다. 그 데이터가 개인정보라면? 내부 기밀이라면? 권한 체계 없이 런칭하면 사고 터집니다.

증상:

  • "고객 데이터가 로그에 남아있어요"
  • "이 응답에 내부 문서 내용이 그대로..."
  • 감사에서 걸림

처방:

  • 데이터 분류 (공개 / 내부 / 기밀 / 개인정보)
  • 접근 권한 레벨별 응답 제한
  • PII 마스킹 / 로그 정제
  • 정기 감사 체크포인트

4. 모니터링과 SLO

문제: "언제부터 망가져 있었어?"

대시보드 없이 운영하면, 문제가 생겨도 모릅니다. 사용자 컴플레인이 쌓여야 알게 됩니다.

증상:

  • "지난주부터 이상했대요" (일주일 뒤에 발견)
  • 비용이 3배 나왔는데 아무도 몰랐음
  • 조용한 품질 저하 (성능 서서히 떨어짐)

처방:

SLI (측정 지표):

  • 성공률 (2xx 응답 비율)
  • 레이턴시 (p50, p95, p99)
  • 에러율 (4xx, 5xx)
  • 비용 (일일/월간)

SLO (목표):

  • 성공률 99.5% 이상
  • p95 레이턴시 3초 이하
  • 월간 비용 $X 이하

알람:

  • 성공률 99% 이하 시 즉시 알림
  • 레이턴시 5초 초과 시 알림
  • 일일 비용 한도 초과 시 알림

5. 롤백과 장애 대응

문제: "빨리 원래대로 돌려!"

새 버전 배포 후 문제가 생겼습니다. 롤백 절차가 없으면 패닉입니다.

증상:

  • "어떻게 이전 버전으로 돌리지?"
  • 롤백하는 데 2시간
  • 롤백했는데 데이터가 꼬임

처방:

  • 원클릭 롤백 준비 (이전 버전 항상 보관)
  • 롤백 테스트 정기 실행
  • 장애 대응 런북 작성

장애 등급:

등급정의대응 시간알림 대상
P0전체 서비스 중단15분 이내전체 팀
P1핵심 기능 장애1시간 이내담당 팀
P2부분 기능 이상4시간 이내담당자
P3경미한 이슈다음 스프린트백로그

6. 피드백 루프와 개선

문제: "사용자들이 뭐라고 하는지 모르겠어"

런칭 후 피드백을 수집하지 않으면, 개선할 수 없습니다.

증상:

  • "잘 쓰고 있는 거 맞아?"
  • 실패 케이스가 뭔지 모름
  • 같은 문제가 반복

처방:

  • 실패 케이스 자동 수집 (low confidence, 사용자 부정 피드백)
  • 주간 실패 분석 리뷰
  • 개선 → 배포 → 측정 사이클

조직용 체크리스트

항목확인
이해관계자 승인을 받았는가?
허용 실패율이 합의되었는가?
RACI가 정의되었는가?
장애 시 담당자가 명확한가?
데이터 권한/분류가 정리되었는가?
PII 처리 정책이 있는가?
SLO가 정의되었는가?
모니터링 대시보드가 있는가?
롤백 절차가 있는가?
장애 대응 런북이 있는가?
피드백 수집 체계가 있는가?

시리즈

더 많은 콘텐츠를 받아보세요

SNS에서 새로운 글과 튜토리얼 소식을 가장 먼저 받아보세요

이메일로 받아보기

관련 포스트