수십억 비용 85% 절감, 3~5일 평가를 10초로 — AI 자동평가 백엔드/DevOps 리드
한 줄 임팩트
인력 기반 평가를 100% AI로 전환하여, 수십억 단위 비용을 85% 절감하고 평가 리드타임을 3~5일에서 10초로 단축한 백엔드/DevOps 리드입니다.
기술 스택
•
백엔드: Node.js, NestJS, Python(FastAPI), Jest, Prisma ORM
•
데이터/메시징: PostgreSQL, Redis(BullMQ)
•
AI/ML: Azure OpenAI, Azure ML, Azure Speech Service, AWS Rekognition, LangFuse
•
인프라/운영: Azure, AKS(Kubernetes, KEDA), Azure DevOps(CI/CD), Grafana, Sentry, DataDog
경력/승진
•
신사업 부문 백엔드 개발 및 DevOps
•
2024.01.29 ~ 2025.05.31 대리 → 2025.06.01 과장(신사업 본부 최단기·최연소·최초 승진)
대표 임팩트 지표(전/후)
지표 | Before | After | 비고 |
평가 리드타임 | 3~5일 | 10초 | 완전 자동 평가 파이프라인 |
운영 비용 | 수십억/년 | 85% 절감 | 모델·인프라 최적화 |
처리량 | 제한적 | 월 5,000,000+ 제출 | 10만명 사용자 규모 |
토큰 소모 | - | 주간 2,476,194,000+ | 대규모 안정 운영 |
프로젝트 하이라이트
•
Microsoft 공동 AI 서비스 개발
◦
Microsoft AX 혁신 사례 선정
◦
“인간을 100% AI로 전환” 사례 구축(완전 자동화 운영)
•
HummingBird 영어 Writing/Speaking AI 자동평가 백엔드
◦
10만 명 학생의 월간 500만 건 제출 자동 채점
◦
AI Gateway 월간 요청 최소 6,000만건 트래픽에도 안정적으로 운영되었으며 설계/개발/운영 모두 100% 담당
•
I-learn 생성형 AI 서비스 백엔드
•
Azure OpenAI LoadBalancer 아키텍처/백엔드
◦
지역 분산·요청량 제어·콘텐츠 필터/타임아웃 가드·지능형 재시도/폴백
담당 업무(설계 · 운영 포인트)
•
채점 파이프라인: API → 큐(BullMQ) → AI Gateway 전 세계 10개국가 40개 모델 요청 →채점/검증(사용자 1회 요청시 AI 요청 최대 15회로 검증) → 저장/리포트
•
모델 라우팅/가드: 성공률·지연·비용 기반 선택, 프롬프트/파라미터 버저닝, 콘텐츠 필터 대응
•
대규모 트래픽 제어: 지역 라운드로빈, 글로벌 레이트 리밋(Redis), 데드레터·재시도 정책
•
미디어 처리: 오디오/비디오/이미지 후처리 → Azure Blob 효율 적재
•
공용 컴포넌트: MSA 큐 시스템, 공용 쓰로틀러(NestJS, Redis)
•
관측성/운영: Grafana 대시보드·경고 정책, Sentry, LangFuse 트레이스/Prompt Deploy
•
품질 자동화: 사내 통합 자동화 테스트 파이프라인, 핵심 로직 TDD
•
배포/인프라: Azure DevOps CI/CD, AKS 카나리/롤백 기준, 자체 모델 서빙 MLOps→AKS 전환
진행 업무(키워드 중심)
•
I-learn 생성형 AI 백엔드(Node.js, NestJS, Python/FastAPI)
•
HummingBird 자동평가 백엔드 및 웹서비스(NestJS)
•
Azure OpenAI LoadBalancer 설계/구현(리전 분산, 에러 핸들링, 요청 제어)
•
Media 처리 백엔드(오디오·비디오·이미지 후처리 → Azure Blob)
•
MSA 큐 시스템(BullMQ, Redis) 및 공용 쓰로틀러(NestJS, Redis)
•
발음평가/유해 이미지 검출 백엔드
•
레거시 생성형 AI 서비스 동시성·성능 개선(Azure Functions, Python)
•
LangFuse 기반 대규모 AI 호출 추적 및 Prompt 배포
•
Azure CI/CD 파이프라인 및 AKS KEDA 오토스케일 도입
•
Grafana 대시보드 구축·경고 정책, 장애 시 Azure DevOps 이슈 자동 포워딩 서버(Node.js)
•
자체 AI 모델 서빙 인프라 AKS 전환(세밀 스케일아웃)
•
서비스 운영 모니터링/장애 대응, 사내 테크세션·DevRel(컨벤션/리뷰 가이드, 발표)
개발 문화(정착/운영)
•
코드리뷰: 최소 2인 승인 후 머지(가이드 문서화)
•
테스트: TDD로 주요 로직 테스트 의무화, 통합 자동화 파이프라인
•
프로세스: 2주 스프린트(플래닝·리뷰·백로그), 데일리 스탠드업
•
안정성: 주간 On-Call 지정, 1차 장애 대응 플레이북 기반 운영
한 줄 요약
대규모 AI 트래픽에서 성공률·지연·비용을 함께 개선하는 백엔드/DevOps 엔지니어. 큐·폴백·관측성으로 실사용 안정성과 비용 절감을 증명했습니다.