목록으로 돌아가기
20252025-07-237분 읽기

내 개인 업무 자동화를 위한 프로그램 제작(3) - RAG 활용 챗봇

내 개인 업무 자동화를 위한 프로그램 제작(3) - RAG 활용 챗봇

"그 규정, 어디에 있었더라?"

업무 도구 시즈리(1), (2)를 거치며 자동화와 챗봇의 편리함을 맛보았습니다. 하지만 한계도 명확했죠. 바로 **"전문적인 최신 내부 규정이나 방대한 문서"**에 대해서는 엉뚱한 답변을 하기도 한다는 점이었습니다.

범용적인 지식만으로는 해결할 수 없는, 우리 조직만의 '정확한 정보 추출'이 필요했습니다. 그래서 2025년 7월, RAG(Retrieval-Augmented Generation) 기술을 도입하기로 했습니다.

RAG: 학습하지 않고 정보를 찾는 기술

모델을 직접 파인튜닝(Learing)하는 것은 비용과 시간 면에서 비효율적이었습니다. 대신, 질문이 들어올 때마다 관련 문서를 먼저 검색하고, 그 내용을 바탕으로 답변을 생성하는 RAG 방식이 정답이었습니다.

이번에도 빠르게 웹으로 구현하기 위해 Streamlit을 베이스로 삼았고, 문서의 맥락을 파악하고 벡터화하기 위해 별도의 임베딩 처리를 거쳤습니다.

팩트 체크의 정석: "출처를 밝히다"

이 챗봇의 가장 큰 장점은 "거짓말(할루시네이션)"을 획기적으로 줄였다는 점입니다. 답변의 근거가 되는 문서의 원문과 페이지를 함께 제시해주니, 사용자는 답변을 100% 신뢰할 수 있게 되었습니다.

  1. 규정집 업로드: PDF나 텍스트 문서를 넣으면 즉시 분석
  2. 문맥 검색: 단순히 키워드가 아닌 의미를 파악해 관련 내용 추출
  3. 근거 제시: 답변 끝에 "참고 문서: NN 규정 제M조" 형식으로 출처 표기

프로젝트를 마무리하며: 기술 공유

이제 복잡한 사내 규정집을 뒤적이는 시간은 과거의 유산이 되었습니다. 이 프로젝트는 데모 버전으로 정리해 깃허브에도 공개해 두었습니다. 비개발자가 AI를 도구로 활용해 어디까지 가치를 만들어낼 수 있는지 다시 한번 체감한 뜻깊은 프로젝트였습니다.

🔗 RAG 챗봇 데모 깃허브 바로가기


보강: 검색 품질에서 중요했던 점

  • 문서를 너무 잘게 자르면 문맥이 끊기고, 너무 크게 자르면 관련 구간을 못 찾았습니다.
  • 그래서 섹션 단위와 문단 단위를 혼합한 분할 전략이 가장 안정적이었습니다.

보강: 운영상 체크리스트

  • 근거 없는 답변 차단
  • 근거 문서 링크/식별자 표기
  • 최신 문서 동기화 주기 관리