내 개인 업무 자동화를 위한 프로그램 제작(4) - PDF 개인정보 마스킹 프로그램
"AI는 쓰고 싶지만, 개인정보 유출은 어떡하죠?"
업무 자동화 시리즈가 이어지며 사내에서도 많은 관심을 받기 시작했습니다. 하지만 동시에 거대한 장벽에 부딪혔죠. 바로 **"보안"**이었습니다. 특히 고객이나 직원의 개인정보(PII)가 담긴 PDF 문서를 AI에게 제공하는 것에 대해 실무 부서의 우려가 상당했습니다.
이런 걱정이 단순히 '막연한 두려움'이 아니라 '기술적으로 통제 가능한 영역'임을 시연하기 위해, 2025년 9월 네 번째 프로젝트를 시작했습니다.
핵심 기술: Docling과 Tesseract OCR의 조합
단순히 텍스트를 긁어오는 것만으로는 부족했습니다. 이미지로 된 PDF나 복잡한 레이아웃에서도 정확하게 정보를 추출해야 했죠.
- Docling: IBM에서 공개한 강력한 문서 추출 라이브러리를 사용해 PDF의 구조를 완벽히 파악했습니다.
- Tesseract OCR: 텍스트 레이어가 없는 스캔 문서에서도 글자를 읽어내기 위해 OCR 엔진을 결합했습니다.
마스킹 프로세스: "육안 확인 후 AI에게"
작동 방식은 철저히 '보안 우선'으로 설계했습니다.
- 로컬 처리: 모든 텍스트 추출과 마스킹 작업은 사용자의 PC 로컬 환경에서 이루어집니다.
- 자동 검출: 이름, 전화번호, 주민번호 등 민감 정보를 AI와 정규표현식이 함께 찾아내 '마스킹 처리'합니다.
- 사용자 최종 검수: 마스킹된 버전을 사용자가 직접 모니터링하며, 혹시나 빠진 부분이 없는지 확인 버튼을 누릅니다.
- 안전한 대화: 개인정보가 완벽히 지워진 텍스트만 AI 서버로 전송되어, 보안 걱정 없이 문서 내용을 바탕으로 채팅을 나눕니다.
시연 그 이상의 가치: 신뢰의 회복
이 프로그램을 통해 실제 업무 환경에서 개인정보 유출 위험을 0%에 가깝게 통제할 수 있다는 것을 증명했습니다. 단순히 '마스킹 프로그램'을 만든 것이 아니라, 기술을 통해 조직 내에 **'AI 활용에 대한 신뢰'**를 심어준 계기가 되었습니다.
이제 우리 팀은 보안이라는 족쇄에서 벗어나, 민감한 문서 업무에서도 AI의 강력한 도움을 마음껏 받고 있습니다.
보강: 현장에서 중요했던 포인트
- 탐지 정확도도 중요했지만, "왜 마스킹됐는지" 추적 가능해야 실제 운영에 쓸 수 있었습니다.
- 룰 식별자와 탐지 근거를 남기니 검수 속도와 신뢰도가 모두 올라갔습니다.
보강: 남은 과제
스캔본/표 구조 문서에서 발생하는 미탐 케이스를 줄이기 위해 OCR 후처리와 테이블 단위 보정 로직을 계속 손보고 있습니다.