세계 뉴스

한컴, PDF 데이터 추출하는 오픈소스로 ‘깃허브’ 트렌딩 1위 달성

Mar 23, 2026 IDOPRESS
PDF 데이터를 AI가 처리할 수 있도록 변환 깃허브 인기지표인 ‘스타’ 7000개 넘어

PDF 데이터를 AI가 처리할 수 있도록 변환


깃허브 인기지표인 ‘스타’ 7000개 넘어

한컴이 오픈소스로 공개한 PDF 데이터 추출 오픈소스 프로젝트 ‘오픈데이터로더’가 개발자 플랫폼 깃허브에서 트렌딩 1위를 기록했다. [사진 = 한컴] 한글과컴퓨터가 자사의 PDF 데이터 추출 오픈소스 프로젝트인 ‘오픈데이터로더 PDF v2.0’이 세계 최대 개발 플랫폼 깃허브에서 지난 20일 기준 트렌딩 1위를 달성했다고 23일 밝혔다.

오픈데이터로더 PDF v2.0은 지난 21일 하루에만 깃허브 인기 지표인 ‘스타’를 1800개 이상 획득했으며,총 스타 수 7000개를 돌파하며 글로벌 개발자 커뮤니티의 관심을 모았다.

이 프로젝트는 복잡한 구조의 PDF 문서를 텍스트,표,이미지 등으로 분해해 인공지능(AI)이 즉시 학습하고 처리할 수 있는 형태로 변환하는 기술이다.

PDF는 데이터 추출 과정에서 구조적 복잡성으로 인해 AI 개발의 병목 구간으로 지적돼 왔다. 이에 한컴은 지난해 7월 PDF 전문 기업 듀얼랩과 협업을 시작해 지난해 9월 초기 버전을 공개했으며,이달 12일 한층 강화된 2.0 버전을 선보였다.

이번에 공개된 2.0 버전은 AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진을 탑재해 외부 서버 전송 없이 로컬 환경에서 구동되는 것이 특징이다.

광학문자인식(OCR),표와 수식 추출,차트 분석의 AI 애드온 4종을 기본 제공하며,도클링 등 타사 오픈소스 모델과 호환성도 갖췄다.

또한 이번 버전부터는 상업적 활용이 자유로운 ‘아파치 2.0’ 라이선스를 적용해 기업과 개발자 진입 장벽을 대폭 낮췄다.

한컴에 따르면 자체 벤치마크 테스트 결과 읽기 순서와 제목 추출 등 전 항목에서 다른 오픈소스 프로젝트 대비 가장 높은 정확도를 기록했다.

앞서 한컴은 글로벌 AI 프레임워크인 랭체인에 오픈데이터로더의 공식 구성요소 등록을 마쳤으며 올해는 랭플로우,라마인덱스,제미나이 CLI 등 주요 AI 프레임워크와 연동을 확대하고 AI 에이전트 지원도 시작할 예정이다.

김연수 한컴 대표는 “아파치 2.0 라이선스 전환을 통해 전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다”고 밝혔다.