HWP 문서가 PDF 대비 머신 리더블에 취약한가요?
HWP문서가 PDF 대비 머신리더블에 취약하다는 것은 잘못 알려진 것입니다.
‘바이너리 형식 문서 포맷중 하나인 HWP는 AI가 바로 읽기 어렵다‘는 게 정확한 표현입니다.
기존의 HWP 포맷은 DOC, XLS, PPT 등과 같은 바이너리 형식으로, 구조 분석을 위해서는 내부 스펙에 대한 이해가 필수적입니다. 이에 한컴은 2010년부터 바이너리 포맷의 버전별 상세 스펙을 투명하게 공개해 왔습니다.
나아가 2011년 12월, 한컴은 국내 문서 표준화 위원회 및 전문가들과 2년간의 공동 개발 끝에 XML 기반의 '개방형 워드프로세서 마크업 언어(OWPML)'를 한국 산업 표준(KS X 6101)으로 제정했습니다. 이는 MS Word의 DOCX와 마찬가지로 누구나 자유롭게 구현 가능한 비독점적 개방형 포맷입니다.
현재 한컴이 기본 포맷으로 사용하는 HWPX는 바로 이 OWPML을 기반으로 합니다. W3C의 XML 표준을 따르기 때문에 특정 벤더에 종속되지 않으며, 국내외 어떤 소프트웨어에서도 자유롭게 열람하고 구현할 수 있습니다.
한컴은 이러한 개방성을 확산하기 위해 기존 HWP 문서를 HWPX로 변환하는 도구를 무상으로 배포하고 있으며, AI 학습과 활용에 최적화된 XML 기반의 HWPX 생태계 조성을 위해 지속적으로 노력하고 있습니다.
OWPML 표준 이력 및 참고 자료 (KS X 6101)
- 2011.12.30. KS 표준 제정
- 2015.07.18. 1차 개정
- 2018.11.08. 2차 개정
- 2024.10.30. 3차 개정
[HWPX 변환기 다운로드 방법]
한컴에서는 “HWPX 변환기”를 무상으로 제공중에 있습니다.
“한컴닷컴(Global Leader in Software Innovation, Hancom Inc. )-지원-다운로드 센터-추가 기능(Add-in)-추가 기능(Add-in) HWPX 변환기”를 다운로드 받으신 후 설치해주시기 바랍니다.