피로곰's 모두의 프린터

반응형

https://youtu.be/9p8_7c30W8w

PDF파일은 보통 일러스트레이터 같은 벡터 이미지 편집툴과 비슷하게 텍스트나 이미지가 하나의 객체로써 페이지 위의 특정 좌표 위에 떠있는(?) 형태로 만들어지는 문서입니다.

그런 관계로 이미지를 가지고 만들어진 PDF가 아닌이상 PDF파일내에 존재하는 이미지, 텍스트 데이터는 그대로 추출이 가능합니다.

PDF 뷰어중에서도 PDF파일 내의 텍스트나 이미지를 선택후 클립보드로 복사하여 다른 문서편집기 등에서 쓸 수 있도록 하는 기능을 제공해주는 경우도 있지만 ..

텍스트가 깨지거나 문제가 발생하는 경우도 많은지라 ..

직접적으로 PDF파일 내에 포함된 텍스트 데이터와 이미지 데이터를 추출해주는 기능이 존재합니다. 이에 관련된 영상입니다.

주의 점은 .. 텍스트의 경우 PDF 뷰어에서 보여지는 레이아웃상의 텍스트 위치와 추출된 텍스트 파일상의 순서가 다를 수 있습니다.

이는 데이터 상의 순서대로 추출이 되는 관계로 .. 특정 텍스트 데이터가 맨 뒤에 있더라도 해당 텍스트의 출력위치가 페이지의 첫줄이라면 .. PDF뷰에어서는 첫줄에 해당 내용이 보여지지만 추출된 텍스트 파일에는 맨 마지막 줄에 표시될 수 있습니다.

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band