programing

PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?

copyandpastes 2021. 1. 15. 20:17
반응형

PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?


PHP를 사용하여 PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?

(다른 도구를 사용할 수 없으며 루트 액세스 권한이 없습니다)

일반 텍스트에서 작동하는 일부 함수를 찾았지만 유니 코드 문자를 제대로 처리하지 못합니다.

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html


다운로드는 class.pdf2text.php @ https://pastebin.com/dvwySU1a 또는 (4 월 2014 년 5 업데이트) http://www.phpclasses.org/browse/file/31030.html (등록 필요)

암호:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); 

이 수업은 내가 테스트 한 모든 PDF에서 작동하지 않습니다. 시도해 보면 운이 좋을 수도 있습니다. :)


위의 방법이 작동하지 않으면 http://pdfparser.org/를 시도 하십시오.


프로젝트 홈 ( SSL 인증서 문제 )


나는이 주제가 꽤 오래되었다는 것을 알고 있지만,이 요구는 여전히 살아 있습니다. 많은 문서, 포럼 및 스크립트를 읽고 압축 및 비 압축 pdf를 지원하는 새로운 고급 문서를 작성합니다.

https://gist.github.com/smalot/6183152

도움이되기를 바랍니다.

참조 URL : https://stackoverflow.com/questions/6999889/how-to-extract-text-from-the-pdf-document

반응형