반응형
PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?
PHP를 사용하여 PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?
(다른 도구를 사용할 수 없으며 루트 액세스 권한이 없습니다)
일반 텍스트에서 작동하는 일부 함수를 찾았지만 유니 코드 문자를 제대로 처리하지 못합니다.
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
다운로드는 class.pdf2text.php @ https://pastebin.com/dvwySU1a 또는 (4 월 2014 년 5 업데이트) http://www.phpclasses.org/browse/file/31030.html (등록 필요)
암호:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf');
$a->decodePDF();
echo $a->output();
이 수업은 내가 테스트 한 모든 PDF에서 작동하지 않습니다. 시도해 보면 운이 좋을 수도 있습니다. :)
위의 방법이 작동하지 않으면 http://pdfparser.org/를 시도 하십시오.
프로젝트 홈 ( SSL 인증서 문제 )
나는이 주제가 꽤 오래되었다는 것을 알고 있지만,이 요구는 여전히 살아 있습니다. 많은 문서, 포럼 및 스크립트를 읽고 압축 및 비 압축 pdf를 지원하는 새로운 고급 문서를 작성합니다.
https://gist.github.com/smalot/6183152
도움이되기를 바랍니다.
참조 URL : https://stackoverflow.com/questions/6999889/how-to-extract-text-from-the-pdf-document
반응형
'programing' 카테고리의 다른 글
setup.py의 entry_points / console_scripts와 스크립트의 차이점은 무엇입니까? (0) | 2021.01.15 |
---|---|
ES6 수업은 왜 올리지 않나요? (0) | 2021.01.15 |
C #에서 문자열의 개별 문자를 반복하는 가장 빠른 방법은 무엇입니까? (0) | 2021.01.15 |
C (99)와 C ++ (11)의 비 호환 차이점은 무엇입니까? (0) | 2021.01.15 |
Callable과 유사한 인터페이스가 있지만 인수가 있습니까? (0) | 2021.01.15 |