php使用PdfParser搭配tcpdf解析pdf文件

原创

已于 2022-07-26 13:56:02 修改 · 置顶 · 8.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#php #pdf #tcpdf #PdfParser

于 2018-01-12 09:36:45 首次发布

本文介绍了如何使用PHP的PdfParser库配合TCPDF类库解析PDF文件内容，以满足从PDF附件中搜索文章的需求。通过示例代码展示了如何提取PDF中的文字，并对集成这两个库到ThinkPHP框架中进行了详细说明，包括文件结构调整和命名空间修改。遇到问题时，建议耐心调试解决。

前几天客户提出一个需求，就是在前台页面搜索文章时，若搜索词在文章附件的pdf文件中有出现的话就要将该文章作为搜索结果。我的思路是后台发布文章时循环检测每一个附件的格式，若附件格式为pdf的话就将里面的文字读取出来追加到一个$string变量里，然后将$string的作为一个file_text字段的信息保存到数据库后面做搜索的时候使用。

我参考的一个回答地址是：https://baijiahao.baidu.com/s?id=1572245039857772&wfr=spider&for=pc

$parser = new \Smalot\PdfParser\Parser();
// 调用解析方法，参数为pdf文件路径，返回结果为Document类对象
$document = $parser->parseFile($path);
// 获取所有的页
$pages = $document->getPages();
// // 逐页提取文本
$text = '';
foreach($pages as $page){
$text.= $page->getText();
}
echo $text;

结果如下图，已经把pdf文件里面的文字读取出来了（扫描件合成的pdf因为好像都是图片所以是读不出来内容的，编辑一个doc文件然后输出为p

最低0.47元/天解锁文章

1 条评论

qq_39177602 2018.08.06
您好~我想请问一下能读取各国语言的文字吗？我读取的韩文，但是显示出来的是乱码。 ! " # $ % & ' ( ) * + , ( ) - . / 0 1 2 3 4 5 6 7 8 9 : ; $ < " = > $ < ? @ 1 2 A ( B C " D E % F G H I J K D E L M N O C " P " Q J R S I ! " # "\u0000\u0001\t\u0000\u0002\t\u0000\u0003\t\u0000\u0004
- 卖茶叶蛋的奥特曼回复qq_39177602 2018.08.14
  [reply]qq_39177602[/reply] 没试过读取韩文耶。。。。。

yuanmajidi 2018.06.22
您好，能提供下您修改过的Smalot完整类库吗？谢谢！ 1696490858@qq.com
- 卖茶叶蛋的奥特曼回复yuanmajidi 2018.06.23
  [reply]yuanmajidi[/reply] 加我qq

评论 4

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。