在使用querylist采集遇到的问题

博客主要讲述了采集内容的处理方法。一是对采集过来含英文双引号的标题和富文本,使用PHP过滤器将双引号替换成符号;二是针对html格式的采集新闻内容,把其中图片地址替换成原始地址,还以萍乡学院青年网新闻采集为例说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、采集过来的标题以及富文本中含有英文双引号
首先要先先才采集过来,然后在采集过来的使用PHP过滤器,将双引号替换成"符号先

//采集过来
 $text[$i] = $ql->find('.main_conDiv .v_news_content>p:eq(0)')->text();
//英文双引号替换成`"`
$text[$i]= htmlspecialchars($text[$i], ENT_QUOTES);

2.采集过来的新闻内容为html采集,将其中的图片地址替换成原始地址

这里采集萍乡学院青年网的新闻说明:

$content[$i] = $ql->find('.main_conDiv .v_news_content')->html();
$content[$i] = str_replace("/__local","http://tw.pxc.jx.cn/__local",$content[$i]);
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值