dedecms 采集程序的优化!

一开始用的是discuz的 dfsockopen(),但是很多网站的东西都是无法采集过来的,服务器判断出了是在采集。然后测试了dedecms的采集类,是可以的。

但是dedecms的有一个缺点就是无法控制获取的多少(其实discuz的如果是curl而不是socket获取也是全部获取过来不判断的),所以修改了一下。

优化目的:某些时候并不一定是要将远程整个文件都下载下来,假如远程文件非常大,那么全部下载下来,空间商很可能会将你的网站直接封禁。

修改代码:文件 D:\website\baidu.com\www\include\dedehttpdown.class.php 中加入一个参数即可 $dataLimit

在方法GetHtml中加入一段即可

if($this->dataLimit && strlen($this->m_html)>$this->dataLimit) break;

    /**
     *  用Http协议获得一个网页的内容
     *
     * @access    public
     * @return    string
     */
    function GetHtml()
    {
        if(!$this->IsText())
        {
            return '';
        }
        if($this->m_html!='')
        {
            return $this->m_html;
        }
        if(!$this->m_fp||@feof($this->m_fp))
        {
            return '';
        }
        while(!feof($this->m_fp))
        {
            $this->m_html .= fgets($this->m_fp,256);
            if($this->dataLimit && strlen($this->m_html)>$this->dataLimit) break;
        }
        @fclose($this->m_fp);
        return $this->m_html;
    }


注意每次都要初始化这个参数,在OpenUrl这里,设置为0.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值