一开始用的是discuz的 dfsockopen(),但是很多网站的东西都是无法采集过来的,服务器判断出了是在采集。然后测试了dedecms的采集类,是可以的。
但是dedecms的有一个缺点就是无法控制获取的多少(其实discuz的如果是curl而不是socket获取也是全部获取过来不判断的),所以修改了一下。
优化目的:某些时候并不一定是要将远程整个文件都下载下来,假如远程文件非常大,那么全部下载下来,空间商很可能会将你的网站直接封禁。
修改代码:文件 D:\website\baidu.com\www\include\dedehttpdown.class.php 中加入一个参数即可 $dataLimit
在方法GetHtml中加入一段即可
if($this->dataLimit && strlen($this->m_html)>$this->dataLimit) break;
/**
* 用Http协议获得一个网页的内容
*
* @access public
* @return string
*/
function GetHtml()
{
if(!$this->IsText())
{
return '';
}
if($this->m_html!='')
{
return $this->m_html;
}
if(!$this->m_fp||@feof($this->m_fp))
{
return '';
}
while(!feof($this->m_fp))
{
$this->m_html .= fgets($this->m_fp,256);
if($this->dataLimit && strlen($this->m_html)>$this->dataLimit) break;
}
@fclose($this->m_fp);
return $this->m_html;
}
注意每次都要初始化这个参数,在OpenUrl这里,设置为0.