php网页爬虫-简单的类

本文介绍了一个使用PHP编写的简单爬虫类,能够抓取网页的标题、描述和字符集编码。通过实例演示了如何初始化爬虫类并获取指定URL的页面标题。
class PhpSpiders {
public $useragent; //user-agent
public $title; // 标题
public $encoding; //编码
public $status; //状态码
public $url;
public $text; //内容
public $content; //源代码
//规则
public $pattern_key = array(
‘title’ => ‘/<title>(\s*.*)<\/title>/isum’, //获取title
‘descriptions’ => ‘/<meta +name=”[d|D]escription” +content=”(.*)” +\/>/’, //获取描述
‘charset’=>‘/charset=\”?([\w-]+)\”?/i’, // 获取charset 编码
);
function __construct($url){
$this ->url = $url;
$this ->useragent = “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36”;
}
function getData() {
$curl = curl_init();
curl_setopt($curl, CURLOPT_AUTOREFERER,1);
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //信息流形式返回数据
curl_setopt($curl, CURLOPT_USERAGENT, $this ->useragent);
curl_setopt($curl, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_1_0);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0);//禁用后cURL将终止从服务端进行验证
curl_setopt($curl, CURLOPT_URL, $this->url);
try{
$this ->content = curl_exec($curl);
curl_close($curl);
} catch (Exception $e) {
echo $e.getMessage();
return false;
}
}
function getEncoding(){ //获取编码
if ($this ->content) {
preg_match($this ->pattern_key[‘charset’], $this->content, $this ->encoding);
return $this ->encoding[1];
}
}
function getTitle() {
$this ->getData();
preg_match($this->pattern_key[‘title’], $this ->content, $keyContent);
return $keyContent[1];
}
}
$url = “http://php.net/manual/en/function.curl-setopt.php”;
$spider = new PhpSpiders($url);
$spider->getData();
print_r($spider->getTitle());
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值