php爬虫简单入门

最新推荐文章于 2024-03-05 15:21:42 发布

阳光下的哈巴狗

最新推荐文章于 2024-03-05 15:21:42 发布

阅读量847

点赞数

CC 4.0 BY-SA版权

分类专栏： PHP 文章标签：爬虫多线程 php curl

本文链接：https://blog.youkuaiyun.com/xyf_1995/article/details/81129984

PHP 专栏收录该内容

23 篇文章

订阅专栏

本文介绍了一种使用PHP和curl实现的知乎数据爬虫方法，包括处理验证码和多线程爬取的技术细节，并解决了数据库唯一索引冲突的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前些日子有点空闲就做了一个简单的爬虫，爬取了知乎50W条数据，因为知乎有测试流量过大，导致经常有验证码，本人图片验证码没有研究所以每次都是手动输入，有兴趣的小伙伴可以做个自动识别验证码就可以无限采取了

爬虫使用了curl

public function zhihu($url){
   $param = false;
   $header= false;
   $postUrl = $url;
   $curlPost = $param;
   $ch = curl_init();//初始化curl
   if(substr($url,0,5)=='https'){
       curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 跳过证书检查
       curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); // 从证书中检查SSL加密算法
   }
   curl_setopt($ch, CURLOPT_URL,$postUrl);//抓取指定网页
   curl_setopt($ch, CURLOPT_HEADER,0);//设置header
   curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//要求结果为字符串且输出到屏幕上
   if($header){
   curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
   }
   // curl_setopt($ch, CURLINFO_HEADER_OUT, true);//获取httpheader所有数据
   if($curlPost){
   curl_setopt($ch, CURLOPT_POST,1);//post提交方式
   curl_setopt($ch, CURLOPT_POSTFIELDS,$curlPost);
   }
   $data = curl_exec($ch);//运行curl
   curl_close($ch);
   return $data;
}