PHP正则匹配title标题文本

本文介绍了一个使用PHP实现的小说网站爬虫程序,该程序能够通过传入文章ID来抓取小说标题。具体实现了初始化cURL会话、设置请求参数、执行HTTP请求并获取响应内容的功能。此外还介绍了如何利用正则表达式从响应中抽取所需的小说标题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 //
 /*传入文章ID 解析出文章标题*/
 //
 public function getBookNameById($aid){
  //初始化curl
  $ch= curl_init();
  //url
  $url='http://www.motie.com/book/'.$aid;
  if(is_numeric($aid)){
  //正则表达式匹配
  $ru="/<h1\sclass=\"p-title\">\s*<a\shref=\"\/book\/\d+\">(.*)\s*<\/a>\s*<\/h1>/";
  }
  else{
  //<title>丧尸爆发之全家求生路_第一章  丧尸爆发  为吾友爱乐儿更新~_磨铁</title>
  $ru="/<title>(.*)<\/title>/";
  }
  //设置选项,包括URL
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); 
  //执行curl
  $output = curl_exec($ch);
  //错误提示
  if(curl_exec($ch) === false){
   die(curl_error($ch));
  }
  // 检查是否有错误发生
  if(curl_errno($ch)){
  echo 'Curl error: ' . curl_error($ch);
  }
  //释放curl句柄
  curl_close($ch);
  $arr=array();
  preg_match_all($ru,$output,$arr);
  //第一个是完整匹配,第二个匹配就是去掉title标签的纯文本
return $arr[1][0];
   }
 //     

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值