抓取文章内容

最新推荐文章于 2025-03-09 16:07:57 发布

原创最新推荐文章于 2025-03-09 16:07:57 发布 · 2.6k 阅读

0 ·

CC 4.0 BY-SA版权

php 专栏收录该内容

21 篇文章

订阅专栏

本文介绍了一种使用PHP实现的网页爬虫程序，该程序通过发送HTTP请求获取指定URL的内容，并利用正则表达式从HTML源码中抽取所需信息，如标题、摘要、发布时间等。文章详细展示了爬虫的具体实现过程，包括使用cURL发起网络请求、正则匹配关键字段的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

function actionHaha(){

header('content-type:text/html;charset=gbk');
$obj=M('caiji');
$data1=array();

//$b=0;

//下面这两行用来实时输出的

ob_end_clean();
ob_implicit_flush(1);
for($a=10986;$a<13073;$a++){
$url="http://www.jtyxzz.com/portal.php?mod=view&aid=".$a;
$arr=$this->file_from_url_content($url);

//var_dump($arr);exit;
$regex4="/<h1 class=\"ph\">.*?<\/h1>/";//标题
$regex5="/<p class=\"xg1\">[\s\S]*?<\/p>/";//时间等
$regex6="/<div class=\"s\">[\s\S]*?<\/div>/"; //摘要
$regex7="/<table cellpadding=\"0\" cellspacing=\"0\" class=\"vwtb\">[\s\S]*?<\/table>/";
$regex8="/<div id=\"pt\" class=\"bm cl\">[\s\S]*?<\/div>/";//所属栏目
preg_match($regex5,$arr,$result1);
preg_match($regex4,$arr,$result);
preg_match($regex6,$arr,$result2);
preg_match($regex7,$arr,$result3);
preg_match($regex8,$arr,$result4);
$b=$a/500;
if(is_int($b)){//让其抓取500条休息一会免得服务器将自己电脑IP屏蔽
echo $a;
sleep(rand(30,50));
}
if($result){
$data=array(
'id'=>$a,
'title'=>iconv('GBK','UTF-8',$result[0]),
'description'=>iconv('GBK','UTF-8',$result2[0]),
'zaxia'=>iconv('GBK','UTF-8',$result1[0]),
'content'=>iconv('GBK','UTF-8',$result3[0]),
'cate'=>iconv('GBK','UTF-8',$result4[0])
);

$re=$obj->create($data);
if(!$re){
//var_dump($data);exit;
echo $a.'tianjiashibai';
echo '<br/>';
}
$data1[]=$data;

}else{
echo $a.'id no wenzhang or no permit';
echo '<br/>';
}
}
echo '抓取完毕';exit;

}

/**
* 异步将远程链接上的内容
* @param unknown $url 远程地址
* @param unknown $saveName 保存在服务器上的文件名
* @param unknown $path 保存路径
* @return boolean
*/
function file_from_url_content($url) {
// 设置运行时间为无限制
set_time_limit ( 0 );
$url = trim ( $url );
$curl = curl_init ();
// 设置你需要抓取的URL
curl_setopt ( $curl, CURLOPT_URL, $url );
// 设置header
curl_setopt ( $curl, CURLOPT_HEADER, 0 );
// 设置cURL 参数，要求结果保存到字符串中还是输出到屏幕上。
curl_setopt ( $curl, CURLOPT_RETURNTRANSFER, 1 );
// 运行cURL，请求网页
$file = curl_exec ( $curl );
// 关闭URL请求
curl_close ( $curl );
return $file;
}