抓取汽车之家新闻资讯做安卓app新闻资讯数据

本文介绍了一种使用PHP脚本从汽车之家网站抓取新闻资讯的方法,并将数据存储到MySQL数据库中。通过正则表达式匹配获取文章标题、链接及图片等信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

//////////////////2016/09/16///////////////

//////////////////by   xbw///////////////////




抓取服务器端php源码


<?PHP
set_time_limit(0);
require("db_config.php");
$conn=mysql_connect($mysql_server_name,$mysql_username,$mysql_password) or die("error connecting") ;
mysql_query("set names 'gb2312'"); 
mysql_select_db($mysql_database);
$page=60;
while($page>0){
	$str = file_get_contents('http://www.autohome.com.cn/all/'.$page.'/#liststart');
	$isMatched = preg_match_all('/<a href="(?<grp0>[^"]+)">[\s]+<div cl[^<]+pic"><img src="(?<grp1>[^"]+)"><\/div>[^<]*<h3>(?<grp2>[^<]+)<\/h3>[\S\s]+?<p>(?<grp3>[^<]+)<\/p>/', $str, $matches);

	if($isMatched!=0){
		for($i=0;$i<$isMatched;$i++){
			$xu=array();
			for($j=1;$j<=4;$j++){
				$xu[$j]=$matches[$j][$i];
			}
			$rowz=mysql_fetch_row(mysql_query("SELECT count(id) FROM news WHERE url='$xu[1]'"));
			echo $rowz[0]."--------------";
			if($rowz[0]==0){
				$result = "INSERT INTO newsa(title,content,url,pic,time) VALUES('$xu[3]','$xu[4]','$xu[1]','$xu[2]',NOW())";
				mysql_query($result);
				echo '该数据抓取成功'."<BR>";
			}else{
				echo '该数据已存在'."<BR>";
			}
			}
	}
	$page--;
}
?>

存储到数据库里

我已经抓了10万条数据了。。。。。。

汽车之家真心不错。。。。。。。。


需要数据的可以留下邮箱

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值