采集

header("content-type:text/html;charset=utf-8");
set_time_limit(0);
$url='http://sports.sohu.com/nba.shtml';
$str=file_get_contents($url);
$str=iconv("GBK","utf-8",$str);
//echo $str;
$reg='#<div style="HEIGHT: 290px; OVERFLOW: hidden" id="columnID" class="heavyColumn">.*<a onFocus="undefined" href="http://sports.sohu.com/s2016/7265/s460940033/" target="_blank">#isU';
preg_match($reg,$str,$arr);
//var_dump($arr);
//标题
$reg2='#<h4><a onFocus="undefined" title="" href="http://sports.sohu.com/s2016/7265/.*/" target="_blank">(.*)</a></h4>#isU';
preg_match_all($reg2,$arr[0],$data1);
//var_dump($data1);
//内容
$reg3='#<p>(.*)<a#isU';
preg_match_all($reg3,$arr[0],$data2);
//var_dump($data2);
$pdo=new PDO('mysql:host=localhost;dbname=test','root','root');
$pdo->exec("set names utf8");
for($i=0;$i<count($data1[1]);$i++){
    $title=$data1[1][$i];
    $content=$data2[1][$i];
    $sql="insert into nba (title,content) VALUES ('$title','$content')";
    $pdo->exec($sql);
}
//图片
$reg4='#<img alt="NBA" src="(.*)" border="0" height="100" width="100"></a>#isU';
preg_match_all($reg4,$arr[0],$data3);
//var_dump($data3);
foreach($data3[1] as $v){
    $path=file_get_contents($v);
    $ext=substr($v,strrpos($v,'.'));
    $file_name='img/'.time().rand(1000,9999).$ext;
    file_put_contents($file_name,$path);
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值