function actionHaha(){
header('content-type:text/html;charset=gbk');
$obj=M('caiji');
$data1=array();
ob_implicit_flush(1);
for($a=10986;$a<13073;$a++){
$url="http://www.jtyxzz.com/portal.php?mod=view&aid=".$a;
$arr=$this->file_from_url_content($url);
//var_dump($arr);exit;
$regex4="/<h1 class=\"ph\">.*?<\/h1>/";//标题
$regex5="/<p class=\"xg1\">[\s\S]*?<\/p>/";//时间等
$regex6="/<div class=\"s\">[\s\S]*?<\/div>/"; //摘要
$regex7="/<table cellpadding=\"0\" cellspacing=\"0\" class=\"vwtb\">[\s\S]*?<\/table>/";
$regex8="/<div id=\"pt\" class=\"bm cl\">[\s\S]*?<\/div>/";//所属栏目
preg_match($regex5,$arr,$result1);
preg_match($regex4,$arr,$result);
preg_match($regex6,$arr,$result2);
preg_match($regex7,$arr,$result3);
preg_match($regex8,$arr,$result4);
$b=$a/500;
if(is_int($b)){//让其抓取500条休息一会免得服务器将自己电脑IP屏蔽
echo $a;
sleep(rand(30,50));
}
if($result){
$data=array(
'id'=>$a,
'title'=>iconv('GBK','UTF-8',$result[0]),
'description'=>iconv('GBK','UTF-8',$result2[0]),
'zaxia'=>iconv('GBK','UTF-8',$result1[0]),
'content'=>iconv('GBK','UTF-8',$result3[0]),
'cate'=>iconv('GBK','UTF-8',$result4[0])
);
$re=$obj->create($data);
if(!$re){
//var_dump($data);exit;
echo $a.'tianjiashibai';
echo '<br/>';
}
$data1[]=$data;
}else{
echo $a.'id no wenzhang or no permit';
echo '<br/>';
}
}
echo '抓取完毕';exit;
}
/**
* 异步将远程链接上的内容
* @param unknown $url 远程地址
* @param unknown $saveName 保存在服务器上的文件名
* @param unknown $path 保存路径
* @return boolean
*/
function file_from_url_content($url) {
// 设置运行时间为无限制
set_time_limit ( 0 );
$url = trim ( $url );
$curl = curl_init ();
// 设置你需要抓取的URL
curl_setopt ( $curl, CURLOPT_URL, $url );
// 设置header
curl_setopt ( $curl, CURLOPT_HEADER, 0 );
// 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
curl_setopt ( $curl, CURLOPT_RETURNTRANSFER, 1 );
// 运行cURL,请求网页
$file = curl_exec ( $curl );
// 关闭URL请求
curl_close ( $curl );
return $file;
}
header('content-type:text/html;charset=gbk');
$obj=M('caiji');
$data1=array();
//$b=0;
//下面这两行用来实时输出的
ob_end_clean();ob_implicit_flush(1);
for($a=10986;$a<13073;$a++){
$url="http://www.jtyxzz.com/portal.php?mod=view&aid=".$a;
$arr=$this->file_from_url_content($url);
//var_dump($arr);exit;
$regex4="/<h1 class=\"ph\">.*?<\/h1>/";//标题
$regex5="/<p class=\"xg1\">[\s\S]*?<\/p>/";//时间等
$regex6="/<div class=\"s\">[\s\S]*?<\/div>/"; //摘要
$regex7="/<table cellpadding=\"0\" cellspacing=\"0\" class=\"vwtb\">[\s\S]*?<\/table>/";
$regex8="/<div id=\"pt\" class=\"bm cl\">[\s\S]*?<\/div>/";//所属栏目
preg_match($regex5,$arr,$result1);
preg_match($regex4,$arr,$result);
preg_match($regex6,$arr,$result2);
preg_match($regex7,$arr,$result3);
preg_match($regex8,$arr,$result4);
$b=$a/500;
if(is_int($b)){//让其抓取500条休息一会免得服务器将自己电脑IP屏蔽
echo $a;
sleep(rand(30,50));
}
if($result){
$data=array(
'id'=>$a,
'title'=>iconv('GBK','UTF-8',$result[0]),
'description'=>iconv('GBK','UTF-8',$result2[0]),
'zaxia'=>iconv('GBK','UTF-8',$result1[0]),
'content'=>iconv('GBK','UTF-8',$result3[0]),
'cate'=>iconv('GBK','UTF-8',$result4[0])
);
$re=$obj->create($data);
if(!$re){
//var_dump($data);exit;
echo $a.'tianjiashibai';
echo '<br/>';
}
$data1[]=$data;
}else{
echo $a.'id no wenzhang or no permit';
echo '<br/>';
}
}
echo '抓取完毕';exit;
}
/**
* 异步将远程链接上的内容
* @param unknown $url 远程地址
* @param unknown $saveName 保存在服务器上的文件名
* @param unknown $path 保存路径
* @return boolean
*/
function file_from_url_content($url) {
// 设置运行时间为无限制
set_time_limit ( 0 );
$url = trim ( $url );
$curl = curl_init ();
// 设置你需要抓取的URL
curl_setopt ( $curl, CURLOPT_URL, $url );
// 设置header
curl_setopt ( $curl, CURLOPT_HEADER, 0 );
// 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
curl_setopt ( $curl, CURLOPT_RETURNTRANSFER, 1 );
// 运行cURL,请求网页
$file = curl_exec ( $curl );
// 关闭URL请求
curl_close ( $curl );
return $file;
}