利用curl_multi_init并行多线程处理网络数据

for ($i=0; $i < 100; $i++)
{
      $urls[] = "http://blog.youkuaiyun.com/lg_lin?wd=".mt_rand(10000,20000);
}


$t = microtime(true);
//单线程
foreach ($urls as $key => $value)
{

    $ch = curl_init();
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_URL, $value);
    $response =  curl_exec($ch);

    curl_close($ch);


    $result_new[$key] = $response;
}
var_dump($result_new);

$e = microtime(true);
echo "For循环:".($e-$t)."\n";

/**
 **** 多线程****
 * 由于受网络带宽限制,一次性不能并发太多,可以分批处理
 * 总量超过100以后,效果就比单线程明显提高
*/

$p = 5;//每次执行多少条
$ring = ceil(count($urls) / $p);

for($n = 0; $n < $ring; $n++)
{
    $temp_url = array();
    $star = $n * $p;
    $end = ($n+1) * $p;
    for($ii = $star; $ii < $end; $ii++)
    {
        if (isset($urls[$ii]))
        {
            $temp_url[] = $urls[$ii];
        }

    }

    $mh = curl_multi_init();
    foreach ($temp_url as $i => $url) {
        $conn[$i] = curl_init($url);
        curl_setopt($conn[$i], CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
        curl_setopt($conn[$i], CURLOPT_SSL_VERIFYPEER, FALSE);
        curl_setopt($conn[$i], CURLOPT_RETURNTRANSFER, TRUE);
        curl_setopt($conn[$i], CURLOPT_TIMEOUT, 30);
        curl_setopt($conn[$i], CURLOPT_URL, $url);
        curl_multi_add_handle($mh,$conn[$i]);
    }

    do{
        curl_multi_exec($mh, $active);
    } while ($active);

    $active = null;

    foreach ($temp_url as $i => $url) {
        $data[$i] = curl_multi_getcontent($conn[$i]); // 获得爬取的代码字符串

    }

    foreach ($temp_url as $i => $url) {
        curl_multi_remove_handle($mh, $conn[$i]);
        curl_close($conn[$i]);
    }

    curl_multi_close($mh);


    var_dump($data);

}

$t = microtime(true);

echo "多线程:".($t-$e)."\n";


exit();
curlcurl_multi都是用于进行网络请求的工具。 curl是一个命令行工具,可以通过发送HTTP请求来获取网页内容或发送其他类型的网络请求。它是单线程的,在发送一个请求时会阻塞程序的执行直到请求完成并返回结果。这意味着如果要进行高并发的请求,需要启动多个curl进程来同时发送多个请求,但会造成系统资源的浪费。 而curl_multi是一个C语言库,可以实现多个网络请求的并发执行。它通过将多个curl实例放入一个集合中,并使用事件循环来处理多个请求的同时执行。这样,在发送一个请求时,程序不会阻塞,而是可以继续执行其他任务,提高了并发处理能力。当所有的请求都完成时,可以一次性获取所有的结果。这种方式减少了系统资源的浪费,提高了程序的效率。 使用curl_multi进行高并发需要注意以下几点: 1. 创建curl_multi实例,并向其中添加需要执行的curl请求。 2. 使用curl_multi_exec函数来开始执行多个请求。 3. 使用curl_multi_select函数等待请求完成。 4. 使用curl_multi_getcontent函数获取每个请求的结果。 需要注意的是,高并发的网络请求对服务器压力较大,也容易出现网络超时等问题,因此需要合理控制并发请求数量,使用适当的技术手段,如连接池、负载均衡等,来保证系统的稳定性和性能。 总之,curlcurl_multi都可以用于高并发的网络请求,但curl_multi具有更好的并发性能和资源利用率,适合在程序中进行大量请求的同时执行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值