关于curl / curl_multi的一些实验

本文介绍了一个使用PHP实现的多线程网页爬虫示例,通过curl和curl_multi函数实现代理支持及并发请求,提高了爬取效率。

几天没写了,主要都是自己的学习过程,贴一下curl / curl_multi_exec的一些代码,mark一下。

<?php
/**
 * Created by PhpStorm.
 * User: f3ngt1ng
 * Date: 2017/2/23
 * Time: 10:46
 */

//今天巩固一下curl_multi_exec的技术,用proxy写一个简单多线程爬虫。


function curl_crawl($url, $proxy, $auth = array()){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_TIMEOUT , 10);
    curl_setopt($ch, CURLOPT_HEADER, array('Connection: close'));
    if (isset($proxy))
        curl_setopt($ch, CURLOPT_PROXY, $proxy);
    if (!empty($auth))
        curl_setopt($ch, CURLOPT_PROXYUSERPWD, join(':', $auth));
    $content = curl_exec($ch);
    curl_close($ch);
    return $content;
}

/*//$proxy = '200.255.220.211:8080';
$url = 'http://demo.com:8080/2.23/server.php';
$content = curl_crawl($url);
echo $content;
*/
/**
 * @param $url
 * @param array $proxy
 * @param array $auth
 * @param int $threads
 */
function curl_multi_crawl($url = array(), $proxy = array(), $auth = array(), $threads = 1){
    $mul = curl_multi_init();
    $curl_handlers = array();
    $results = array();
    //非单URL多线程的情况
    if ($threads === 1) {
        foreach ($url as $t){
        $ch = curl_init();
        $curl_handlers[$t] = $ch;
        curl_setopt($ch, CURLOPT_URL, $t);
        curl_setopt($ch, CURLOPT_HEADER, 0);
        //curl_setopt($ch, CURLOPT_TIMEOUT, 5);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
        curl_setopt($ch, CURLOPT_MAXREDIRS, 5);
        curl_multi_add_handle($mul, $ch);
    }
    }
    if(!empty($proxy)){
        foreach ($curl_handlers as $handler){
            curl_setopt($handler, CURLOPT_PROXY, $proxy[mt_rand(0, (count($proxy)-1))]);
        }
    }
    /*foreach($curl_handlers as $url => $handler){
        echo $url."=========".$handler."\r\n";
    }*/
    //执行

    do {
        $mrc = curl_multi_exec($mul, $active);
    } while ($mrc == CURLM_CALL_MULTI_PERFORM);

    while ($active && $mrc == CURLM_OK) {
        if (curl_multi_select($mul) != -1) {
            do {
                $mrc = curl_multi_exec($mul, $active);
            } while ($mrc == CURLM_CALL_MULTI_PERFORM);
        }
    }
    foreach ($curl_handlers as $url => $handler){
        $results[$url] = curl_multi_getcontent($handler);
        curl_multi_remove_handle($mul, $handler);
    }
    curl_multi_close($mul);
    var_dump($results);
}

/*
$proxy = array('127.0.0.1:8888');
$url = array('http://demo.com:8080/2.23/server.php', 'http://www.baidu.com');
curl_multi_crawl($url, $proxy);
*/

转载于:https://www.cnblogs.com/f3ngt1ng/p/6434061.html

<think>好的,用户想了解curl_multi_wakeup是否能唤醒被curl_multi_poll阻塞的线程。首先,我需要回忆这两个函数的作用和它们之间的交互机制。curl_multi_poll用于等待任何活动的curl句柄,它会阻塞直到有I/O事件发生或者超时。而curl_multi_wakeup的作用是唤醒正在阻塞的curl_multi_poll调用,这样可以在需要时立即中断等待,比如当有新的任务添加到multihandle中时。接下来,我需要确认curl_multi_wakeup的具体工作机制。查阅文档可知,这个函数会发送一个信号或触发某个事件,使得正在阻塞的curl_multi_poll立即返回,从而允许程序继续处理其他任务。这在异步或多线程环境中特别有用,可以避免不必要的等待延迟。然后,考虑用户可能的实际应用场景。比如在一个事件循环中,主线程可能使用curl_multi_poll等待多个curl请求的完成。当有新的请求需要添加到multihandle时,如果不唤醒,可能需要等待当前poll超时才能处理新请求。使用curl_multi_wakeup可以立即唤醒,提高响应速度。 另外,需要注意线程安全问题。这两个函数是否需要在同一线程调用?根据libcurl的文档,curl_multi接口通常是线程安全的,但建议所有相关操作在同一个线程内执行,以避免竞态条件。因此,用户需要确保在添加新任务后,调用curl_multi_wakeup来通知正在阻塞的poll。可能的相关问题包括如何正确使用这两个函数,它们的适用场景,以及错误处理。例如,如果多次调用wakeup会不会有问题,或者是否需要处理特定的错误码。此外,用户可能想知道如何将curl_multi_wakeup集成到现有的多线程或异步框架中,比如libevent或libuv。 最后,需要验证示例代码的正确性。确保在添加新的handle后调用wakeup,并且在循环中正确处理返回的still_running状态。同时,提醒用户注意资源管理和错误检查,比如检查curl_multi_wakeup的返回值,确保唤醒成功。</think>### curl_multi_wakeup与curl_multi_poll的交互机制 `curl_multi_wakeup`是libcurl库中专门用于唤醒被`curl_multi_poll`阻塞线程的接口[^1]。其核心作用是通过主动触发I/O事件通知,中断`curl_multi_poll`的阻塞状态,使多线程/异步编程中的并发控制更高效。 #### 工作机制 1. **阻塞场景**:当使用`curl_multi_poll`等待多个HTTP请求响应时,该函数会阻塞线程直到: $$ \text{超时时间到达} \quad \text{或} \quad \text{检测到socket事件} $$ 2. **唤醒原理**:`curl_multi_wakeup`通过内部管道(pipe)向事件循环发送唤醒信号,强制`curl_multi_poll`立即返回`CURLM_OK`,此时应重新执行`curl_multi_perform`处理新加入的请求。 #### 典型用法(伪代码) ```c // 主线程 curl_multi_add_handle(multi_handle, easy_handle); curl_multi_wakeup(multi_handle); // 关键唤醒操作 // 事件循环线程 while (still_running) { curl_multi_poll(multi_handle, NULL, 0, 1000, NULL); curl_multi_perform(multi_handle, &still_running); } ``` #### 注意事项 1. **线程安全**:建议在添加新请求的线程中调用`curl_multi_wakeup` 2. **性能影响**:频繁调用可能导致CPU空转 3. **错误处理**:需检查返回值(成功返回`CURLM_OK`)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值