自己动手编写优快云博客备份工具-blogspider之源码分析(3)

本文介绍了一个用于抓取优快云博客的爬虫工具blogspider的实现细节,包括如何通过HTTP协议与服务器交互获取博客首页内容,解析出各篇文章的URL、标题、发布日期、阅读数及评论数等信息,并将这些信息存入链表中以便进一步处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:gzshun. 原创作品,转载请标明出处!
来源:
http://blog.youkuaiyun.com/gzshun

 

周星驰:剪头发不应该看别人怎么剪就发神经跟流行,要配合啊!你看你的发型,完全不配合你的脸型脸型又不配合身型,身型又和发型完全不搭,而且极度不配合啊!!欢哥!你究竟要怎么样啊? 《算死草》

在开篇,先happy下,新年到,开开心心过好年!
已经写了几篇文章,把代码贡献给有需要的人,这里列出前几篇文章,需要的马上跳转,麻利的。。
自己动手编写优快云博客备份工具-blogspider

自己动手编写优快云博客备份工具-blogspider之源码分析(1)

自己动手编写优快云博客备份工具-blogspider之源码分析(2)

本文是blogspider最重要的部分,开始要下载并分析优快云博客,把博文的URL分析出来,添加进链表,GO!

一.先下载博客主页到本地的index.html

下载网页到本地的步骤:
建立连接 -> 连接网站服务器 -> 发送请求 -> 接收响应 -> 保存到本地
connect_web -> send_request -> recv_response
源码说话:

[cpp]  view plain copy
  1. /***************************************************************** 
  2. 下载个人的博客主页 
  3. *****************************************************************/  
  4. static int download_index(blog_spider * spider_head)  
  5. {  
  6.     int ret;  
  7.       
  8.     ret = connect_web(spider_head);  
  9.     if (ret < 0) {  
  10.         goto fail_download_index;  
  11.     }  
  12.       
  13.     ret = send_request(spider_head);  
  14.     if (ret < 0) {  
  15.         goto fail_download_index;  
  16.     }  
  17.   
  18.     ret = recv_response(spider_head);  
  19.     if (ret < 0) {  
  20.         goto fail_download_index;  
  21.     }  
  22.       
  23.     close(spider_head->blog->b_sockfd);  
  24.       
  25.     return 0;  
  26.       
  27. fail_download_index:  
  28.     close(spider_head->blog->b_sockfd);  
  29.     return -1;  
  30. }  

 

二.建立连接,并连接网站服务器

先从"blog.youkuaiyun.com"主机名获取到IP地址,如下:

[cpp]  view plain copy
  1. /********************************************************** 
  2. 根据主机名获取到主机信息,主要是获取到IP地址. 
  3. **********************************************************/  
  4. static int get_web_host(const char * hostname)  
  5. {  
  6.     /*get host ip*/  
  7.     web_host = gethostbyname(hostname);  
  8.     if (NULL == web_host) {  
  9.         #ifdef SPIDER_DEBUG  
  10.         fprintf(stderr, "gethostbyname: %s\n", strerror(errno));  
  11.         #endif  
  12.         return -1;  
  13.     }  
  14.       
  15.     #ifdef SPIDER_DEBUG  
  16.     printf("IP: %s\n", inet_ntoa(*((struct in_addr *)web_host->h_addr_list[0])));  
  17.     #endif  
  18.   
  19.     return 0;  
  20. }  


开始初始化套接字,连接网站服务器:

[cpp]  view plain copy
  1. /********************************************************** 
  2. 初始化SOCKET,并连接到网站服务器 
  3. **********************************************************/  
  4. static int connect_web(const blog_spider * spider)  
  5. {     
  6.     int ret;  
  7.     struct sockaddr_in server_addr;  
  8.   
  9.     /*init socket*/  
  10.     spider->blog->b_sockfd = socket(AF_INET, SOCK_STREAM, 0);  
  11.     if (spider->blog->b_sockfd < 0) {  
  12.         #ifdef SPIDER_DEBUG  
  13.         fprintf(stderr, "socket: %s\n", strerror(errno));  
  14.         #endif  
  15.         return -1;  
  16.     }  
  17.   
  18.     memset(&server_addr, 0, sizeof(server_addr));  
  19.       
  20.     server_addr.sin_family  = AF_INET;  
  21.     server_addr.sin_port    = htons(spider->blog->b_port);  
  22.     server_addr.sin_addr    = *((struct in_addr *)web_host->h_addr_list[0]);  
  23.   
  24.     ret = connect(spider->blog->b_sockfd, (struct sockaddr *)&server_addr, sizeof(server_addr));  
  25.     if (ret < 0) {  
  26.         #ifdef SPIDER_DEBUG  
  27.         fprintf(stderr, "connect: %s\n", strerror(errno));  
  28.         #endif  
  29.         return -1;  
  30.     }  
  31.       
  32.     return 0;  
  33. }  


三.发送请求到网站服务器

HTTP协议里面比较重要的有俩方法:GETPOST
向网站服务器发送请求:
GET %s HTTP/1.1\r\n
Accept: */*\r\n
Accept-Language: zh-cn\r\n
User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)\r\n
Host: %s:%d\r\n
Connection: Close\r\n\r\n
GET后面跟的是请求的文件,剩下的是一些基本信息,该协议头的结束标志是一个空行,所以程序可以通过判断"\r\n\r\n"为结束标志。具体HTTP协议可以上网搜索一些资料,这里不做介绍。

源码说话:

[cpp]  view plain copy
  1. /********************************************************** 
  2. 向网站服务器发送请求 
  3. **********************************************************/  
  4. static int send_request(const blog_spider * spider)  
  5. {  
  6.     int ret;  
  7.     char request[BUFSIZE];  
  8.       
  9.     memset(request, 0, sizeof(request));  
  10.     sprintf(request,   
  11.         "GET %s HTTP/1.1\r\n"  
  12.         "Accept: */*\r\n"  
  13.         "Accept-Language: zh-cn\r\n"  
  14.         "User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)\r\n"  
  15.         "Host: %s:%d\r\n"  
  16.         "Connection: Close\r\n"  
  17.         "\r\n", spider->blog->b_page_file, spider->blog->b_host, spider->blog->b_port);  
  18.   
  19.     ret = send(spider->blog->b_sockfd, request, sizeof(request), 0);  
  20.     if (ret < 0) {  
  21.         #ifdef SPIDER_DEBUG  
  22.         fprintf(stderr, "send: %s\n", strerror(errno));  
  23.         #endif  
  24.         return -1;  
  25.     }  
  26.       
  27.     #ifdef SPIDER_DEBUG  
  28.     printf("request:\n%s\n", request);  
  29.     #endif  
  30.   
  31.     return 0;  
  32. }  


周星驰:扫地只不过是我的表面工作,我真正地身份是一位研究僧(生)。《少林足球》
轻松一下,继续。。。

四.接收响应消息

向网站服务器发送了请求,当然必须在本地开始接收。由于可能是网速慢的原因,接收响应消息与消息正体速度有点慢。这里使用了select函数与FD_SET集合来处理,当监听到socket可读,才开始读取消息并保存到本地。

[cpp]  view plain copy
  1. /*************************************************************************************** 
  2. 接受网站服务器的反馈信息,得到请求的文件内容 
  3. 向服务器发送请求信息或者服务器的响应消息,以空行结束,所以可以用"\r\n\r\n"来判断结束标志 
  4. select: 
  5. int select (int maxfdp1, fd_set *readset, fd_set *writeset, fd_set *exceptset, const struct timeval * timeout); 
  6. >0: 正确 
  7. -1: 出错 
  8. 0 : 超时 
  9. void FD_ZERO(fd_set *fdset); // clear all bits in fdset 
  10. void FD_SET(int fd, fd_set *fdset); // turn on the bit for fd in fdset 
  11. void FD_CLR(int fd, fd_set *fdset); // turn off the bit for fd in fdset 
  12. int  FD_ISSET(int fd, fd_set *fdset); // is the bit for fd on in fdset 
  13. ***************************************************************************************/  
  14. static int recv_response(const blog_spider * spider)  
  15. {  
  16.     int ret, end, recvsize, count;  
  17.     char recvbuf[BUFSIZE];  
  18.     fd_set read_fds;  
  19.     struct timeval timeout;  
  20.     FILE *fp;  
  21.   
  22.     /*建议时间要长点, select失败可能的原因是收到网站的响应消息超时*/  
  23.     timeout.tv_sec  = 30;  
  24.     timeout.tv_usec = 0;  
  25.       
  26.     while (1) {  
  27.         FD_ZERO(&read_fds);  
  28.         FD_SET(spider->blog->b_sockfd, &read_fds);  
  29.           
  30.         ret = select(spider->blog->b_sockfd+1, &read_fds, NULL, NULL, &timeout);  
  31.         if (-1 == ret) {  
  32.             /*出错,直接返回错误*/  
  33.             #ifdef SPIDER_DEBUG  
  34.             fprintf(stderr, "select: %s\n", strerror(errno));  
  35.             #endif  
  36.             return -1;  
  37.         }  
  38.         else if (0 == ret) {  
  39.             /*超时, 继续轮询*/  
  40.             #ifdef SPIDER_DEBUG  
  41.             fprintf(stderr, "select timeout: %s\n", spider->blog->b_title);  
  42.             #endif  
  43.             goto fail_recv_response;  
  44.         }  
  45.           
  46.         /*接受到数据*/  
  47.         if (FD_ISSET(spider->blog->b_sockfd, &read_fds)) {  
  48.             end = 0;  
  49.             count = 0;  
  50.   
  51.             /*这里出错可能是文件名不规则,比如"3/5",'/'在Linux是代表目录*/  
  52.             fp = fopen(spider->blog->b_local_file, "w+");  
  53.             if (NULL == fp) {  
  54.                 goto fail_recv_response;  
  55.             }  
  56.   
  57.             spider->blog->b_download = BLOG_DOWNLOAD;  
  58.               
  59.             while (read(spider->blog->b_sockfd, recvbuf, 1) == 1) {  
  60.                 if(end< 4) {  
  61.                     if(recvbuf[0] == '\r' || recvbuf[0] == '\n')  {  
  62.                         end++;  
  63.                     }  
  64.                     else {  
  65.                         end = 0;  
  66.                     }  
  67.                     /*这里是http服务器反馈的消息头,若需要,则可以保存下来*/  
  68.                 }  
  69.                 else {  
  70.                     fputc(recvbuf[0], fp);  
  71.                     count++;  
  72.                     if (1024 == count) {  
  73.                         fflush(fp);  
  74.                     }  
  75.                 }  
  76.             }  
  77.               
  78.             fclose(fp);           
  79.             break;  
  80.         }  
  81.     }  
  82.       
  83.     return 0;  
  84.       
  85. fail_recv_response:  
  86.     spider->blog->b_download = BLOG_UNDOWNLOAD;  
  87.     return -1;  
  88. }  


五.获取优快云博客的URL,与博客的发表日期,阅读次数,评论次数,并添加进爬虫链表

[cpp]  view plain copy
  1. /***************************************************************** 
  2. 分析个人的博客主页, 获取所有文章的URL, 将博客信息添加到爬虫链表中. 
  3. *****************************************************************/  
  4. static int analyse_index(blog_spider *spider_head)  
  5. {  
  6.     FILE *fp;  
  7.     int ret;  
  8.     int len;  
  9.     int reads, comments;  
  10.     char *posA, *posB, *posC, *posD;  
  11.     char line[BUFSIZE*4]     = {0};  
  12.     char tmpbuf[BUFSIZE]     = {0};  
  13.     char tmpbuf2[BUFSIZE]    = {0};  
  14.     char page_file[BUFSIZE]  = {0};  
  15.     char url[BUFSIZE]        = {0};  
  16.     char title[BUFSIZE]      = {0};  
  17.     char date[BUFSIZE]       = {0};  
  18.   
  19.     fp = fopen(spider_head->blog->b_local_file, "r");  
  20.     if (fp == NULL) {  
  21.         #ifdef SPIDER_DEBUG  
  22.         fprintf(stderr, "fopen: %s\n", strerror(errno));  
  23.         #endif  
  24.         return -1;  
  25.     }  
  26.       
  27.     while (1) {  
  28.         if (feof(fp)) {  
  29.             break;  
  30.         }  
  31.   
  32.         /*查找博客*/  
  33.         while (fgets(line, sizeof(line), fp)) {  
  34.             posA = strstr(line, HTML_ARTICLE);  
  35.   
  36.             if (posA) {  
  37.                 /*查找博客网址*/  
  38.                 posA += strlen(HTML_ARTICLE) + strlen(BLOG_HREF);  
  39.                 posB = strchr(posA, '"');  
  40.                 *posB = 0;  
  41.                 memset(page_file, 0, sizeof(page_file));  
  42.                 memset(url, 0, sizeof(url));  
  43.                 strcpy(page_file, posA);  
  44.                 sprintf(url, "%s%s", 优快云_BLOG_URL, posA);  
  45.   
  46.                 /*查找博客标题*/  
  47.                 posB += 1;  
  48.                 posC = strstr(posB, BLOG_TITLE);  
  49.                 /*与博客地址处在同一行*/  
  50.                 posC += strlen(BLOG_TITLE);  
  51.                 posD = strstr(posC, "\">");  
  52.                 *posD = 0;  
  53.                 memset(title, 0, sizeof(title));  
  54.                 strcpy(title, posC);  
  55.   
  56.                 /*查找博客发表日期*/  
  57.                 while (fgets(line, sizeof(line), fp)) {  
  58.                     posA = strstr(line, BLOG_DATE);  
  59.                       
  60.                     if (posA) {  
  61.                         posA += strlen(BLOG_DATE);  
  62.                         posB = strstr(posA, BLOG_SPAN_END);  
  63.                         *posB = 0;  
  64.                         memset(date, 0, sizeof(date));  
  65.                         strcpy(date, posA);  
  66.                           
  67.                         break;  
  68.                     }  
  69.                 }  
  70.   
  71.                 /*查找博客阅读次数*/  
  72.                 while (fgets(line, sizeof(line), fp)) {  
  73.                     posA = strstr(line, BLOG_READ);  
  74.   
  75.                     if (posA) {  
  76.                         posA += strlen(BLOG_READ);  
  77.                         posB = strchr(posA, '(') + 1;  
  78.                         posC = strchr(posB, ')');  
  79.                         *posC = 0;  
  80.                         reads = atoi(posB);  
  81.                         break;  
  82.                     }  
  83.                 }  
  84.   
  85.                 /*查找博客评论次数*/  
  86.                 while (fgets(line, sizeof(line), fp)) {  
  87.                     posA = strstr(line, BLOG_COMMENT);  
  88.   
  89.                     if (posA) {  
  90.                         posA += strlen(BLOG_COMMENT);  
  91.                         posB = strchr(posA, '(') + 1;  
  92.                         posC = strchr(posB, ')');  
  93.                         *posC = 0;  
  94.                         comments = atoi(posB);  
  95.                         break;  
  96.                     }  
  97.                 }  
  98.   
  99.                 spider_head->blog->b_download = BLOG_DOWNLOAD;  
  100.   
  101.                 blog_spider *spider;  
  102.                 ret = init_spider(&spider);  
  103.                 if (ret < 0) {  
  104.                     return -1;  
  105.                 }  
  106.                   
  107.                 spider->blog->b_page_file   = strdup(page_file);  
  108.                 spider->blog->b_url         = strdup(url);  
  109.                 spider->blog->b_date        = strdup(date);  
  110.                 spider->blog->b_reads       = reads;  
  111.                 spider->blog->b_comments    = comments;  
  112.                 spider->blog->b_seq_num     = ++g_seq_num;  
  113.   
  114.                 memset(tmpbuf, 0, sizeof(tmpbuf));  
  115.                 sprintf(tmpbuf, "%d.%s", spider->blog->b_seq_num, title);  
  116.                 spider->blog->b_title = strdup(tmpbuf);  
  117.   
  118.                 memset(tmpbuf, 0, sizeof(tmpbuf));  
  119.                 memset(tmpbuf2, 0, sizeof(tmpbuf2));  
  120.                 strcpy(tmpbuf2, spider->blog->b_title);  
  121.                 strfchr(tmpbuf2);  
  122.                 sprintf(tmpbuf, "%s/%s.html", csdn_id, tmpbuf2);  
  123.                 spider->blog->b_local_file  = strdup(tmpbuf);  
  124.   
  125.                 /*将博客插入博客爬虫链表*/  
  126.                 insert_spider(spider_head, spider);  
  127.                 fputc('.', stdout);  
  128.             }  
  129.         }  
  130.     }  
  131.   
  132.     fclose(fp);  
  133.       
  134.     #ifdef SPIDER_DEBUG  
  135.     printf("\nspider size = %d\n", spider_size(spider_head));  
  136.     #endif  
  137.       
  138.     return 0;  
  139. }  


代码本身已经注释得很清楚了,看注释就够了。HTTP协议涉及到很多知识点,有空可以写写程序来练练手,blogspider效率上还是不够高,有空添加线程处理,同时下载多个博客,这样才能提高效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值