扒网页并且解析

本文介绍了一个使用Python编写的脚本,该脚本用于解析搜索引擎(如搜狗和百度)的首页,提取与问答和知道相关的链接。通过正则表达式匹配特定的HTML标签来定位这些链接,并将结果写入文件,同时输出查询结果的状态。

解析问答与百度的首页:

#!/usr/bin/python
#coding=utf-8


import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
    if maxline == 0:
        break
    query = line.strip();
    time.sleep(1);
    recall_url = "http://www.so.com/s?&q=" + query;
    response = urllib2.urlopen(recall_url);
    html = response.read();                                                                                                                                                                                                                 
    f1.write(html)
    m = wenda.search(html);
    if m:
        if m.group(1) == "110":
            print query + "\twenda\t0";
        else:
            print query + "\twenda\t1";
    else:
        print query + "\twenda\t0";
    recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
    response = urllib2.urlopen(recall_url);
    html = response.read();
    f2.write(html)
    m = baidu.search(html);
    if m:
        print query + "\tbaidu\t1";
    else:
        print query + "\tbaidu\t0";
    maxline = maxline - 1;
f1.close()
f2.close()


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值