python爬虫爬保研论坛

最新推荐文章于 2024-04-26 15:26:03 发布

ppnn13

最新推荐文章于 2024-04-26 15:26:03 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： python学习文章标签： python 爬虫正则论坛

本文链接：https://blog.youkuaiyun.com/ppnn13/article/details/16114691

python学习专栏收录该内容

2 篇文章

订阅专栏

博主在使用Python进行网络爬虫时遇到挑战，目标是抓取保研论坛的帖子标题和内容，但发现论坛未直接显示内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#EE论坛爬虫#by JerryFang
#2013.11.13

import re
import urllib2
import urllib
import cookielib

def visitpage(url):
    nr = urllib2.urlopen(url).read().decode('gbk')
    print nr
    z = re.compile('''<a href=.*?class="xi2">(.*?)</a>
''', re.S|re.MULTILINE)
    t = re.compile('''<em id=".*?">(.*?)</em>
''', re.S|re.MULTILINE)
    c = re.compile(ur'''<table.*?>(.*?)</table>

''', re.DOTALL|re.MULTILINE)

##    author = z.findall(nr)
##    time = t.findall(nr)
    cont = c.findall(nr)

##    print author
##    print time
    print cont
    raw_input('press any key')

loginurl = 'http://www.eeban.com/member.php?mod=logging&action=login&loginsubmit=yes&infloat=yes&lssubmit=yes&inajax=1'

# cookie
cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
    
# Login登录POST包中获得
user_data = {'username':'nku-ada',
             'password':'1986a7da84fc50b4c0140b1124b968d5',
             'quickforward':'yes',
             'handlekey':'ls'
            }
url_data = urllib.urlencode(user_data)

req = urllib2.Request(
                      url = loginurl,
                      data = url_data
                     )
#登录动作
res = opener.open(req)
print 'Login Done!'
#打开
res = opener.open('http://www.eeban.com/forum.php?mod=forumdisplay&fid=137')
print 'Prepare load content'
cont = res.read().decode('gbk')
print 'Load content'

#找内容
b = re.compile(ur'''<th.*?>(.+?)</th>''', re.DOTALL|re.MULTILINE)
c = re.compile(ur'''<em>.*?</em>.*?<a href="(.*?)".*?>(.*?)</a>''', re.DOTALL|re.MULTILINE)
res = b.findall(cont)
for i in res:
    subres = c.findall(i)
    for j in subres:
        print j[1]
        visitpage(j[0])

这里有个问题，我在趴一个标题连接内容的时候，论坛是不给我显示的。