使用python开发简单的贴吧爬虫代码及python ide问题

本文介绍了一个简单的贴吧爬虫代码实现,并分享了在不同IDE中遇到的问题及解决方案,如sublime2对raw_input()的支持问题和Eclipse PyDev中的API兼容性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贴吧例子代码来源于csdn网站,感谢作者技术分享,受益匪浅。

#encoding=utf8
import string, urllib2

def baidu_tieba(url, begin_page, end_page):
for i in range(begin_page,end_page+1):
sName = string.zfill(i,5)+'.html'
print '正在下载'+str(i)+ '个网页'
f = open('data/'+sName,'w+')
m = urllib2.urlopen(url+str(i)).read()
f.write(m)
f.close()

# bdulr = 'http://tieba.baidu.com/p/2296017831?pn='
bdulr = 'http://tieba.baidu.com/p/2494746884?pn='

begin_page = 1
end_page = 10

# bdulr = str(input(u'please input url:\r\n'))

# begin_page = int(input(u'input start pagenum'))
# end_page = int(input(u'end page num'))

baidu_tieba(bdulr,begin_page,end_page)



碰到的一个问题就是:
sublime2, 对raw_input()的总是提示:error, 貌似没有好的解决办法
然后使用eclipse, pydev, 但是很多时候api不支持,总是提示出错,比如

 
from twisted.internet.protocol import Protocol,Factory
from twisted.internet import reactor


class Echo(Protocol):

def dataReceived(self, data):
self.transport.write('hello: {}'.format(data))

class EchoFactory(protocol.Factory):
def buildProtocal(self,addr):
return Echo()

def connectionLost(self, reason):
print 'connect lost',reason


def main():
f = Factory()
f.protocol = Echo
reactor.listenTCP(8000,f) #语法提示错误,不影响执行
reactor.run()

if __name__ == '__main__':
main()


另外一种情况就是编译出错,比如

import binascii
import socket
import struct
import sys

#create a TCP/IP socket
# sock = socket.socket(socket.AF_INET6,socket.SOCK_STREAM)
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

server_addr = ('',10000)
sock.bind(server_addr)
sock.listen(10)

unpacker = struct.Struct('I 2s f')

while True:
print >>sys.stderr , '\n waiting for a client'
conn, client_addr = sock.accept()

try:
data = conn.recv(unpacker.size())

unpacked_data = unpacker.unpack(data)

finally:
conn.close()

报错信息如下:
Traceback (most recent call last):
File "/Users/chenxu/work/python/pythontutorial/src/socket/server.py", line 14, in <module>
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
AttributeError: 'module' object has no attribute 'socket'

但是上面的代码使用sublime可以运行。

综合的办法就是
1. 使用eclipse, pydev来编写代码,这个ide有强大的代码补全功能,对于不熟悉python语法的人来说是福音
2. 使用sublime来运行代码,Command+b 运行快捷键
人生不如意,十有八九。
接受不能改变的事情吧。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值