爬取安居客上的优质业务员信息

coding=utf-8

import urllib2
import urllib
import re

f = open(‘D:/python1/renwu.txt’,“a”,)
from bs4 import BeautifulSoup
for i in range(1,5):
url = ‘https://beijing.anjuke.com/tycoon/p’+str(i)+’/
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
headers = {‘User-Agent’:user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode(‘utf-8’)
soup = BeautifulSoup(content,‘html.parser’)
title = soup.find_all(‘div’,class_=‘jjr-itemmod’)
for a in title:
part1 = a.find(‘div’,class_=‘jjr-info’).get_text(’’,strip=True).encode(‘utf-8’).replace(‘’,’’)
part2 = part1.replace(’ ‘,’’)
part3 = part2.replace(’/n’,’’)
print part3
f.write(part3+’\n’)
学习总结:
1.在这个任务中学习到了一个新的模块bs4,这个模块在查找信息时比re模块更方便,更快捷

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值