说明:一个简单的静态网站爬虫
目的:爬取湖北省武汉市所有二居室二手房信息并保存至桌面
特点:request、beautifulsoup、json的基本使用,多进程和多线程爬取
适用:适合初学者的小项目
获取源代码或更好的修改建议请转至https://github.com/oubahe/WuhanReptile
玩玩爬取武汉链家二手房两房信息
import requests
import bs4
import json
from multiprocessing import Pool
from multiprocessing import Process
import threading
def get_url():
url=[]
url1=’https://wh.lianjia.com/ershoufang/l2/’
url.append(url1)
page=[x for x in range(2,101)]
for i in page:
url.append(‘https://wh.lianjia.com/ershoufang/pg‘+str(i)+’l2/’)
return url
获取信息
def get_infor(url):
response = requests.get(url)
soup=bs4.BeautifulSoup(response.text,’lxml’)
##地址和房源名称信息
titles=soup.select(‘bod