老实说:懵逼啊
这次爬取的是智联招聘上的求职数据,虽然没有仔细正确核对一下数据是否具有重复性,随机抽查了些,数据大部分还是能对上来的,这次爬取的智联招聘上的数据90页,每页60条,主要抓取的是android开发工程的数据,
抓取的数据为全国的数据,先上张结果图吧,
如果是想看大图,可以选中图片,长按,移动到网页最上面的边上就可以了。
ide 部分
数据用了多线程的方式,这是第一次用,因为这次用了多线程,很多时间都花在怎么把数据存储到excel文件中,后面debug下了,还是不知道怎么存,以后再过来填这个坑吧,确实有点坑,是不是。这次本来用的xpath,第一次用的是直接在浏览器右键copy xpath路径就没事了,谁知,内存地址能搞出来,但就是搞不出文本来。很无奈啊
又改回beautifulsoup 这玩意了,说实话,东西不用了,确实用的也生疏起来,这也是为什么作为一个初学者需要进行多练习吧,这样才能记住东西,
可值得学习的亮点:
url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全国&kw=android&p={0}&kt=3'.format(page)
print("第{0}页".format(page))
以后要多用这样子的形式,显出逼格来,难道不是吗?
这一块,beautifulsoup的强处吧?以后还是多用用这个方法
也贴出来
job_name = soup.select("table.newlist > tr > td.zwmc > div > a")
salarys = soup.select("table.newlist > tr > td.zwyx")
locations = soup.select("table.newlist > tr > td.gzdd")
times = soup.select("table.newlist > tr > td.gxsj > span")
print('times '+str(times))
for name, salary, location, time in zip(job_name, salarys, locations, times):
data = {
'name': name.get_text(),
'salary': salary.get_text(),
'location': location.get_text(),
'time': time.get_text(),
}
print(data)
最后就是多进程的地方了,python这玩意,确实,没几行代码,能搞出这么多事情
pool = Pool(processes=6)
pool.map_async(get_zhaopin, range(1, 91))
# wb.save('智联招聘android' + '.xlsx')
pool.close()
pool.join()
最后贴出完整代码吧,运行环境pycharm2017

最低0.47元/天 解锁文章
2288

被折叠的 条评论
为什么被折叠?



