python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)

最新推荐文章于 2024-04-30 15:19:26 发布

原创

最新推荐文章于 2024-04-30 15:19:26 发布 · 2.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #招聘 #爬虫

老实说：懵逼啊

这次爬取的是智联招聘上的求职数据，虽然没有仔细正确核对一下数据是否具有重复性，随机抽查了些，数据大部分还是能对上来的，这次爬取的智联招聘上的数据90页，每页60条，主要抓取的是android开发工程的数据，

抓取的数据为全国的数据，先上张结果图吧，

这里写图片描述

如果是想看大图，可以选中图片，长按，移动到网页最上面的边上就可以了。

ide 部分
这里写图片描述

数据用了多线程的方式，这是第一次用，因为这次用了多线程，很多时间都花在怎么把数据存储到excel文件中，后面debug下了，还是不知道怎么存，以后再过来填这个坑吧，确实有点坑，是不是。这次本来用的xpath，第一次用的是直接在浏览器右键copy xpath路径就没事了，谁知，内存地址能搞出来，但就是搞不出文本来。很无奈啊

又改回beautifulsoup 这玩意了，说实话，东西不用了，确实用的也生疏起来，这也是为什么作为一个初学者需要进行多练习吧，这样才能记住东西，

可值得学习的亮点：

url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全国&kw=android&p={0}&kt=3'.format(page)
    print("第{0}页".format(page))

以后要多用这样子的形式，显出逼格来，难道不是吗？

这一块，beautifulsoup的强处吧？以后还是多用用这个方法

也贴出来

    job_name = soup.select("table.newlist > tr > td.zwmc > div > a")
    salarys = soup.select("table.newlist > tr > td.zwyx")
    locations = soup.select("table.newlist > tr > td.gzdd")
    times = soup.select("table.newlist > tr > td.gxsj > span")
    print('times  '+str(times))
    for name, salary, location, time in zip(job_name, salarys, locations, times):
        data = {
            'name': name.get_text(),
            'salary': salary.get_text(),
            'location': location.get_text(),
            'time': time.get_text(),
        }
        print(data)

最后就是多进程的地方了，python这玩意，确实，没几行代码，能搞出这么多事情

    pool = Pool(processes=6)
    pool.map_async(get_zhaopin, range(1, 91))
   # wb.save('智联招聘android' + '.xlsx')
    pool.close()
    pool.join()

最后贴出完整代码吧，运行环境pycharm2017

最低0.47元/天解锁文章