人工智能就业怎么样？我用Python爬取关于人工智能的工作信息

最新推荐文章于 2024-04-22 15:11:02 发布

原创

最新推荐文章于 2024-04-22 15:11:02 发布 · 432 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #xpath #数据挖掘 #人工智能

本文通过Python爬虫技术分析51job上的人工智能职位信息，详细介绍了URL解析、HTML界面分析和爬虫代码实现过程，揭示了人工智能领域的就业现状。

微信公众号：DeepThinkerr
B站：DeepThinkerr

在微信公众号回复 “51job数据爬取” 获取Python代码源文件和数据结果
（本博客在《利用 Python 爬取了 13966 条运维招聘信息，我得出了哪些结论》启发下创作，目前只爬取了数据，没有进行数据清洗。

一、URL分析

51job搜索人工智能的网站：https://search.51job.com/list/000000,000000,7300,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

这URL看上去是不是吓死人，其中这里边大部分都是废话真正有用的部分很短，先上第一页和第二页的URL，对比分析。
在这里插入图片描述
了解URL的可以知道，第一页和第二页的URL的页面参数参数分别为1和2，在看整个URL过程中，注意出现1和2的位置。一边URL的页面参数会在后边列出关键词（例如：p=1 or page=1），但是这个URL比特殊，页面参数在前边，如下图所示。
在这里插入图片描述
可以看到，两个URL在红色方框里边分别对应1和2，可能是页面参数。对不对试试就知道了，将参数改为3，再输入浏览器。

这个时候就到了第三页，这个时候就找到了URL的页面参数，但是这个URL看上去太长了，尝试将html？后边去掉，在看浏览器页面。惊奇的发现两者是一样的，这样将后边的吊车尾去掉，看上去就舒服多了，最后在Python中URL为：