
爬虫
狮子座的程序员
不积跬步无以至千里,不积小流无以成江海
展开
-
Python爬虫——爬取近3个月绵阳市降水量数据源
😽爬取近3个月绵阳市的降水量数据,并存储在文档中。利用和爬虫技术获取数据,利用把数据存储到文档中。⚠️示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。😿打开中国天气网的数据,发现只有40天的选项里能更全面的显示降水量,但是只能显示一个月的,我需要找到其他月份的数据😹发现这边可以选择月份,初步认为当我选择月份的时候,会触发某些函数事件而返回数据。打开开发者工具,准备查看网络数据。👺点击其他月份,出现了几个html的网络数据,点击Preview查看发现是具体的天气...原创 2022-06-24 15:05:47 · 2068 阅读 · 1 评论 -
Python爬虫——爬取上海15天天气高低温度
🚤想获取近15天上海天气数据,并绘制成折线图,用爬虫的和来解决数据获取的需求,来解决绘制折线图的需求。⚠️🚣目标是获取上海这个城市15天内的天气高低温数据,并绘制成折线图⚓️数据采用服务器渲染模式,天气温度数据直接在html页面中包裹,可以利用xpath或者re进行定位获取数据。但是7天内和8-15天数据两个不同的页面,所以需要爬取两次数据结果🚔程序运行的输出如下🚒输出的折线图如下爬虫的基本步骤:1.检查有没有反爬,设置常规反反爬,和都是最常见的反爬手段2.利用和技术进行定位,定位后获取...原创 2022-06-24 14:53:07 · 2215 阅读 · 1 评论 -
Python爬虫——爬取古诗词
🌸当你喜欢哪个诗人,想获取他的全部诗词数据的时候,可以通过爬虫来解决这个问题,用爬虫把诗词全部爬下来,然后存到txt文档中,打印出来背诵,岂不美哉。 🐟我们要爬取这个诗人的全部诗词和他的个人简介🐽先在该页面中获取诗人信息,但是该页面难以获取全部诗词内容,那么在该页面中先获取到诗词详细的,根据诗词详情页的再继续深一层爬取详情页信息,进而获取诗词内容代码如下(示例):结果🐡下面是程序运行的输出🐂下面是我们保存到txt文件的内容爬虫的基本步骤:1.检查有没有反爬,设置常规反反爬,和都是最常见的反...原创 2022-06-24 14:32:05 · 4368 阅读 · 0 评论 -
Python爬虫——爬取某网站新闻
🙉随机找了个网站爬爬,我们的目标是1.利用爬虫的re、xpath等知识,爬取到这个官网上的新闻,内容有:新闻标题, 发布时间, 新闻链接, 阅读次数, 新闻来源五个属性。2.把我们爬到的数据放到一个csv的文件中!那么我们下面开始!🌝🌎我们的目标是爬取这个https://www.cqwu.edu.cn/channel_23133_0310.html网址的新闻数据结果🌗下面是我们程序运行的输出过程🌖这个是程序把数据存储到csv文件的文档爬虫的基本步骤:1.检查有没有反爬,设置常规反...原创 2022-06-24 14:15:20 · 16187 阅读 · 13 评论 -
Python爬虫——列表信息写入到csv文件
➡️当我们在爬虫的时候,是否有以下需求?需要把爬取的数据列表存储到一个csv文件中呢?那么步骤如下⬇️代码如下(示例):2.读入数据与写入🚩下方的的是代码前面获取到的代码如下(示例):总结🚀结果如下这样,我们的数据就存储成功啦总结:需要一个列表的数据字典,利用直接可以把列表信息输出到格式的文件中啦...原创 2022-06-24 13:55:48 · 5806 阅读 · 0 评论 -
File “src\lxml\etree.pyx“, line 3536, in lxml.etree.parse
错误Traceback (most recent call last):File “XPath入门.py”, line 3, in tree = etree.parse(“baidu.html”)File “src\lxml\etree.pyx”, line 3536, in lxml.etree.parseFile “src\lxml\parser.pxi”, line 1876, in lxml.etree._parseDocumentFile “src\lxml\parser.pxi”,原创 2022-05-31 11:52:03 · 2511 阅读 · 0 评论 -
InsecureRequestWarning: Unverified HTTPS request is being made to host
C:\Users\Lenovo\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\connectionpool.py:1043: InsecureRequestWarning: Unverified HTTPS request is being made to host ‘www.dytt89.com’. Adding certificate verification is strongly advised. See: ht原创 2022-05-29 21:24:33 · 1421 阅读 · 0 评论