
Python
文章平均质量分 54
冻冰粉星
梧高凤至,花香蝶来。
展开
-
python连接mongodb报错的一个小问题
其实这个问题很简单,就是在写uri的时候把账号密码弄上去就可以了。之所以在自己电脑上没问题,是因为,你自己装的windows版本mongodb本身都是各种默认配置,又是在本机操作,基本上都不需要输入账号去验证。如果是连接远程的比如docker中的mongodb的话,就得需要身份验证了。原创 2024-07-30 16:36:48 · 516 阅读 · 0 评论 -
网络爬虫之基于前面爬取百度图片代码的修改的总结
关于bug这没啥好说的,程序员写代码怎么可能没有bug?有则改之,无则加勉嘛…但是有些bug,真是让人头疼,就比如我之前的一篇文章爬取百度图片,想爬谁就爬谁,这篇文章的代码其实也没什么问题,问题就出在返回的数据有问题,那怎么办,当bug改呗。遇到事情不要慌,先把心情平静下来,然后再思考程序员写bug这是常有的事,要有一颗平常心,罗马也不是一天建成的不是…原创 2024-07-19 14:02:22 · 689 阅读 · 0 评论 -
爬取百度图片,想爬谁就爬谁
既然是做爬虫,那么肯定就会有一些小心思,比如很久很久以前的梦中女/男神早已不见踪影,那咱就去爬一爬她/他的图片吧。因为是循环爬取,所以url肯定是动态的,也就是改一下pn的值,查询的人物的名称,保证通用性。而且发现单纯的请求返回的数据不正常,这个时候我们就得加上headers了,这个没办法,百度肯定会有一些防御性的措施来防止爬虫捣乱。# 需要发送请求return url。原创 2024-07-18 20:18:19 · 1845 阅读 · 1 评论 -
网络请求之cookie的使用
首先我们要清楚网络请求是无状态的,也就是说请求响应一次就结束了,下一次再去请求,服务器根本不知道这次和上次请求是不是同一个来源,所以呢,cookie就诞生了,就是服务器在接收请求之后,会创建cookie,响应的时候将cookie发送给客户端,下次如果客户端发送请求的时候把cookie中的信息一起发送给服务端,那服务端就会确定这次和上次请求是同一个客户端发起的。原创 2024-07-17 21:00:00 · 767 阅读 · 0 评论 -
网络请求之代理proxy
这个就涉及到安全问题了,你要是用一个IP频繁的访问人家网站,这不就是在搞事情么,人家网站肯定得把你的IP禁掉。所以我们爬虫的时候就得经常换IP,就是拿别人的IP不同人的IP访问网站去爬取数据。这里用到了urllib.request的ProxyHandler对象,不多说,上代码。我们去找一个免费IP拿来用,我这百度搜了一下。查看结果还可以,这个能用,返回数据正常。我们随便找一个IP试试。原创 2024-07-17 20:30:00 · 308 阅读 · 0 评论 -
网络请求之urllib.request的使用(Get方式)
urllib.request用于打开和读取url,模拟浏览器发送一个http请求,并获取响应结果。原创 2024-07-16 23:20:29 · 405 阅读 · 0 评论 -
网络请求之urllib.parse的使用
后面的参数:word=%E6%A8%B1%E7%94%B1%E7%BD%97 明显是汉字被编码了,因为爬虫就是要模拟浏览器发送请求给服务器,所以爬数据的时候就得根据url的实际情况进行编码,这就是urllib.parse的意义。为什么要解析呢,我来举个例子。urllib.parse的作用是解析url。原创 2024-07-16 22:01:51 · 292 阅读 · 0 评论