
Python爬虫技术
文章平均质量分 77
通过视频学习及自我总结的笔记
熊凯瑞
始终保持对代码的那份单纯的热爱,保持对技术的专注和钻研,对广袤知识的敬畏与追求。
展开
-
Selenium技术在CentOS6.8系统的腾讯云服务器上的docker镜像的CentOS7容器里的相关使用(Linux环境下)
python所需要的第三方库的名字都在requirements.txt里,避免第三方库的版本不匹配(此外得先通过xftp将requirements.txt上传到服务器里挂载的地方,进入到该挂载的文件夹里,然后执行该命令,不然是不起作用的)有时候可能需要在CentOS6.8通过docker来创建CentOS7的容器来测试Selenium技术的相关应用,以下就是我探索成功的内容。最后就大功告成了,可以自己去测一下。原创 2023-05-16 20:11:34 · 778 阅读 · 0 评论 -
Selenium技术在CentOS6.8系统的腾讯云服务器上的相关使用(Linux环境下)
如果想直接在CentOS6.8环境下使用Selenium的话,一般而言服务器上都有python,还是比较方便的。2、查看谷歌浏览器的版本3、下载对应版本的谷歌驱动(或者本地上传)4、解压下载的文件5、移动下载文件6、给予文件执行权限7、更新pip3到最高版本8、下载Selenium第三方库一般而言,服务器上有两个python,一种是Python3.x,还有一种是Python2.x,多数情况下,下载Selenium这个第三方库用的都是Python3.x我一般不太喜欢单个下载,不原创 2023-05-10 15:26:53 · 1350 阅读 · 0 评论 -
Selenium技术在CentOS6.8系统的腾讯云服务器上的docker镜像的Ubuntu容器里的相关使用(Linux环境下)
一开始看标题,我知道你们会很懵,我当初完成的时候,我自己也很懵,主要是想在Linux环境下使用Selenium技术来完成一些工作,本来打算用docker创建一个Anaconda的容器来用Selenium技术的,但发现无法通过chrome驱动来驱动谷歌浏览器,所以我又用docker创建了一个Ubuntu容器来使用Selenium技术,至于为什么我不直接使用CentOS系统来使用,主要是原生环境的第三方库不配合自己的代码,实在是木有办法,而且也担心会干扰其它东西,所以还是在容器里搞吧。原创 2023-05-06 18:51:12 · 1125 阅读 · 0 评论 -
Python如何远程连接设置密码的MongoDB库
我之前用Python连接本机的数据库时,非常容易,一下子就连上了,但连接远程库的时候,就很无语了,由于设置了密码,所以一直连接不上,报错,一度怀疑代码是不是错了。又找了很多的办法,都没成功,但现在终于解决了,话不多说,直接上代码。原创 2022-10-29 15:06:06 · 1979 阅读 · 0 评论 -
Python爬虫技术之cfscrape库的相关知识(绕过5秒机器人检测)
cfscrape准确来说是用来绕过机器人协议及检测的,有些网站会在机器人协议里表明哪些网址可以爬,哪些不能爬,当然作为君子协议,本身是没有太大约束的,但是对于新手而言,却十分痛苦,因为协议的原因,导致网站不能正常爬取,所以就发现了一个宝藏模块cfscrape,当然就算绕过机器人协议,后续也会遇到更多的反爬手段,因为一般网站不会详细设置机器人协议的,如果设置了,大概率会增加很多反爬措施,不然没理由就设置个机器人协议,咳咳咳,懂得都懂。当然现在仅此讲cfscrape库。...原创 2022-07-15 10:31:28 · 3720 阅读 · 0 评论 -
Python爬虫技术之Selenium自动化测试及模拟点击页面爬虫最全知识
Selenium是一套Web网站的程序自动化操作解决方案(比如点击界面按钮,在文本框中输入文字等操作)Selenium的自动化原理如下3.2 下载谷歌浏览器Chrome对应的驱动驱动库网址:http://chromedriver.storage.googleapis.com/index.html注意:根据自己的Chrome版本进行选择由于我的是103版的,那么就选103版的驱动进行下载,只要版本(比如开头的103)一样,后面的数字比如0.5060.114啥的不会造成什么影响。...原创 2022-07-14 10:52:15 · 9796 阅读 · 3 评论 -
Python爬虫技术之基础文件操作
使用open函数,可以打开一个已经存在的文件,或者创建一个新文件 open(文件名,访问模式)1.2 常用访问模式r 以只读方式打开文件。文件指针将会放在文件的开头。(默认模式)w 打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。rb 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。wb 以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果文件不存在,创建新文件。1.2.1 只读只读模式一开始在开头,之原创 2022-07-11 10:07:18 · 938 阅读 · 0 评论 -
Python爬虫技术之Beautiful Soup相关最全详细技术
关于Python爬虫技术相关的知识,也就是beautiful Soup技术原创 2022-07-05 14:02:09 · 819 阅读 · 0 评论