- 博客(26)
- 收藏
- 关注
原创 爬虫必备知识点---正则表达式---11.py
注意:re.match("pattern","string","flags" ) 这里的flags为python中的编译标注位,用于修改正则表达式的匹配方式。多数字、字母和符号会简单地匹配自身,但规则有例外,有些字符是特殊的,并不匹配自身。()分组、\num ,\1 或者\\1 需要转义字符帮助,还有就是1代表的是第一个分组,输出第一个分组print(re_match.group(1))的内容。匹配操作 re.match() 从字符串的开始进行匹配,如果开始部分匹配成功就返回匹配对象,否则返回None。
2024-09-19 21:32:18
1011
原创 python环境变量在虚拟环境的应用
1.前面我们知道,虚拟环境是在我们的C,D盘创建一个个文件,除了前面介绍的手动,现在可以使用程序完成前面相同的问题。2.环境变量的理解:系统运行程序时,没告诉它完整路径,就会先在当前目录找,找不到就去环境变量里 path 指定的路径找。所以咱们通过设置环境变量,能让你运行的程序找到正确的路径并正确的运行。3.新创建一个环境变量可以将所以的虚拟环境路径都在该环境变量路径下存在。4.方法:创建虚拟环境(该图片来源于网络)
2024-08-31 23:24:19
396
原创 pycharm如何创建虚拟环境
3.下面的pythonProject,pythonProject1,pythonProject2,都是虚拟环境创建的位置。4.这三个文件下所有的第三方库互不干扰,并且可以删除,不占空间。1.打开pycharm,打开文件,打开设置。2.打开项目,点开解释器,可创建在不同位置。
2024-08-31 22:58:16
470
原创 Python基础的精简版本---手把手教会你入门---07变量.py
运行过程中,解释器先运行右边的表达式,生成一个代表表达式运算结果的对象;然后,将这个对象地址赋值给左边的变量。a是变量,1是对象,变量储存在栈中,对象储存在堆中。最简单的表达式就是字面量。
2024-08-21 22:03:18
104
原创 Python基础的精简版本---手把手教会你入门---06标识符规则(取名规范).py
首字母大写,采用驼峰原则。多个单词时,每个单词第一个字母大写,其余部分小写。全小写字母,尽量简单。若多个单词之间用下划线。全小写字母,多个单词之间用下划线隔开。全大写字母,多个单词使用下划线隔开。
2024-08-21 21:51:42
181
原创 Python基础的精简版本---手把手教会你入门---05对象的基本组成和内存示意图.py
内存示意图---栈和堆来解释对象。对象的基本组成和内存示意图。
2024-08-21 21:08:13
131
原创 Python基础的精简版本---手把手教会你入门---04使用\行连接符.py
可以使用\行连接符,把它放在行结束的地方。Python解释器仍然将它们解释为同一行。一行程序长度是没有限制的,但是为了可读性更强,通常将一行比较长的程序分为多行。
2024-08-21 20:23:15
242
原创 Python基础的精简版本---手把手教会你入门---01/02/03缩进注释.py
然后忽略他们之间的内容。(Python中单引号和双引号都是意义一样,但是必须是英文符号!一、第一次的Python程序。四、Python小技巧。
2024-08-21 19:59:54
185
原创 python爬虫工程师--手把手教会你--10urllib的底层实现原理.py
在前面,我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,timeout。前面我们也说到为什么要使用build_opener,因为urllib的功能单一,如果我们想要实现其他功能,此时就需要使用Handler。上面是简单的urllib的实现原理,大家可以直接店看看(右键+Ctrl)我用的VScode!如果我们需要用到Cookie,只用这个opener是不能达到目的的,所以我们需要。
2024-04-27 23:19:32
329
原创 python爬虫工程师--手把手教会你--09随机生成User-Agent.py
多次用同一个User-Agent访问,对方后台可能会监控!有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作。因为咱们每次手动去自己的浏览器获取user-agent,咱们看看可不可以随机生成一个。拷贝fake-useragent_version.json 的配置文件到用户目录。在创建对象时,可能创建不了,多部分原因为服务器访问不到的原因。
2024-04-26 12:07:45
725
1
原创 python爬虫工程师--手把手教会你--08请求SSL证书验证.py
一旦获得证书,网站管理员就可以将其安装到服务器上,以启用HTTPS协议,从而使网站可以使用安全连接。当用户访问一个使用SSL证书保护的网站时,浏览器会与服务器进行握手,交换密钥,并确保所连接的服务器的身份。如果服务器的身份验证成功,浏览器将与服务器建立加密连接,所有在这个连接上传输的数据都会被加密,保证数据的机密性。SSL证书可以保护网站和应用程序的安全性,它们通过在客户端和服务器之间建立安全连接,防止第三方窃听、篡改或伪装攻击。SSL证书有免费的和收费的,本文主要介绍如何申请免费SSL证书。
2024-04-26 11:37:54
394
1
原创 python爬虫工程师--手把手教会你--07获取动态页面.py
有些网页内容使用AJAX加载,而AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了。有时在访问了请求后,并不能获取想要的数据。很大的原因之一就是,当前的页面是动态的。直接用最下面的url访问咱们需要的数据即可。最粗暴的方法就是无限加载页面。同一个页面有两个url;动态页面(AJAX)
2024-04-23 10:30:37
168
原创 python爬虫工程师--手把手教会你--06发送post请求.py
POST请求的参数需要放到Request请求对象中,data是一个字典,里面要匹配键值对,并且在data=data里面,得是byte类型,就是把字典转码。在目前网络获取数据的方式有多种方式:POST。浏览器里面获取数据的方式是get请求。
2024-04-23 09:46:49
191
原创 python爬虫工程师--手把手教会你--05简单抓取页面哔哩哔哩实例.py
time.sleep --------我认为是最简单的反爬手段。使用别的网站也可以写函数测试,因为网站随时有可能会变。如何分析URL地址与构造URL参数的思路。
2024-04-21 23:09:05
278
1
原创 python爬虫工程师--手把手教会你--04发送get请求.py
大部分被传输到浏览器的html,images,js,css, …都是通过GET方法发出请求的。它是获取数据的主要方法。Get请求的参数都是在Url中体现的,如果有中文,需要转码,这时我们可使用。方法三:urllib.parse.urlencode() 转换键值对。方法二:urllib.parse. quote() 转换一个值。方法一:直接去浏览器里面复制,粘贴过来的汉字内容自动会转码。在目前网络获取数据的方式有多种方式:GET方式。
2024-04-21 22:04:48
204
1
原创 python爬虫工程师--手把手教会你--03用Request发送请求.py
首先,强调一点,resp = urlopen(url) 没有请求头User-agent相关参数,而Request里面有该参数,改变咱们的User-agent,否则访问地址时对面显示的就是python程序访问,会被截胡,不让咱们访问。使用urllib.request.urlopen发送请求时,可以将参数封装到一个Request对象中。User_agent的寻找方法!
2024-04-04 19:09:37
211
1
原创 python爬虫工程师--手把手教会你--02简单参数的认识.py
【代码】python爬虫工程师--手把手教会你--02简单参数的认识.py。
2024-04-04 18:35:01
778
1
原创 VScode创建虚拟环境---conda篇
VScode创建虚拟环境---conda篇。菜单--查看--命令面板--选择解释器。5.打开VScode直接进入。1.创建虚拟环境,终端运行。
2024-04-03 17:48:01
2006
2
原创 自动化办公第一个脚本(Excel统计数据)xlrd and copy
有一个可以汇总的表格---->在表格基础上先复制一份文件---->数据填写,汇总笔记,并且在写一个sheet,叫价钱汇总表格---->保存文件。版本问题 :pip uninstall xlrd,pip install xlrd==1.2.0。(1)自制一个简单表格。
2023-10-11 19:51:22
197
原创 python自动化办公用xlutils对文件的copy,实现文件
4,总结,在操作过程中,遇到typeerror,数字 相加,即count += int(n),知道步骤,cope()1,知道目的,读表格,并且增加数据等操作。此时,咱们不能在原表格修改内容,在创建一个新表格,写入内容。2,用到xlrd(前面我有写到),和xlutils.copy.copy(workbook)的方法。
2023-09-29 14:43:13
305
1
原创 办公室办公xlrd的使用
2,知道处理表格的属性与方法(可在后续的代码中见到)4,总结,打开表格,找到工作薄,操作单元格。1,明确目的,搭好框架。
2023-09-29 13:17:35
159
1
原创 python办公自动化学习
答:#encoding='utf-8',百度很多答案都是这个,但是我并没有解决,而是先cope一份代码,重新打开文件夹,直接将编码改成UTF-8,OK,运行成功。2.遇到问题及时解决,我用VScode的时候,打开文件夹,编码是gb2312(左下方),导致最终运行错误。1.明确目标,做什么(简单创建一个表格!)思考框架,找到用那个库那些函数。
2023-09-28 16:32:18
99
原创 python解决文件打不开的问题(“命运.txt“)UnicodeDecodeError: ‘utf-8‘ codec can‘t decode.
当时我没加encoding,运行报错啦!后来我在计算机二级考级书上看到了一个encoding='utf-8',我就思考,加utf-8可不可以。试了一下,答案是不可以的。2.加上encoding='gb2312'运行成功啦!
2023-09-17 16:28:12
314
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人