python
西瓜小侠
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python进程
多进程与多线程的区别多进程(Process)advantage:可以利用多核CPU并行计算disadvantage:占用资源最多,可启动数目比线程少使用:CPU密集型计算多线程(threading)ad: 更加轻量级,占用资源少disad: 相比进程:多线程只能并发执行,不能利用多cpu相比协程:启动数目有限制,占用内存资源,有线程切换开销使用:IO密集型计算,同时运行的任务数目要求不多python速度慢的原因1.python是动态类型,边解释,边执行2.GIL使其无法利用多核CPU原创 2022-04-06 10:32:51 · 259 阅读 · 0 评论 -
python写csv时,writerow和writerows的区别
在与zip(csvrow1, csvrow2…)结合使用时,writerrow是一行只写一个单元格(写单值),而writerrowsz则可写多个单元格,即写多值原创 2021-12-24 15:48:28 · 1408 阅读 · 0 评论 -
numpy数组切片
1.为什么使用numpy,比起列表来说numpy好在哪里答:使用numpy是为了方便向量和矩阵的处理,通过Numpy,可以轻松进行线性代数表达式的计算,使表达式,所见即所得。原创 2021-11-12 19:39:01 · 1387 阅读 · 0 评论 -
python-查漏补缺
由于从未系统学过python的相关知识,故今天将之前遗漏的部分内容,稍作补充1.函数部分1.字符串处理去末尾空格 s.rstrip()去头空格 s.lstrip()去首尾空格 s.strip()首字母大写 s.title()2.乘方计算 用**表示如3**2 94**3 642.列表name=['jian','xu','hao','miao','bin','zhen...原创 2020-02-28 20:10:35 · 275 阅读 · 0 评论 -
python 爬虫小结
这两天又跟着网课做了爬虫的几个项目,却总是遇到一些令人苦笑不得的问题,导致一天下来收获廖廖,看来这种速成式的教育方法不太适合我,学习爬虫必须得去了解其所以然,计算机知识的时效性,在它上面体现的淋漓尽致,有的网站今天可以爬,可过几天,网站一改版,再去套用原来的代码,肯定不行。所以,只有把基础的知识理解透彻,才能随着时间的推移,及时调整自己的策略;看来我得去回炉重造了总结以一下,这几天学习的内容1...原创 2020-02-23 11:31:33 · 208 阅读 · 0 评论 -
Scrapy-模拟登录(简单无需验证码登录)
注:由于没有找到不需验证码登录的网站,所以本文代码均为经过验证,仅作了解原理之用1.使用 cmd 命令行创建项目scrapy startproject almostscrapy genspider basic baidu.com2.分析登录网页,使用flider,提取登录格式得到登录url:https://passport.baidu.com/v2/api/?login与提交表单格式...原创 2020-02-19 11:51:39 · 864 阅读 · 0 评论 -
scrapy基础-当当网爬取
本文使用工具:cmd pycharm phpstudy/mysql命令行Xpath表达式Xpath与正则简单对比1.Xpath表达式效率更高2.正则表达式功能更强大3.一般优先选择Xpath,解决不了再用正则Xpath提取规则/ 逐层提取text()提取标签下的文本/html/head/title/text()3.//标签名** :提取所有名为的标签4.//标签名[...原创 2020-02-18 15:59:55 · 510 阅读 · 0 评论 -
scrapy常见命令(待续)
scrapy的命令分为全局命令和局部命令,顾名思义,全局命令在任何位置均可使用,而局部命令只能在某项目内使用下面是一些命令的使用方法scrapy -h1.获取帮助scrapy fetch http://www.baidu.com2.爬取某一URLscrapy shell http://www.baidu.comexit()3.采用交互式爬取某一url,exit退出scra...原创 2020-02-17 17:13:00 · 236 阅读 · 0 评论 -
抓取腾讯视频评论
应用技术:浏览器伪装,抓包分析,正则提取import urllib.requestimport reimport random#https://video.coral.qq.com/varticle/[视频id] /comment/v2?callback=_varticle4563082514commentv2&orinum=[评论条数]&oriorder=o&pa...原创 2020-02-16 12:34:27 · 325 阅读 · 0 评论 -
python-代理池
概念将不同的用户代理,构建成一个池子,然后随机调用原创 2020-02-14 15:28:40 · 257 阅读 · 0 评论 -
python—urllib模块
基础urlopen:打开网页,不再赘述urlretrieve(网址,本地文件存储地址) 直接下载网页到本地urllib.request.urlretrieve("http://www.sdust.edu.cn/","D:/python/mj/fr.html")注意:格式应为htmlurlcleanup() 清除缓存urllib.request.urlcleanup()info ...原创 2020-02-13 10:24:20 · 161 阅读 · 0 评论 -
python—正则表达式
正则表达式: 一种用来提取有用信息的表达式原子:原子是正则表达式的基本组成单位,每个正则表达式至少含有一个原子。原子主要有以下几种类型:a:普通字符b:非打印字符c:通用字符d:原子表对应模块 re#普通字符 作为原子string="dfsffsfsg"pat="ffs"rs=re.search(pat,string)print(rs)# 结果(<_sre.SRE...原创 2020-02-11 13:11:28 · 177 阅读 · 0 评论 -
python—初识
使用版本3.6.5 编译 idle输出print("hello python! ")'/ "均可表示字串,但要注意前后匹配数据类型python主要有,数,字符串,列表,元组,集合,字典等数据类型#数abc=9#字符串a1='abc'a2="abc"a3='''abc'''#列表,可更改元素值b=[1,2,'sa']#元组,不可更改元素值b1=(1.2,'sa')...原创 2020-02-10 16:02:42 · 331 阅读 · 0 评论
分享