python
西瓜小侠
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python进程
多进程与多线程的区别 多进程(Process) advantage:可以利用多核CPU并行计算 disadvantage:占用资源最多,可启动数目比线程少 使用:CPU密集型计算 多线程(threading) ad: 更加轻量级,占用资源少 disad: 相比进程:多线程只能并发执行,不能利用多cpu 相比协程:启动数目有限制,占用内存资源,有线程切换开销 使用:IO密集型计算,同时运行的任务数目要求不多 python速度慢的原因 1.python是动态类型,边解释,边执行 2.GIL使其无法利用多核CPU原创 2022-04-06 10:32:51 · 259 阅读 · 0 评论 -
python写csv时,writerow和writerows的区别
在与zip(csvrow1, csvrow2…)结合使用时,writerrow是一行只写一个单元格(写单值),而writerrowsz则可写多个单元格,即写多值原创 2021-12-24 15:48:28 · 1408 阅读 · 0 评论 -
numpy数组切片
1.为什么使用numpy,比起列表来说numpy好在哪里 答:使用numpy是为了方便向量和矩阵的处理,通过Numpy,可以轻松进行 线性代数表达式的计算,使表达式,所见即所得。原创 2021-11-12 19:39:01 · 1387 阅读 · 0 评论 -
python-查漏补缺
由于从未系统学过python的相关知识,故今天将之前遗漏的部分内容,稍作补充 1.函数部分 1.字符串处理 去末尾空格 s.rstrip() 去头空格 s.lstrip() 去首尾空格 s.strip() 首字母大写 s.title() 2.乘方计算 用**表示 如 3**2 9 4**3 64 2.列表 name=['jian','xu','hao','miao','bin','zhen...原创 2020-02-28 20:10:35 · 275 阅读 · 0 评论 -
python 爬虫小结
这两天又跟着网课做了爬虫的几个项目,却总是遇到一些令人苦笑不得的问题,导致一天下来收获廖廖,看来这种速成式的教育方法不太适合我,学习爬虫必须得去了解其所以然,计算机知识的时效性,在它上面体现的淋漓尽致,有的网站今天可以爬,可过几天,网站一改版,再去套用原来的代码,肯定不行。所以,只有把基础的知识理解透彻,才能随着时间的推移,及时调整自己的策略;看来我得去回炉重造了 总结以一下,这几天学习的内容 1...原创 2020-02-23 11:31:33 · 208 阅读 · 0 评论 -
Scrapy-模拟登录(简单无需验证码登录)
注:由于没有找到不需验证码登录的网站,所以本文代码均为经过验证,仅作了解原理之用 1.使用 cmd 命令行创建项目 scrapy startproject almost scrapy genspider basic baidu.com 2.分析登录网页,使用flider,提取登录格式 得到登录url:https://passport.baidu.com/v2/api/?login 与提交表单格式...原创 2020-02-19 11:51:39 · 864 阅读 · 0 评论 -
scrapy基础-当当网爬取
本文使用工具: cmd pycharm phpstudy/mysql命令行 Xpath表达式 Xpath与正则简单对比 1.Xpath表达式效率更高 2.正则表达式功能更强大 3.一般优先选择Xpath,解决不了再用正则 Xpath提取规则 / 逐层提取 text()提取标签下的文本 /html/head/title/text() 3.//标签名** :提取所有名为的标签 4.//标签名[...原创 2020-02-18 15:59:55 · 510 阅读 · 0 评论 -
scrapy常见命令(待续)
scrapy的命令分为全局命令和局部命令,顾名思义,全局命令在任何位置均可使用,而局部命令只能在某项目内使用 下面是一些命令的使用方法 scrapy -h 1.获取帮助 scrapy fetch http://www.baidu.com 2.爬取某一URL scrapy shell http://www.baidu.com exit() 3.采用交互式爬取某一url,exit退出 scra...原创 2020-02-17 17:13:00 · 236 阅读 · 0 评论 -
抓取腾讯视频评论
应用技术:浏览器伪装,抓包分析,正则提取 import urllib.request import re import random #https://video.coral.qq.com/varticle/[视频id] /comment/v2?callback=_varticle4563082514commentv2&orinum=[评论条数]&oriorder=o&pa...原创 2020-02-16 12:34:27 · 325 阅读 · 0 评论 -
python-代理池
概念 将不同的用户代理,构建成一个池子,然后随机调用原创 2020-02-14 15:28:40 · 257 阅读 · 0 评论 -
python—urllib模块
基础 urlopen:打开网页,不再赘述 urlretrieve(网址,本地文件存储地址) 直接下载网页到本地 urllib.request.urlretrieve("http://www.sdust.edu.cn/","D:/python/mj/fr.html") 注意:格式应为html urlcleanup() 清除缓存 urllib.request.urlcleanup() info ...原创 2020-02-13 10:24:20 · 161 阅读 · 0 评论 -
python—正则表达式
正则表达式: 一种用来提取有用信息的表达式 原子: 原子是正则表达式的基本组成单位,每个正则表达式至少含有一个原子。 原子主要有以下几种类型: a:普通字符 b:非打印字符 c:通用字符 d:原子表 对应模块 re #普通字符 作为原子 string="dfsffsfsg" pat="ffs" rs=re.search(pat,string) print(rs) # 结果(<_sre.SRE...原创 2020-02-11 13:11:28 · 177 阅读 · 0 评论 -
python—初识
使用版本3.6.5 编译 idle 输出 print("hello python! ") '/ "均可表示字串,但要注意前后匹配 数据类型 python主要有,数,字符串,列表,元组,集合,字典等数据类型 #数 abc=9 #字符串 a1='abc' a2="abc" a3='''abc''' #列表,可更改元素值 b=[1,2,'sa'] #元组,不可更改元素值 b1=(1.2,'sa')...原创 2020-02-10 16:02:42 · 331 阅读 · 0 评论
分享