
Python
fightforlight
这个作者很懒,什么都没留下…
展开
-
Pyecharts x轴显示不全问题,已解决。
成功解决的代码如下.set_global_opts(title_opts=opts.TitleOpts(title="xxx"), xaxis_opts=opts.AxisOpts(name_rotate=60,axislabel_opts={"rotate":45})) )添加xaxis_opts=pts.AxisOpts(name_rotate=60,axislabel_opts={"rotate":45}))即可...原创 2020-10-04 22:50:02 · 7002 阅读 · 4 评论 -
nltk.download('punkt') False
下载punkt压缩包,解压到以下目录中即可。C:\Users\xxxxxx\AppData\Roaming\nltk_data\tokenizers原创 2020-04-07 01:04:09 · 1060 阅读 · 0 评论 -
将时间戳转化为日期(python)
import time#利用localtime()转换为时间数组,然后格式化为需要的格式,如timeStamp = 1381419600timeArray = time.localtime(timeStamp)otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)otherStyletime == "2013-10...转载 2020-03-14 21:53:42 · 744 阅读 · 0 评论 -
requests之爬取博文实战
目标:根据关键词爬取云栖社区博文网页分析目标URLhttps://yq.aliyun.com/search/articles/?&q=python&p=1网址参数q(关键字)和 p(查询页数)页码获取根据正则爬取搜索博文的总数整除每页博文数+1博文正文网址获取采用正则表达式思路计算搜索结果界面的总页数采用循环,进行逐页爬取...原创 2020-03-04 22:17:57 · 121 阅读 · 0 评论 -
ValueError: invalid literal for int() with base 10
pat1='<div class="_search-info">找到(\d*?).*?</div>'linesNum=re.compile(pat1,re.S).findall(data)[0]pages=int(linesNum)//15+1报错:ValueError: invalid literal for int() with base 10分析原因:...原创 2020-03-04 16:39:12 · 361 阅读 · 0 评论 -
爬虫之Urllib
urllib.request1. 爬取网页到内存中import urllibimport urllib.requestdata = urllib.request.urlopen("http://www.jd.com").read().decode("utf-8","ignore") len(data) //查看是否成功爬取相关内容,一般大于1000就爬到了数据。urlopen()获取...原创 2020-02-29 17:30:23 · 100 阅读 · 0 评论 -
Xpath
xpath说明/逐层提取text()提取标签下面的文本//标签名**提取所有名为**的标签//标签名[@属性=‘属性值’]提取属性为xx的标签@属性名代表取某个属性值...原创 2020-02-29 15:53:02 · 108 阅读 · 0 评论 -
正则表达式基础
正则表达式基础基础一全局匹配函数使用格式 :re.compile(正则表达式).findall(源字符串)普通字符正常匹配\n匹配换行符\t匹配制表符\w匹配字母、数字、下划线\W匹配除字母、数字、下划线\d匹配十进制数字\D匹配除十进制数字\s匹配空白字符\S匹配除空白字符[ab89x]原子表,匹配ab...原创 2020-02-29 15:41:46 · 134 阅读 · 0 评论