- 博客(7)
- 收藏
- 关注
原创 python(数据分析与可视化)六
python(数据分析与可视化)六爬虫与数据库连接1.估算评论情感分数把评论数据从数据库拿出,走停止词过滤,统计出现的积极词汇和消极词汇的个数。假定 用户满意分数:(积极词汇个数1 - 消极词汇个数5)/评论条数comment_words = ['品质', '、', '做工', '都', '非常', '好', ',', '发货', '贼', '快', ',', '快递', '也', '给', '力', ',', '棒棒', '哒', '~', '?', '?', '?', '不得不', '赞',
2021-01-21 20:05:39
405
1
原创 python(数据分析与可视化)五
python(数据分析与可视化)五爬虫与数据库连接1.sqlite数据库#持久化:把内存中爬取的数据持久的存储到硬盘上面,供以后使用#方案一:csv,excel 方案二:数据库#数据库:关系型 sqlite microsoftAccess Mysql/SQLServer/PostgreSQL(django odoo)/ORACLE#非关系型: nosql not only sql, mongodb/redis#sqlite非常轻量级,字段类型少,不需要安装,默认没有用户名密码,在手机app
2021-01-19 20:41:08
221
原创 python(数据分析与可视化)四
python(数据分析与可视化)四动态网站的爬取今天我们来讲解一下有关js动态加载后的数据爬取1.京东评论初步尝试import requestsfrom lxml import etree#单个商品详情页urlurl = 'https://item.jd.com/100009077475.html'headers = { #没有user-agent 返回简短的html代码,js重定向到首页'user-agent': 'Mozilla/5.0 (Windows NT 10.0; W
2021-01-18 20:23:41
239
原创 python(数据分析与可视化)三
python(数据分析与可视化)三爬取网页文本的牛刀小试今天我们来进行一些有趣的爬虫实战1.煎蛋网文本爬虫import requestsfrom lxml import etreeurl = 'http://jandan.net/'#没有请求头直接请求,响应码403headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom
2021-01-17 20:10:40
259
原创 python(数据分析与可视化)二
python(数据分析与可视化)二本地文件读写1.pip包管理(1)内置库包/库:别人写好的代码,直接引用,加快开发效率。内置包:python解释器内置常用功能库。– 解释器安装目录/Lib文件夹下, os time urllib等– 文件夹里有__init__.py 就成了一个包。...import urllibfrom urllib import requestresponse = request.urlopen('http://baidu.com')...(2)关于H
2021-01-16 18:38:47
448
2
原创 python(数据分析与可视化)一
python(数据分析与可视化)一本地文件读写1.读纯文本文件重点:(1)相对路径 : 同级./ 父级…/(2)绝对路径file = open('./chinase_utf8.txt',mode='r',encoding='utf-8')content = file.read()print(content)file.close()2.文本编码历史print(‘中’.encode(encoding=‘gbk’)) -> b’\xd6\xd0’gbk编码 :一个汉字两个字
2021-01-16 12:34:47
215
原创 正则表达式中的一些元字符
正则表达式元字符大集合正则表达式是一个特殊的字符序列,利用事先定义好的一些特定字符以及它们的组合组成一个“规则”,检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。正则表达式是字符串处理的有力工具,但是并不是Python独有的,其他语言也有。Python中,re模块提供了正则表达式操作所需要的功能。 大多数字母和字符一般都会和自身匹配。如果在字符串前面加了r,表示对字符串不进行转义。有些字符比较特殊,它们和自身并不匹配,而是表明应和一些特殊的东西匹配,或者会影响重复次数。这些特殊的字符我们称.
2020-10-19 22:01:53
4130
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人