- 博客(7)
- 收藏
- 关注
原创 python(数据分析与可视化)六
python(数据分析与可视化)六 爬虫与数据库连接 1.估算评论情感分数 把评论数据从数据库拿出,走停止词过滤,统计出现的积极词汇和消极词汇的个数。 假定 用户满意分数:(积极词汇个数1 - 消极词汇个数5)/评论条数 comment_words = [ '品质', '、', '做工', '都', '非常', '好', ',', '发货', '贼', '快', ',', '快递', '也', '给', '力', ',', '棒棒', '哒', '~', '?', '?', '?', '不得不', '赞',
2021-01-21 20:05:39
456
1
原创 python(数据分析与可视化)五
python(数据分析与可视化)五 爬虫与数据库连接 1.sqlite数据库 #持久化:把内存中爬取的数据持久的存储到硬盘上面,供以后使用 #方案一:csv,excel 方案二:数据库 #数据库:关系型 sqlite microsoftAccess Mysql/SQLServer/PostgreSQL(django odoo)/ORACLE #非关系型: nosql not only sql, mongodb/redis #sqlite非常轻量级,字段类型少,不需要安装,默认没有用户名密码,在手机app
2021-01-19 20:41:08
251
原创 python(数据分析与可视化)四
python(数据分析与可视化)四 动态网站的爬取 今天我们来讲解一下有关js动态加载后的数据爬取 1.京东评论初步尝试 import requests from lxml import etree #单个商品详情页url url = 'https://item.jd.com/100009077475.html' headers = { #没有user-agent 返回简短的html代码,js重定向到首页 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; W
2021-01-18 20:23:41
263
原创 python(数据分析与可视化)三
python(数据分析与可视化)三 爬取网页文本的牛刀小试 今天我们来进行一些有趣的爬虫实战 1.煎蛋网文本爬虫 import requests from lxml import etree url = 'http://jandan.net/' #没有请求头直接请求,响应码403 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom
2021-01-17 20:10:40
289
原创 python(数据分析与可视化)二
python(数据分析与可视化)二 本地文件读写 1.pip包管理 (1)内置库 包/库:别人写好的代码,直接引用,加快开发效率。 内置包:python解释器内置常用功能库。 – 解释器安装目录/Lib文件夹下, os time urllib等 – 文件夹里有__init__.py 就成了一个包。 ... import urllib from urllib import request response = request.urlopen('http://baidu.com') ... (2)关于H
2021-01-16 18:38:47
515
2
原创 python(数据分析与可视化)一
python(数据分析与可视化)一 本地文件读写 1.读纯文本文件 重点: (1)相对路径 : 同级./ 父级…/ (2)绝对路径 file = open('./chinase_utf8.txt',mode='r',encoding='utf-8') content = file.read() print(content) file.close() 2.文本编码历史 print(‘中’.encode(encoding=‘gbk’)) -> b’\xd6\xd0’ gbk编码 :一个汉字两个字
2021-01-16 12:34:47
250
原创 正则表达式中的一些元字符
正则表达式元字符大集合 正则表达式是一个特殊的字符序列,利用事先定义好的一些特定字符以及它们的组合组成一个“规则”,检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。正则表达式是字符串处理的有力工具,但是并不是Python独有的,其他语言也有。 Python中,re模块提供了正则表达式操作所需要的功能。 大多数字母和字符一般都会和自身匹配。如果在字符串前面加了r,表示对字符串不进行转义。有些字符比较特殊,它们和自身并不匹配,而是表明应和一些特殊的东西匹配,或者会影响重复次数。这些特殊的字符我们称.
2020-10-19 22:01:53
4278
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅