
Data Science
万般滋味皆生活
这个作者很懒,什么都没留下…
展开
-
ROC曲线的理解与绘制
什么是ROC曲线?ROC曲线:接收者操作特征(receiver operating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。首先,在试图弄懂AUC和ROC曲线之前,一定要彻底理解混淆矩阵的定义!混淆矩阵中有着Positive、Negative、True、False的概念,其意义如下:称预测类别为1的为Positive(阳性),预测类别为0的为Negative(阴性)。预测正确的为True(真),预测错误的为False(伪)。对上述概念进行组合,就产生了原创 2020-09-11 10:14:37 · 4793 阅读 · 0 评论 -
数据处理日常方法小结
文章目录1.numpy 统计数组的值出现次数2.利用pandas中修改列名3.使用pandas中的to_csv将数据写入csv格式的文件4.关于字典操作查看字典前几项计算字典里面有多少个key计算字典里面有多少个key1.numpy 统计数组的值出现次数import numpy as npfrom collections import Counter data = np.array([1.1,1.1,1.1,2,3,5,4,4,4,5]) # 方法一print('Counter(data)原创 2020-09-09 16:17:37 · 340 阅读 · 0 评论 -
pandas读取tsv大文件(GB)方法
TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。使用pandas读取tsv文件的代码如下:train=pd.read_csv('test.tsv', sep='\t')如果已有表头,则可使用header参数:train=pd.read_csv('test.tsv', sep='\t', header=0)如果已有主键列:train=pd.read_csv('test.tsv', sep='\t', header=0, index_col='id')在读取一原创 2020-09-08 21:04:41 · 6405 阅读 · 1 评论 -
利用Python和R对权游剧本进行NLP情绪分析
文章目录1. 背景知识2. 准备数据PythonR3. 数据清理4. 数据分析5. 收获最近学会利用Python做了几个词云后,又应用NLP中情感分析,结合snownlp库完成了词云分类,做了积极和消极两类词云,效果图如下。 之后我对NLP的知识产生了兴趣,继续深挖,发现王树义老师的这个项目很符合我的口味,于是尝试撸之,下面记录过程。1. 背景知识情绪分析(emotional analy...原创 2019-08-13 12:21:27 · 2327 阅读 · 1 评论 -
Pandas项目实战1——好莱坞百万级电影评论数据分析
文章目录好莱坞百万级电影评论数据分析Pandas 知识点任务需求1.导入所需库2.导入数据读取user读取Movie读取RATINGS3. 数据合并4.平均分较高电影5. 不同性别对电影评分6.不同性别争议最大的电影7.评论次数最多热门的电影8.查看不同年龄段争议最大电影9.每个年龄段用户评分人数和打分偏好10.优化数据分析,结果真实可靠10.1 加入评分次数限制来分析不同性别对电影的平均分10....原创 2019-07-25 16:24:49 · 5878 阅读 · 7 评论 -
Pandas进阶
文章目录1 文件读取与储存CSVHTML2.缺失值处理2.1 如何处理nan缺失值处理2.2 不是缺失值nan,有默认标记的如一些特殊符号3. 数据的离散化3.1 如何实现数据的离散化3.2 案例:股票的涨跌幅离散化4. 高级处理-合并Pandas综合案例1.准备数据2. **需求1**3. **需求2**4.**需求3**1 文件读取与储存csv(Comma-Separated value...原创 2019-07-21 09:18:06 · 1127 阅读 · 0 评论 -
Pandas入门
文章目录1 Pandas介绍2 为什么使用Pandas3 DataFrame3.1 属性3.2 方法4 DataFrame索引的设置4.1 修改行列索引值4.2 设置新索引5 Series6 使用索引和切片6.1 对Series6.2 切片6.3 按照字段和数字索引7 赋值操作8 排序8.1 对内容排序8.2 对索引改变为从小到大8.3 对Series排序9 DataFrame运算与统计9.1 使...原创 2019-07-21 09:05:31 · 2106 阅读 · 0 评论 -
Numpy入门
文章目录1.NumPy数组1.1 一维数组1.2 二维数组1.3 三维数组1.4 四维及更高维2.NumPy数组属性2.1 NDArray结构图2.2 NDArray属性总览3.NumPy数组初始化3.1设定数据类型3.2 初始化由0或1填满的多维数组3.3 使用linspace()生成等差数列3.4 使用logspace生成等比数列3.5 *arange功能4.数组的改变形状与维度4.1 res...原创 2019-07-19 21:19:56 · 367 阅读 · 0 评论 -
Matplotlib简单上手总结
Matplotlib1.1 什么是Matplotlib画二维图表的python库mat - matrix 矩阵二维数据 - 二维图表plot - 画图lib - library 库matlab 矩阵实验室mat - matrix矩阵lab 实验室1.2 为什么要学习Matplotlib画图数据可视化 - 帮助理解数据,方便选择更合适的分析方法js库 -...原创 2019-07-17 09:48:07 · 617 阅读 · 0 评论