- 博客(33)
- 收藏
- 关注
原创 Python综合评价模型(九)CRITIC法
CRITlC法是综合考虑评价指标的变异性和独立性来分配权重,评价指标的变异性和独立性均较大,所赋权重就越大,并以此对评价对象进行综合评价的方法
2023-04-15 12:11:50
3524
原创 Python综合评价模型(八)熵权法
熵权法是根据评价指标的变异程度(差异系数)来分配权重,评价指标变异程度越大,所赋权重就越大,并以此对评价对象进行综合评价的方法
2023-04-07 13:01:55
5503
4
原创 Python综合评价模型(七)变异系数法
变异系数法是根据评价指标的变异程度来分配权重,评价指标的变异程度越大,所赋权重就越大,并以此对评价对象进行综合评价的方法
2023-03-31 09:17:56
1590
原创 Python综合评价模型(六)层次分析法
层次分析法是建立递阶层次结构,通过比较评价准则(评价指标)的两两重要程度对评价方案(评价对象)进行综合评价的方法
2023-03-24 12:00:00
2137
2
原创 Python综合评价模型(三)秩和比法
秩和比法(Rank Sum Ratio)是基于评价指标矩阵的秩和比(RSR)统计量对评价对象进行综合评价的方法
2023-03-03 08:56:49
1470
原创 Chapter 3.3 词向量和语言模型(三)
知识点3.3.1 word2vec知识点3.3.2 哈夫曼树知识点3.3.3 层次Softmax知识点3.3.4 负采样
2022-02-24 14:28:38
199
原创 Chapter 3.1 文本向量化和语言模型(一)
知识点3.1.1 文本向量化和语言模型的概念知识点3.1.2 词袋模型知识点3.1.3 N-gram模型最基础的以词为基本单元的文本向量化方法把文本看成是一系列词的集合(袋子)词和词相互独立,一个词是否在文本中出现不依赖于其他词#载入需要的程序库impor
2022-01-28 11:32:50
1768
原创 Chapter 2.3 高频词和关键词提取(三)
知识点2.3.1 TextRank算法的思想起源知识点2.3.2 TextRank算法的基本思想知识点2.3.3 基于jieba的TextRank关键词提取
2022-01-25 19:18:23
948
原创 Chapter 2.2 高频词和关键词提取(二)
知识点2.2.1 TF-IDF算法的基本思想知识点2.2.2 基于jieba的TF-IDF关键词提取知识点2.2.3 关键词的词云图展示
2022-01-21 11:30:00
1298
原创 Chapter 2.1 高频词和关键词提取(一)
知识点2.1.1 高频词和关键词的区别知识点2.1.2 基于numpy和pandas的高频词提取知识点2.1.3 基于nltk的高频词提取知识点2.1.4 高频词的词云图展示
2022-01-17 16:18:11
2509
原创 手把手陪你学文本分析——Chapter 2 分词的优化操作
知识点1.2.1 新词词典的形成知识点1.2.2 新词词典的使用知识点1.2.3 停用词词典的使用知识点1.2.4 词性标注
2022-01-06 16:26:03
870
原创 手把手陪你学文本分析——Chapter 1 分词的基础操作
Chapter 1.1 分词的基础操作知识点1.1.1 分词方法的类型知识点1.1.2 基于规则分词的主要规则知识点1.1.3 分词工具的介绍——Jieba分词知识点1.1.4 Jieba分词的实战——2021年政府工作报告
2022-01-05 11:23:23
1183
原创 Excel VS Python 第七期——选择列数据
有时候,我们仅需要分析数据集的某些部分今天要为大家介绍如何使用Excel 和 Python进行列数据选择案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是选择该数据集的列数据知识点14:选择某一列Excel鼠标单击某列的顶端列编号,即可选择某一列Pythonimport pandas as pd #载入pandas库data = pd.read_excel('C:/Users/dell-pc/Desktop/data.xlsx') #读取Excel文件数据data.he
2021-08-15 10:41:12
665
原创 Excel VS Python 第六期——设置数据索引
索引对于数据集而言,是一种独立且不重复的标识设置索引能够便于我们查询数据索引一般分为两种,即行索引和列索引今天要为大家介绍如何使用Excel 和 Python进行数据索引设置案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是设置该数据集的行索引和列索性知识点12:设置数据行索引Excel对于Excel而言,有默认的行号,默认的行号从1开始通过插入第一行即可设置行名Pythonimport pandas as pd #载入pandas库data = pd.read_exc
2021-08-08 12:24:01
2389
1
原创 Excel VS Python 第五期——转换数据类型
有时候,我们在数据预处理的过程中,会遇到一些关于数据类型的小尴尬比如调查单位的行业代码由四个数字组成,但却不是数值而是字符,这就需要我们对数据类型进行转换今天要为大家介绍如何使用Excel 和 Python进行数据类型转换案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是将“id”列数据由数值型转换为字符型知识点10:查看数据类型Excel选中"id"列——单击鼠标右键——设置单元格格式Pythonimport pandas as pd #载入pandas库data = p
2021-07-30 17:05:14
2136
原创 Excel VS Python 第四期——异常值处理
Excel VS Python 第四期相信大家最近都在为河南加油郑州这次的特大暴雨属于极端天气,而在数据分析过程中,我们也常会遇到一些极端大或极端小的异常数据值如果变量服从或近似服从正态分布,那么大于“均值+3倍标准差”,或小于“均值-3倍标准差”的数据值就为“异常值”一般而言,数据处于“均值±3倍标准差”范围外的概率小于0.3%,属于小概率事件今天要为大家介绍如何使用Excel 和 Python处理数据集中的异常值案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是检测并删除变量“fi
2021-07-24 17:59:09
3012
原创 Excel VS Python 第三期——重复值处理
这几天气温超高,大家要注意防暑,当然也要记得运动完千万别直接吃冰淇淋也千万别猛吹空调,不然就会拉肚子加热伤风今天要为大家介绍如何使用Excel 和 Python处理数据集中的重复值案例数据继续使用UCI的红酒质量评分数据集,字段“ID”为调查样本的唯一标识需要完成的任务是检测并删除重复的调查样本知识点6:检测重复值Excel选中“ID”列,开始——条件格式——突出显示单元格规则——重复值——确定Pythonimport pandas as pd #载入pandas库data = pd
2021-07-19 09:17:54
622
原创 Excel VS Python 第二期——缺失值处理
知识点3:检查缺失值import pandas as pd #载入pandas库data = pd.read_excel('C:/Users/dell-pc/Desktop/data.xlsx') #读取Excel文件数据data.head(5) #显示前5行数据data.shape[0] #显示数据集的行数data.isnull().sum() #查看各列数据的缺失情况知识点4:删除缺失值data.dropna(how = "any", inplace = True)
2021-07-11 17:01:05
1449
原创 【手把手陪你学Python】用pyecharts库画水球图
水球图是什么?水球图是一种可用于展示单个百分比数据的动态图表第一步 载入pyecharts库from pyecharts.charts import Liquid, Grid #首次使用需先安装,执行命令pip install pyechartsfrom pyecharts import options as optsfrom pyecharts.commons.utils import JsCode第二步 绘制基本水球图pic1 = ( Liquid() .ad
2021-07-06 19:57:35
2893
1
原创 Excel VS Python 第一期——Excel文件读取
写在前面从本周开始准备挖个新坑——Excel VS PythonExcel是最基础、最常用的数据分析工具软件Python则是最热门、最实用的数据分析编程语言这个专题的推文将主要介绍如何通过使用Excel 和Python来实现一套较完整的数据分析流程,分析结果可用于统计分析、报告或课题的撰写另外 ,结合每2-3期的推文内容会为大家安排一次相应的直播或录播课程知识点1:读取Excel文件数据基本方式1import pandas as pd #载入pandas库data = pd.read_
2021-07-05 09:15:13
346
1
原创 【手把手陪你学R】用ggplot2包画箱线图
箱线图是什么?箱线图(boxplot),又称箱形图或盒式图,不仅可以展示不同类别数据的平均水平差异,还能展示数据间的极值、离散程度、异常值等信息箱子的中间线,是数据的中位数,反映了数据的平均水平箱子的上下限,分别是数据的上四分位数和下四分位数,箱子包含了50%的数据,其高度在一定程度上反映了数据的离散程度箱子的上方和下方又各有一条线,分别是数据的最大和最小值,而外溢的点则可理解成为异常值第一步 安装并载入ggplot2包install.packages("ggplot2") #安装
2021-06-28 13:55:14
20673
2
原创 【手把手陪你学Python】用pyecharts库画桑基图
桑基图是什么?桑基图(Sankey diagram),即桑基能量分流图或桑基能量平衡图,是一种特定类型的流程图,主要由边、流量和节点组成,其中边代表流动的数据,流量代表流动数据的具体数值,节点代表不同的分类,图中延伸的边的宽度对应流量的大小最初因1898年Matthew Henry Phineas Riall Sankey绘制的“蒸汽机的能源效率图”而闻名,故以其名字命名为“桑基图”要点1:核心在于展示数据的流转情况要点2:主要由边、流量和节点组成,边越宽流量越大要点3:遵循守恒定律,始末端的边
2021-06-21 15:23:02
2612
原创 【手把手陪你学R】用fmsb包画雷达图
雷达图是什么?雷达图(Radar Chart),又可称为戴布拉图、蜘蛛网图,每个数据系列均拥有各自的坐标轴,这些坐标轴由中心向外辐射, 并用折线将同一系列的数值进行连接,用以展示各数据系列之间,以及某个特定的数据系列与其他数据系列的整体关系**适用场景:**展现并对比某个数据系列的不同关键特征,以及各个数据系列在不同维度上的取值大小**不适用场景:**类别和特征过多的数据集第一步 安装并载入fmsb包install.packages("fmsb") #安装fmsb包library(fms
2021-06-16 09:28:51
6504
2
原创 【手把手陪你学R】用corrplot画相关系数图
相关系数图是什么?对于数据集进行描述性统计分析后,通常需要对变量间的相关关系进行考察相关系数图可用于可视化变量间相关关系的方向、大小和密切程度,在相关系数图中,相关系数(correlation coefficients) 根据不同的系数值赋予了不同的颜色或形状,相关系数矩阵(correlation matrix) 则根据不同的颜色或形状将变量间的相关关系直观的展示出来第一步 安装并载入corrplot包install.packages("corrplot") #安装corrplot包lib
2021-06-16 09:08:23
6402
3
原创 【手把手陪你学Python】用pyecharts画词云图
【小白的Python小贴士】用pyecharts画词云图词云图是什么?词云图是通过“关键词云层”或“关键词渲染”的方式,对文本数据中出现频率较高或权重较大的“关键词”进行可视化的展示,便于读者直观领略文本数据的主旨和核心内容pyecharts是什么?pyecharts是一款将Python与Echarts相结合的数据可视化工具,而Echarts是由百度开源的数据可视化工具,一个纯JavaScript的图表库pyecharts官方文档第一步 安装pyecharts库pip install py
2021-06-15 10:06:46
5684
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人