
数据分析
文章平均质量分 68
wdwc2
个人接单小型python爬虫,计科课设等,详情请咨询
展开
-
【数据分析处理之缺失值】
为了有效利用包含缺失值的数据,需要采取合适的数据预处理方法,如数据插补、预测缺失值或使用基于模型的方法处理缺失值。处理缺失值的一种简单方法是删除含有缺失值的记录,但这种做法会直接减少可用于分析的数据量,特别是当缺失值较多时。这样的可视化使我们能够一眼看出数据中缺失值的分布情况,例如某些列是否有大量缺失值,或者缺失值是否在数据集中随机分布。如果一个数据集中的缺失值不是很多,那么删除含有缺失值的行或列可能是一个可行的选择。此代码段将输出每列的缺失值数量,帮助我们快速识别哪些列含有缺失值以及缺失值的数量。原创 2024-12-30 21:21:39 · 1916 阅读 · 0 评论 -
【描述性统计分析】
描述性统计分析主要目的是利用总结性指标来描述、汇总和解释数据集。通过对数据的分布、集中趋势和离散程度进行统计分析,可以帮助人们更好地理解数据的特征和规律,从而为决策制定提供支持。描述数据的集中趋势:通过计算均值、中位数和众数等指标来了解数据的平均水平或中心位置。衡量数据的离散程度:通过计算方差、标准差和极差等指标来评估数据的波动程度或分散程度。描述数据的分布形状:通过偏度和峰度等指标来描述数据分布的对称性和峰态。原创 2024-10-19 16:04:10 · 1290 阅读 · 0 评论 -
【pandas中concat和append函数的介绍】
通常用于追加单个对象,并且语法上更简单。不保留原始索引,而是重新生成默认的整数索引。不保留原始索引,而是重新生成默认的整数索引。函数的一种特殊情况,只不过更加便捷。函数用于沿着指定轴(行或列)将多个。按行连接,生成一个新的。的末尾,生成一个新的。原创 2024-07-28 16:35:46 · 1024 阅读 · 0 评论 -
【数据清洗中分段线性插值法原理】
分段线性插值法通过在已知数据点之间绘制直线来估算缺失数据点。它假设在相邻数据点之间,数据变化是线性的,因此通过已知的两个数据点,计算出它们之间任意点的值。原创 2024-07-05 10:38:25 · 1527 阅读 · 0 评论 -
【贡献度分析(帕累托图)】
贡献度分析也称为帕累托分析。它可以帮助我们理解数据集中各个因素对整体影响的程度,从而优先处理最重要的因素,达到事半功倍的效果。原创 2024-06-06 21:44:01 · 2251 阅读 · 0 评论 -
【sklearn中LinearRegression,logisticregression函数及其参数】
本文将介绍sklearn库中和函数及其参数配置。线性回归和逻辑回归是机器学习中两种基本且重要的算法,广泛应用于回归和分类问题中。原创 2024-06-05 10:44:52 · 1543 阅读 · 0 评论 -
【pandas中fillna,interpolate和dropna函数及其参数】
函数用于填充缺失值,可以用一个具体值或者方法来填充。函数用于删除缺失值,可以删除包含NaN的行或列。函数用于插值缺失值,根据数据的趋势填补缺失值。原创 2024-06-05 10:59:34 · 996 阅读 · 0 评论 -
【异常分析:四分位距与3σ原则】
异常分析的目标是识别数据中的异常值,这些异常值可能是由于错误的记录、设备故障或者其他未知原因导致的。四分位距(interquartile range, IQR)和3σ原则(3 sigma rule)是两个常用的工具。原创 2024-06-04 21:37:43 · 2514 阅读 · 0 评论 -
【情感分析概述】
情感极性分析(Sentiment Polarity Analysis)是自然语言处理技术的一部分,它关注于从文本数据中自动检测和分类情感的倾向性。这种分析能够帮助我们理解人们对于某个主题、产品或服务的感受是积极的、消极的还是中立的。情感极性分析通过自然语言处理、文本分析和计算语言学方法,识别和提取文本中的主观信息。它通过分析词汇的使用和句子的结构,确定文本表达的情感是正面、负面还是中性。原创 2024-03-31 17:17:20 · 2218 阅读 · 0 评论 -
【从群体到样本的多阶段抽样】
面对庞大的群体时,往往无法直接对每个个体进行调查或测量,因此需要从群体中抽取一部分样本来代表整体情况。而多阶段抽样能够在保证样本代表性的前提下,减少调查成本和提高效率。多阶段抽样是一种分层抽样的延伸,通常用于大规模调查或研究中。它将整个抽样过程划分为多个阶段,每个阶段都包含一系列的抽样单元。在每个阶段,只有一部分抽样单元被选择,而不是直接从总体中选择样本。这些阶段可以是层次化的,也可以是随机的,取决于研究的需求和设计。原创 2024-03-24 10:14:24 · 1394 阅读 · 0 评论 -
【半结构化访谈法】
半结构化访谈法是一种研究方法,通过一系列开放式问题来探索被访者的看法、经验和观点。与完全结构化的问卷调查相比,半结构化访谈法提供了更大的灵活性,允许研究者根据被访者的回答来深入探索特定话题,同时保留了一定程度的标准化,以确保研究的可比性。半结构化访谈通常由一系列主题或话题组成,但具体的问题顺序和深度会根据被访者的回答和研究目的而调整。这种方法旨在促进自由对话,使被访者有机会表达他们的想法,并且允许研究者在不同被访者之间进行比较和分析。原创 2024-03-26 21:51:55 · 4914 阅读 · 0 评论 -
【主成分分析(PCA)】
主成分分析(PCA)是一种统计方法,它利用正交变换技术,将一组可能存在线性关系的变量转换成一组线性不相关的变量,这些新的变量称为主成分。它的核心思想是在减少数据集的维度的同时,尽量减少信息的损失,从而在降低复杂度的同时保留数据集中最重要的特征。PCA的过程可以被视为发现数据中的模式,以及识别数据结构中的相互关系。它能够揭示数据的内在结构,即便在原始数据集中这种结构不是立即显而易见的。PCA能够有效地识别和压缩数据,去除冗余信息。原创 2024-03-27 11:22:03 · 1315 阅读 · 0 评论 -
【基于概率比例抽样的PPS抽样】
概率比例抽样(Probability Proportional to Size Sampling,简称PPS抽样)是一种经典的抽样方法,它可以在考虑总体分布的情况下,以更高效的方式获取样本。PPS抽样是一种基于概率的抽样方法,其核心思想是根据个体在总体中的大小(比例)来确定其被选入样本的概率。换句话说,个体的概率被赋予了其在总体中的重要性或贡献度,从而更加准确地反映了总体的特征。原创 2024-03-24 10:10:06 · 4891 阅读 · 0 评论 -
【模糊综合评价方法】
模糊综合评价法起源于20世纪60年代模糊数学的兴起,由洛杉矶加州大学的教授洛特菲·A·扎德首次提出。这一方法基于模糊集合理论,旨在处理因信息不完全、不确切导致的决策问题。早期,这种方法主要用于技术和工程领域的决策分析。随着时间的推移,模糊综合评价法由于其在处理模糊、不确定信息方面的独特优势,已经被广泛应用于经济管理、社会科学、环境科学等多个领域。随着计算机技术的发展和数据分析技术的进步,模糊综合评价法也得到了进一步的完善和扩展。它不仅可以处理定性指标的评价问题,还能结合定量数据进行更加复杂的决策分析。原创 2024-03-28 21:58:49 · 1813 阅读 · 0 评论 -
【简单随机抽样】
简单随机抽样是指从总体中以相同的概率随机选择一定数量的样本单元组成样本的一种方法。它要求每个样本单元被抽中的机会是均等的。每一个样本单元被选中的概率都是1/N,其中N是总体单位的数量。原创 2024-03-26 21:34:43 · 1009 阅读 · 0 评论 -
【信效度检验指南】
信效度检验是评估研究测量工具(如问卷、测试、评估表等)可靠性和有效性的过程。信度(Reliability)反映的是测量工具的一致性或稳定性。如果一个测量工具在重复使用时能得到相同或非常接近的结果,那么它就被认为是可靠的。信度高意味着测量误差低,测量结果的可重复性好。效度(Validity)衡量的是测量工具测量的准确性,即它是否测量了它预期要测量的那个概念或变量。一个有效的测量工具能准确反映研究中的概念或理论构建。原创 2024-03-29 11:03:56 · 8188 阅读 · 0 评论 -
【pandas 不同文件读取和存储】
Excel 文件是办公室中常用的数据记录和分析工具。Pandas 通过内置的函数支持读取和写入 Excel 文件。Pandas 可以与 SQL 数据库交互,执行数据的读取和存储操作。Pandas 支持的文件类型包括但不限于 CSV、Excel、JSON、HTML 和 SQL。除了上述格式,Pandas 还支持多种其他格式,例如 HTML、HDF5 等。CSV(逗号分隔值)文件是数据存储的一种常见格式,特别适合存储表格数据。分别用于读取和写入 Excel 文件。读取 HTML 文件中的表格数据。原创 2024-02-11 18:23:58 · 821 阅读 · 0 评论 -
【Pandas透视表(Pivot Table)详解】
透视表(Pivot Table)用于在数据分析和处理过程中进行数据重塑和汇总。透视表是一种数据汇总工具,它可以将原始数据按照用户定义的方式重新排列,以便更容易进行分析和可视化。通常,透视表的目标是对数据进行聚合、汇总和交叉分析,以获得有关数据集的洞察。通过合理的设置行索引、列索引和汇总方式,可以根据不同的需求快速生成适用于数据分析的透视表。原创 2024-02-09 09:29:27 · 1322 阅读 · 0 评论 -
【Pandas缺失值处理指南】
缺失值是指在数据集中某些位置上的数据值不存在或者没有记录。它们通常用NaN(Not a Number)或者None来表示。原创 2024-02-09 09:19:31 · 488 阅读 · 0 评论 -
【Pandas 合并数据】
数据合并是将两个或多个数据集(DataFrame)中的数据合并成一个新的数据集的过程。原创 2024-02-08 19:23:38 · 1032 阅读 · 0 评论 -
【Pandas 统计函数和自定义函数的使用】
Pandas 是基于 NumPy 的数据分析工具,它提供了各种数据结构,如 Series 和 DataFrame,以及各种功能强大的函数,用于数据的统计、清洗、处理和分析。除了内置的统计函数,还可以创建自定义函数来处理数据。这些自定义函数可以根据需求进行定制,以执行特定的数据操作。创建一个自定义函数,将工资大于某个阈值的员工标记为高工资,否则标记为低工资。# 创建示例 DataFrame# 自定义函数return '高工资'else:return '低工资'# 应用自定义函数并创建新列。原创 2024-02-08 19:14:36 · 593 阅读 · 0 评论 -
【Python plt.imshow函数及其参数详解】
函数是Matplotlib库中的一个函数,主要用于显示图像或矩阵数据。它可以将矩阵数据渲染成图像,并支持许多参数来调整图像的外观和行为。参数用于指定插值方法,影响图像的渲染效果。常见的选项包括 ‘nearest’、‘bilinear’、‘bicubic’ 等。参数用于指定色彩映射,决定了图像的颜色显示方式。常见的选项包括 ‘viridis’、‘gray’、‘jet’ 等。参数用于设置图像的纵横比,可以是 ‘auto’、‘equal’ 或一个浮点数。参数用于设置显示的值范围,可以用来调整图像的对比度。原创 2024-02-02 11:06:32 · 10377 阅读 · 0 评论 -
【Matplotlib 常见图表及应用】
matplotlib 是一个广泛使用的 Python 绘图库,它最初由 John D. Hunter 在2003年创建,matplotlib 的核心是绘图引擎,它提供了一套丰富的工具和函数,可以轻松创建高质量的二维图表和图形。条形图(Bar Charts):用于展示和比较不同类别的数值。散点图(Scatter Plots):理想用于观察两个或多个变量间的关系。直方图(Histograms):用于展现数据的分布和频率。折线图(Line Charts):最适合表示数据随时间的变化。原创 2024-02-02 10:57:28 · 1602 阅读 · 0 评论 -
【Python plt.boxplot 函数及其参数详解】
箱线图(Box Plot)能够帮助我们了解数据分布的情况,包括数据的中位数、四分位数、异常值等信息。Python的Matplotlib库提供了函数,用于绘制箱线图。原创 2024-02-01 10:53:33 · 2976 阅读 · 0 评论 -
【Python绘图入门之plt.plot函数详解】
plt.plot用于绘制二维数据图表。它可以用于创建折线图、散点图、柱状图等多种类型的图形。用于给图表添加标签,通常用于图例的生成。用于设置线条宽度和标记大小。用于设置线条的颜色和样式。用于设置数据点的标记样式。原创 2024-02-01 10:34:50 · 4227 阅读 · 0 评论 -
【Python Matplotlib 中的 plt.pie 函数详解】
plt.pie函数用于创建饼图,饼图是一种圆形的图表,将数据分成不同的扇形部分,每个扇形部分的大小表示数据的相对比例。它通常用于显示数据的相对百分比或分布情况。饼图非常适合用于展示数据的分类占比,例如不同产品销售额的比例,不同地区的市场份额等。原创 2024-01-31 17:37:18 · 2695 阅读 · 0 评论 -
【Python 中的 plt.hist 函数详解】
plt.hist函数用于绘制直方图。直方图是一种用来表示数据分布的图形,它将数据分成若干个区间,然后统计每个区间中数据的数量,最终以柱状图的形式展示出来。直方图主要用于可视化数据的分布情况。它将数据划分为一系列的区间(也称为箱子或柱子),然后计算每个区间内数据点的数量。这些数量通常用柱状图表示,柱子的高度表示该区间内数据点的数量。原创 2024-01-31 11:25:40 · 6421 阅读 · 0 评论 -
【Python 中的 plt.scatter 函数详解】
散点图是一种有效的方式来可视化数据点之间的关系,以及它们在平面上的分布。是 Matplotlib 中的一个函数,用于绘制散点图。它可以帮助我们观察两个变量之间的关系,以及它们的分布情况。通常,一个散点图由多个点组成,每个点代表一个数据样本,横轴表示一个变量,纵轴表示另一个变量。通过观察散点图,我们可以快速了解数据的分布、聚类情况和异常值等信息。原创 2024-01-31 10:42:58 · 12666 阅读 · 0 评论 -
【Python plt.bar函数及其参数详解】
条形图(bar chart)用于展示不同类别或组的数据分布情况。原创 2024-01-31 10:27:41 · 8723 阅读 · 0 评论 -
【pandas的使用】
Panel 是 pandas 中的一个较少使用的数据结构,它是一个三维数组。在 pandas 的早期版本中,Panel 被用来处理三维数据,但在实际应用中,其使用频率远低于 Series 和 DataFrame。DataFrame 是 pandas 中最常用的数据结构,它是一个二维表格结构,可以看作是由多个 Series 组成的字典。Series 是一种一维数组结构,类似于 Python 中的列表或 NumPy 的数组,但它可以包含任何类型的数据(整数、字符串、浮点数、Python 对象等)。原创 2024-01-29 11:06:39 · 773 阅读 · 0 评论 -
【Pandas Describe函数详解】
在 Pandas 中,describe()函数能够为数据框(DataFrame)中的数值列提供统计摘要信息。原创 2024-01-27 09:47:31 · 2018 阅读 · 0 评论 -
【pandas算术运算与逻辑运算入门指南】
除了Series,Pandas还提供了DataFrame数据结构,它类似于二维表格,可以进行各种复杂的算术运算。Pandas的核心数据结构之一是Series,它类似于一维数组,可以进行各种算术运算。Pandas还提供了丰富的逻辑运算功能,用于筛选和处理数据。原创 2024-01-27 09:40:37 · 731 阅读 · 0 评论 -
【Pandas MultiIndex属性及其设置】
MultiIndex允许在DataFrame的行或列上创建多级索引。这种多级索引使得可以在更复杂的数据结构中存储和检索数据。通常情况下使用单一的索引来访问DataFrame中的数据,但在某些情况下,数据的层次结构需要更多的索引层级。原创 2024-01-26 10:44:44 · 606 阅读 · 0 评论 -
【Python Requests 库介绍】
Requests是一个广泛使用的Python第三方库,专门用于发送HTTP/HTTPS请求。与Python内置的urllib相比,Requests提供了更加直观和灵活的API。原创 2024-01-24 10:32:57 · 1721 阅读 · 0 评论 -
【Pandas DataFrame属性及其设置】
DataFrame是Pandas中的一个二维数据结构,类似于电子表格或SQL表格。它由行和列组成,每一列可以包含不同的数据类型(整数、浮点数、字符串等),并且可以进行数据操作和分析。DataFrame通常用于存储和处理结构化数据,如CSV文件、SQL查询结果等。原创 2024-01-23 10:24:53 · 922 阅读 · 0 评论 -
【Numpy 矩阵(mat) 及其运算】
Numpy矩阵(mat)是一个二维的数组,它由行和列组成,每个元素都有唯一的行和列索引。矩阵(mat)通常用于表示二维数据,如图像、表格数据等。在Numpy中,可以使用numpy.mat来创建矩阵对象。# 创建一个Numpy矩阵print(mat)原创 2024-01-23 10:19:13 · 893 阅读 · 0 评论 -
【Pandas Series属性及设置详解】
Pandas Series类似于一维数组或列表。原创 2024-01-22 13:43:06 · 651 阅读 · 0 评论 -
【Pandas索引的常见操作】
在 Pandas 中,索引是用于标识和访问数据的一种机制。它可以看作是数据框或系列中的行和列的标签。Pandas 支持多种类型的索引,包括整数索引、标签索引、多级索引等。索引不仅用于数据的选择和切片,还可以用于数据的合并、重塑和聚合操作。原创 2024-01-22 13:27:47 · 652 阅读 · 0 评论 -
【Pandas 分组与聚合详解】
分组是将数据按照某个或某些特征进行分类的过程。在 Pandas 中,我们可以使用groupby方法来实现数据的分组操作。例如,如果我们有一份包含学生信息的数据集,可以根据性别来进行分组,得到男生组和女生组,然后对每个组进行进一步的分析。原创 2024-01-21 10:08:09 · 965 阅读 · 0 评论 -
【bar堆叠图形绘制】
在数据可视化中,条形图是一种常用的图表类型,用于比较不同类别的数据值。Python的matplotlib库为我们提供了方便易用的功能来绘制条形图。原创 2023-07-27 19:40:05 · 2123 阅读 · 0 评论