- 博客(39)
- 资源 (3)
- 收藏
- 关注
原创 python基础练习之—Series
Series 由索引(index)和列组成,可以通过列表,元组,数组,字典来进行创建,本文重点讲解通过列表方式创建。案例一:(1) 通过pandas的Series构造一维数组s,包含元素分别为:河北省,保定市,22135。(1)如图所示,所生成的为一维数组,其中左列为数组中每个元素对应索引,右侧表示数组中所包含的数据。如图,由(1)步构造的数组为3行的数组,对应维度为1,值以列表形式返回。案例二:(1)将索引改为:省,市,面积,构成数组s2。将s2重置,重新构造新索引数组,将index替换为省、市、面积。
2024-01-09 18:22:34
813
原创 数据分析之词云图绘制
试验任务概述:如下为所给优快云博客信息表,分别汇总了'ai', 'algo', 'big-data', 'blockchain', 'hardware', 'math', 'miniprog'等7个标签的博客。对优快云不同领域标签类别的博客内容进行词频统计,绘制词频统计图,并根据词频统计的结果绘制词云图。TF(词频)指的是一个词语在文档中出现的频率,它认为在一个文档中频繁出现的词语往往与文档的主题相关性更高。构造关键词列表,根据之前返回的关联度最大词汇对应的下标,回到原数据表中定位,找出对应的词汇。
2023-12-27 17:14:58
1514
2
原创 数据预处理之异常值检测
拍照赚钱”作为移动互联网下的一种自助式服务模式,用户在APP上领取拍照任务并执行,从而获得相应报酬。从数据中可观察到任务定价和任务执行情况,最终定价按位置范围可分为四类:北纬约 23°至 23.08°,东经约113.1°至113.2°;北纬约23.1°至23.2°,东经约113.21°至113.5°;北纬约113.8°至 114.1°,东经约22.5°至22.8°;北纬约22.8°至23. 9°,东经约113.5°至113. 8°。
2023-07-09 22:28:50
1017
3
原创 数据预处理之数据规约
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。本质上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。——来自《知乎》
2023-07-05 22:03:31
988
1
原创 python图像处理实战(三)—图像几何变换
图像几何变换就是在不改变图像像素值的前提下,对图像进行像素变换的处理。通常几何变换可以用来解决由成像的角度、透视位置不合预期等问题。比如拍摄的斜着的路牌,如果我们在只能对现有的照片进行处理的情况下又想要从侧面看到路牌上的字体,那么此时就要用到几何变换。
2023-06-18 14:22:31
6973
31
原创 【挑战全站最全】Linux系统的安装与配置教程——以CentOS为例
🚀作者:那个叫马尔的大夫🚀⭐专栏:操作系统⭐🌼内容:主要分享一些关于Linux操作系统的知识🥧不忘初心,砥砺前行~本文围绕工具准备、安装配置VM虚拟机、安装Linux系统、配置Linux系统网络、连接Xshell五部分展开。
2023-06-04 16:41:44
4973
31
原创 安卓期末复习——题库(二)
7.(单选题, 5.0分)下列迭項中,属于在BaseAdapter中荻取ListView条目 息数的方法的是()?3.(单选题5.0分)下列选项中,用于EditText控件中内容为空吋示提示文本信息的属性为()?1.(单选题, 5.0分)下列选项中,属于设置TextView中文本内容的属性的是()?4.(单选题,5.0分)下列选项中,属于ListView添加迺配器的方法的是()?3.(多选题5.0分)下列选项中,属于Toast显示提示信息时间的参数的是()?
2023-06-04 15:46:39
1693
1
原创 Linux操作系统相关介绍
•开放性指系统遵循世界标准规范,特别是遵循开放系统互连(OSI)国际标准。凡遵循国际标准所开发的硬件和软件,都能彼此兼容,可方便的实现互连。•多用户是指系统资源可以被不同用户使用,每个用户对自己的资源(例如:文件、 设备)有特定的权限,互不影响。• 多任务它是指计算机同时执行多个程序,而且各个程序的运行互相独立。• 良好的用户界面图形用户界面、命令行界面。•设备独立性。
2023-06-02 12:21:52
719
3
原创 安卓期末复习——题库(一)
5. (单选题, 10.0分)Android开发中,如果TableL ayout的第一个TableRow有两个控件, 第二个TableRow有三个控件,那这个TableL ayout的列数为。4.(判断题, 10.0分)使用XML布局文件控制界面布局,能够有效的将界面中布局的代码和Java代码隔离,使程序的结构更加清晰。2. (单选题, 10.0分)下列选项中,属于设置帧布局容器中前景图像的属性的是 A. android:foreground。A.在模拟器上可预览和测试Android应用程序。
2023-05-31 20:14:04
3924
3
原创 网页提交文件无法打开问题解决办法(以学习通为例)
时长会碰到这样的情况,日常实训课在机房写实训作业时,将未完成的作业先暂存先在学习通里,但后续在登陆学习通时发现未提交的附件打不开了,经过翻阅之前web的相关资料,总结出了这样的解决办法,供各位参考。点开一个作业,继续Ctrl+F搜索data 查询objectid属性,此属性和data中的数据地址一样。这样,该作业的网址就构建成功了。可见,网址中objectId的后缀就是数据地址data。构建好网址后, 复制该新网址的链接,作业成功恢复。找到之前学习通提交的作业,F12审查元素。黄线后的内容表示数据地址。
2023-05-31 20:00:27
3144
1
原创 python图像处理实战(二)—二值化图像与线性变换
灰度变换是指根据某种目标条件按一定变换关系逐点改变源图像中每一个像素灰度值的方法。目的是为了改善画质,使图像的显示效果更加清晰。图像的灰度变换处理是图像增强处理技术中的一种非常基础、直接的空间域图像处理方法,也是图像数字化软件和图像显示软件的一个重要组成部分。——来自百度百科 这里采用opencv中的二值化相关方法进行灰度处理,进行灰度变换的非线性变换。
2023-05-30 18:09:25
4086
35
原创 python图像处理实战(一)—图像基础
图像处理是计算机视觉的一个重要研究领域,主要研究如何让计算机代替人眼实现对目标的分类、识别、跟踪和场景理解等内容。
2023-05-25 22:40:10
1606
18
原创 【应统考研必看!】统计学笔记——数据的图表展示
以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。对于通过其他渠道取得的二手数据,则应着重审核数据的适用性和时效性。数值型数据分组的方法有单变量值分组和组距分组,单变值分组是保证每一个变量值作为一组,适合于离散分布且变量值个数较少时,连。数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。直方图主要用于展示数值型数据(其中的分组数据)。的上限与下限的差,可以根据最大值,最小值以及组数来确定组距,(2)数据筛选是根据需要找出符合特定条件的某类数据。
2023-05-23 22:33:23
1943
3
原创 【可视化分析项目实战】seaborn核密度估计图绘制
使用目的:核密度估计图是一种可视化的方法,观测的分布锁定在一个数据集,类似于柱状图。KDE使用连续概率密度曲线代表了数据在一个或多个维度。将轴刻度设置为日志。单个值设置单变量分布的数据轴和双变量分布的两个轴。一对值独立设置每个轴。数值被解释为所需的基数(默认为 10)。如图,提取出temp(气温)和windspeed(风度)两列, emp(气温)和humidity(湿度)两列,绘制核密度估计图。布尔值或数字,或一对布尔值或数字。如果为真,则估计累积分布函数。,则遵循现有的轴比例。
2023-05-19 22:00:29
603
8
原创 seaborn数据可视化案例分析—共享单车
Seaborn是基于matplotlib开发的高阶Python数据可视图库,用于绘制更精致、美观的图形,其绘图逻辑与matplotlib基本一致,但呈现效果比matplotlib要清晰美观。常见的图表有散点图、折线图、柱状图等。本文以共享单车数据为例,介绍的Seaborn中的柱状图、散点图以及pandas对数据的相关处理方式,用柱状图、散点图实现对共享单车数据的可视化分析。
2023-05-17 23:10:45
1160
原创 基于统计学模型的乐高玩具商品价格研究(课程设计报告)
在目前的预测研究中,通常采用一个传统的模型,可是对于复杂的购物市场,传统的模型仅仅能够提供某一方面的有效信息,无法避免的会丢失另外一些有效数据,从而让该模型难以达到预期的预测结果。我们在此项目中运用了描述性统计方法,计算了标准差和算数平均数,通过箱线图、散点图、柱状图让结果更加鲜明,同时可以观察多种因素。
2023-05-15 22:02:36
192
原创 时间序列预测股票数据—以LSTM模型为例
时间序列是按照一定时间间隔排列的数据,时间间隔可以是任意时间单位,通过对时间序列的分析,我们可以探寻到其中的现象以及变化规律,并将这些信息用于预测。这就需要一系列的模型,用于将原始时间序列数据放进模型中进行训练,并用训练好的时间序列模型来预测未知的时间序列。提供的数据:“中国平安”2016-2018年股票数据,背景为平安保险集团。
2023-05-09 20:57:49
9529
49
原创 统计学—数据的搜集
间接来源是指与研究内容有关的原信息已存在,只是对原信息进行重新加工、整理,使之成为我们进行统计分析可以使用的数据,称为间接来源的数据,即二手资料。抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差,通过增。非概率抽样分类:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。员误差、测量误差等。①样本单位数目,在其他条件不变的情况下,样本量越大,抽样误差越小,③抽样方法,一般情况下,不重复抽样的抽样误差要小于重复抽样的抽样误。④抽样组织方式,采用不同的抽样组织方式,也会有不同的抽样误差,一般。
2023-05-04 16:03:39
1308
原创 python量化—因子数据获取与处理
3sigma法去极值mean = dt.mean() # 截面数据均值std = dt.std() # 截面数据标准差dt_up = mean + n*std # 上限dt_down = mean - n*std # 下限return dt.clip(dt_down, dt_up, axis=1) # 超出上下限的值,赋值为上下限# Z值标准化mean = dt.mean() # 截面数据均值std = dt.std() # 截面数据标准差# 申万一级行业。
2023-04-25 17:41:39
2087
6
原创 分类算法—决策树练习
而min_samples_split是在预剪枝的方式中,先设定一个样本数阈值,在构造决策树的过程中,当训练样本个数小于该值时,停止树的生长。min_samples_leaf为叶子节点最少样本数,由于样本集随着决策树自顶向下的划分不断减少,如果我们采用后剪枝的方式,用此超参数限制叶子节点最少的样本数,那么当叶子节点的样本数小于这个阈值时,则此节点会和兄弟节点一起被剪枝。Ytest表示数据集里标签列划分出的测试集,用于评估训练出的模型好坏,作为评估模型时的类标签数据。2)Ytrain、Ytest分别表示什么?
2023-04-24 22:38:31
425
原创 数据挖掘分类算法——回归扩展练习
sklearn.metrics.r2_score():输入内容为真实标签、预测标签,基于输入的这两个数组一个为真实值,即真实的测试集,一个为预测值。计算原理为,将真实的测试值标签与由predict()函数计算得到的Xtest的预测结果比较,根据公式。.score():输入内容为测试集X,测试集Y标签,用LinearRegression()模型调用该方法后先再根据方法的评分原则计算Xtest和Ytest的拟合程度。2)利用metrics模块计算绝对均值误差MAE(mean_absolute_error)
2023-04-13 10:22:36
122
原创 统计学笔记
复合型时间序列的预测步骤复合型序列是指含有趋势性、季节性、周期性和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后再进行预测,分解法预测通常按下面的步骤进行。 1 确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,用每一个时间序列观测值除以相应的季节指数,以消除季节性。2 建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。3计算出最后的预测值,用预测值乘以相应的季节
2022-11-19 10:18:19
1804
原创 实例1:利用pyecharts绘制3D柱状图 (相关数据可视化课设可在付费资源获取)
利用pyecharts中的3D柱状图模块对三维数据实现可视化。
2022-06-27 16:47:16
2273
原创 应用统计学 笔记
统计学定义:统计学是一门收集,处理,分析,解释并从中得出结论的科学。核心:数据数据分析步骤:收集数据=》处理数据=》分析数据=》解释数据统计学运用在分析数据的方法分为两大类:描述性数据方法。总体规模、对比关系、集中趋势、离散程度、偏态、峰态、......推断性数据分析方法。估计、假设检验、列联分析、方差分析、相关分析、回归分析、......描述统计、推断统计两大类统计学的对象是数据数据有两种形式:数字和文字。如何区分文字和数字:是否可以运算。将数据按照计量尺度不同分三种:计..
2022-05-15 14:52:24
1430
原创 Hbase的安装和多节点配置
Hbase的环境配置分为单机模拟配置、伪分布式及完全分布式。由于完全分布式需要另外安装zookeeper,配置极为麻烦,故这里说明伪分布式的安装步骤。从官网中下载hbase文件包官网下载地址:Apache HBase – Apache HBase™ Home 下载链接,由于官网下载较慢,建议复制链接到讯雷里。2、安装配置hbase将下载好的hbase文件包用tar-zvxf ‘hbase-2.4.11-bin.tar.gz’命令解压。...
2022-05-01 23:28:30
1920
1
原创 自然语言处理:词性标注
步骤一:导入 jieba 库,对文本内容进行分词处理。导入 jieba 库的 posseg 模块,对文本进行分词标注。步骤二:词性统计: 导入 pandas 库,提取出标注返回结果的每项元素的 flag 部分,即词性部分,随后 用 pandas 中的 value_counts 进行词性统计,并用 head()函数返回出现最多的前十行。 词性种类统计: 将原标记数据进行去重处理,再遍历去重后的数据,此时若同样的词出现 n 次,即 为词一样但对应词性不一样,也就是说一个词包
2022-04-26 09:48:48
693
原创 用逆向最大匹配法实现分词处理(python)
流程图:#逆向最大匹配classIMM(object):def__init__(self,dic_path):self.dictionary=set() #定义集合self.maximum=0 #定义最大匹配长度withopen(dic_path,'r',encoding='utf-8')asf: #将存储路径中的语料库打开forlineinf:...
2022-04-08 13:51:54
1490
转载 解决虚拟机ubuntu系统wired选项缺失问题
sudo service network-manager stopsudo rm /var/lib/NetworkManager/NetworkManager.statesudo service network-manager start屡试不爽
2022-03-22 15:51:04
786
原创 按照老师的方式,将四分位距的统计学异常检测如法炮制
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata = pd.read_excel("D:\\dataspace\\已结束项目任务数据.xls")data=pd.DataFrame(data)print(data)x0=data.iloc[:,1]x1=data.iloc[:,2]# 选取经纬度两列特征# 计算下四分位点q1=x0.quantile(0.25)print("q1",q1).
2021-12-11 17:00:12
906
原创 爬取豆瓣以及王者所有英雄信息实验报告(小生不才,记得点赞加关注)
实验任务准备工作 学习网络爬虫相关知识和Python编程语法 学习爬虫需要调用的模块用法 python爬虫练习实验 练习urllib、bs、re、xlwt库的调用(了解requests第三方库) 熟悉网络爬虫流程 实验内容任务1(70分):爬取豆瓣电影Top250的基本信息,包括电影的名称(中英文名称分开或者存储为一列都可以)、豆瓣评分、评价数、电影链接,并自动存储生成exce表格。url:豆瓣电影 Top 250此实验需要定义四大模块:主函数模块、url请求模块、..
2021-12-03 21:21:33
1794
3
原创 第十三周数据预处理实验
实验任务准备工作 学习数据预处理描述性分析的内容 在学习通下载文件“insurance.csv”和“doc_sim.csv” 实验内容任务1:导入文件“insurance.csv”,只选取“age”“bmi”“children”“charges”四列属性。导入文件并查看信息:提取“age”“bmi”“children”“charges”四列属性组成新的二维表:任务2:分别计算四列数据的均值、中位数、众数、极差、方差、标准差和上四分位数。...
2021-12-01 23:08:25
1791
2
原创 整理五种相似性和相异性的度量方法
1、首先,先了解相似性和相异度的概念:相似度:两个对象之间相似程度的数值度量,取值范围为0到1。相异度:两个对象之间差异程度的数值度量,通常用“距离”衡量。2、标称属性(含二元属性)相似度和相异度:标称属性可以取2个或多个状态。假设一个标称属性的状态数目为M,则标称数据对象i和标称数据对象j之间的相异性可以根据不匹配率来计算。示例:如图,该图所展示的四类属性均为二元属性,即两个状态。0/1若将小明作为标称数据对象i,小刚作为标称数据对象j,计算两者的相异性与相似性。..
2021-11-28 20:14:23
9506
原创 安卓开发实战——题库
5. (单选题, 10.0分)Android开发中,如果TableL ayout的第一个TableRow有两个控件, 第二个TableRow有三个控件,那这个TableL ayout的列数为。4.(判断题, 10.0分)使用XML布局文件控制界面布局,能够有效的将界面中布局的代码和Java代码隔离,使程序的结构更加清晰。2. (单选题, 10.0分)下列选项中,属于设置帧布局容器中前景图像的属性的是 A. android:foreground。A.在模拟器上可预览和测试Android应用程序。
2021-11-26 20:23:40
9562
原创 linux第十三周作业 shell脚本应用2
课堂实验--文件操作实验任务准备工作 学习Linux shell编程 实验内容任务1:编写脚本程序,判断两个输入参数的数值关系,并输出结果。If elif else 分支语句进行数值比较:$1表示传入的第一个参数,$2表示传入的第二个参数,再通过[ 判断条件 ]语句进行数值比较,其中-gt是大于,-lt是小于。还可用read传入参数。任务2:编写脚本程序,根据输入参数(数字1-7),输出对应的是周几(Monday、Tuesday...Sunday),(使用c..
2021-11-26 18:31:30
1434
1
原创 数据挖掘期中作业(用朴素贝叶斯和决策树挖掘恒星特征)
业务理解(Business Understanding)此次项目的目标是对star.csv数据集中的恒星进行分类挖掘,根据其六个特征使用不同的分类算法建模,对六个标签类别的恒星分类,并探索评估模型的效果。挖掘任务分为四部分:数据准备、数据预处理、建模实例化、评估模型。 目标 这次数据挖掘任务的目标。将star.csv数据集中的数据预处理,对非数值型的特征数据数值化。用分类器划分训练集、测试集。并用贝叶斯和决策树算法建模并训练模型,实现分类及模型评估,得到混淆矩阵、决策树分类图、热力图等成
2021-11-26 14:47:35
1408
2
原创 0-1背包问题的多种办法求解
目录一、问题分析 (一)、题目 (二)、问题分析 二、设计思路 1.回溯法 2.分支限界法 3.动态规划 三、算法设计/问题求解特色及关键技术 (一) 算法设计/问题求解特点 (1) 动态规划法: (2) 回溯法 (3) 分支限界法 四、 算法测试 (一)动态规划法测试时间: (二) 回溯法运行时间: (三) 分支限界法运行时间 五、实验体会 一、问题分析(一)、题目给定n种物品和一个背包。物品i的重量是Wi,其...
2021-06-27 13:26:12
6530
2
大数据AI博客题目信息数据汇总表
2023-12-27
拍照任务数据表-用于异常检测
2023-07-09
安卓期末考试备考-题库
2023-05-31
python图像处理-图片资源
2023-05-30
共享单车训练数据bike-train.csv
2023-05-17
单因子检验(回归法及IC值法)源码及课件
2023-05-16
python-金融数据挖掘-基于统计学模型的乐高玩具商品价格研究.zip
2023-05-15
40000+条考研信息—数据分析与可视化课程设计(基于python中 pandas、matplotlib、pyecharts库)
2022-06-27
用基本SIR模型实现对美国2020年新冠疫情的预测分析
2022-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人