- 博客(19)
- 收藏
- 关注
原创 Python数据挖掘实验二:利用Python实现数据预处理
display("将缺失值替换为1.0:",iris.loc[9:18,:])display("替换为缺失值:",iris.loc[9:18,:])print("众数:",grade_mode.tolist())print("中位数:",grade_median)display("前三行设置为缺失值:",iris)print("数据框缺失值状况:\n",null)display("删除class列:",iris)display("删除所有缺失行:",iris)display("重新设置索引:",iris)
2024-05-08 17:33:33
803
1
原创 python数据可视化实验:subplot2grid子图的绘制
利用excel保存本人连续两周不同消费类别的支出数据,至少选择两种可视化图表展示两周消费数据和不同消费的占比情况,要求利用subplot2grid绘制在一个画布中,各子图有合理标题和坐标轴设置,子图间有合理间隔。
2024-03-28 11:19:06
331
原创 python数据可视化实验:subplots子图的绘制
设计一个存储洛阳市主要旅游景点门票收入的数据表,至少包括景点名称、门票价格、日期、游览人数等字段,添加至少五个景点某一周七天的数据到数据库。选择四种不同的可视化图表分别展示某一景点七天营收情况、所有景点每一天营收情况(按日期顺序)、所有景点总营收(按景点名称排序)、所有景点总营收(按营收排序)及三个参考线(最高营收、最低营收、平均营收),要求利用subplots绘制在一个画布中,各子图有合理标题和坐标轴设置,子图间有合理间隔。
2024-03-28 10:08:51
377
原创 pyspark报错解决:py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTime
使用pyspark运行时,报错下面内容。
2024-03-26 09:02:50
667
2
原创 DataFrame.loc和DataFrame.iloc
6.loc使用范围比iloc更广更实用,loc可以使用切片、名称 (index,columns)、也可以切片和名称混合使用;2.如果选取的是第几行,第几列时,用逗号且加中括号,比如说loc[[1,3],['name','age']],表示选取第2行和第3行以及‘name’列和‘age’列。1.如果选取的是范围的话,用冒号且不加中括号,比如说iloc[0:3,0:3],表示选取1-3行和1-3列。3.使用loc时,如果规定选取列的范围,必须使用列索引名称,而且,列索引名称之间必须用逗号隔开。
2024-03-23 00:30:23
3050
原创 python数据挖掘实验一:数据分析及可视化应用
2.根据给定的原始数据集创建一个DataFrame类型对象df3.查看df 5.查看行和列的索引值12.df增加一列gender_n,调用函数gender_count对性别进行标识
2024-03-22 23:55:12
965
1
原创 np.loadtxt读取文件以及注意事项
加载的文本文件必须具有一致的数据类型和相同的列数。unpack:如果为True,返回单独数组,默认为False,返回二维数组。函数用于从文本文件中加载数据,并将其存储为 ndarray 对象。fname:要加载的文件路径,这里建议写绝对路径,避免出错。usecols:要加载的列的索引或者范围,默认为None。dtype:返回的数组的数据类型,默认为float类型。comments:标识注释行的字符,默认为“#”skiprows:跳过开头的行数,默认为0。delimiter:分割字符,默认为空格。
2024-03-21 22:47:36
909
1
原创 python:matplotlib设置图的大小的两种方法
2.plt.rcParams[‘figure.figsize’]=(n, n),设置图的大小,先宽度后高度。1.plt.figure(figsize=(n, n)),修改图的大小,先宽度后高度。
2024-03-21 21:51:18
2908
1
原创 spark-shell(pyspark)单机模式使用和编写独立应用程序
我的是spark-3.3.3版本,日志文件名字为log4j2.properties.template,每个版本的日志文件名字不太一样,具体的,要按照自己安装的版本的日志文件来,复制日志文件。spark有四种部署方式:Local,Standalone,Spark on Mesos,Spark on yarn。进入python安装目录下的lib/site-packages目录下,使用pip下载安装pyspark,这里使用国内清华大学镜像网站。安装pyspark库成功后,重新运行代码,然后还是报错。
2024-03-21 12:17:01
2132
1
原创 pip安装更新第三方库报错解决
使用pip3更新pip之后还是报错上图,网上找了很多方法,最后发现后面需要再加一个--trusted-host。最后发现是python版本问题,我用的是python3,pip默认是python2,所以要改成。今天使用pip安装pyspark库的时候一直报错。
2024-03-21 11:14:10
770
1
原创 python.matplotlib中设置坐标轴的标签、刻度范围和刻度标签
【代码】python.matplotlib中设置坐标轴的标签、刻度范围和刻度标签。
2024-03-20 22:57:24
1744
2
原创 Python中subplot()和add_subplot()函数
画布大小为2*2,分为四块,图在在第一块的位置。设置画布大小以及图的位置。
2024-03-20 16:32:17
2352
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人