
数据分析
文章平均质量分 51
数据分析
无穷QQ君
When nothing is sure, everything is possible. It can be done.
展开
-
matplotlib 双y轴公用一个x轴
目录1. legend 控制2. 线条控制线条类型:线条粗细:3. 透明度控制完整栗子1:完整栗子2:1. legend 控制功能:将图例放在图的外面# legend fig.legend(bbox_to_anchor=(0,1.02,1,0.2), loc="lower center", mode="expand", borderaxespad=1, ncol=3,fontsize=20)bbox_to_ancho.原创 2021-08-06 14:56:43 · 1398 阅读 · 1 评论 -
sns.heatmap 控制参数
cbar水平横放将x轴刻度放置在top位置的几种方法自定义x轴、y轴标签:xticklabels、yticklabels图例位置、名称、标签等设置:cbar_kws原创 2021-07-21 22:10:46 · 1820 阅读 · 0 评论 -
numpy.polyfit:LinAlgError: SVD did not converge in Linear Least Squares
原因:有NAN值解决方法:去除NAN值,例如去除a,b,c列中有NAN值的行data = data.dropna(axis=0,subset=['a', 'b','c'])reference:删除DataFrame中某列值为NaN的记录/行解决在使用numpy.polyfit 时出现的 raise LinAlgError("SVD did not converge in Linear Least Squares")错误...原创 2021-07-15 15:47:24 · 6396 阅读 · 0 评论 -
Image size of 512922x322 pixels is too large. It must be less than 2^16 in each direction
plt.figure(figsize=(10,8))sns.regplot(x=data[num],y=data['Building Area Unit Price'], marker="o",ci=95, scatter_kws={"color":"b","alpha":0.2,"s":3}, fit_reg=False )#线性回归 ci=95表示95%置信区间x = data['x'].to_n.原创 2021-07-15 15:37:22 · 9909 阅读 · 3 评论 -
pandas groupby分组运算
pandas.DataFrame.groupby官方文档栗子:计算各地区的“建筑面积尺价”均值average_price = data_Kowloon.groupby('地區')average_price['建築面積/呎價'].mean()Reference:https://www.cnblogs.com/lemonbit/p/6810972.html...原创 2021-01-04 11:33:01 · 467 阅读 · 0 评论 -
pyecharts Map与Geo画图笔记
1.安装pyechartspip install pyecharts==0.5.112.查看pyecharts版本import pyechartspyecharts.__version__3.MapMap是实现地图区域可视化,是区域可视化.Map依赖的是额外安装的地图包,如:如果要添加经纬度坐标,只能在源文件里添加修改源文件的地区名称及坐标:栗子:香港房价地图from pyecharts import Mapdistricts1=["中..原创 2021-01-04 11:11:09 · 2359 阅读 · 5 评论 -
pandas.date_range freq
pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=None, **kwargs)返回固定频率的DatetimeIndex。这个函数的作用就是产生一个DatetimeIndex,就是时间序列数据的索引。Parameters:start:str or datetime-like, optionalLeft bound for gene.原创 2020-12-18 17:41:22 · 555 阅读 · 1 评论 -
matplotlib画图
python中matplotlib的颜色及线条控制:参考https://www.cnblogs.com/darkknightzh/p/6117528.html原创 2020-12-16 16:05:33 · 172 阅读 · 0 评论 -
pandas 缺失值处理-不同列用不同的缺失值
values = {"Longitude":114.154861,"Latitude":22.331879}data = data.fillna(value=values)原创 2020-10-12 10:37:57 · 459 阅读 · 0 评论 -
pandas 利用value_counts() 去除类别样本
目标:去除屋苑类型中样本少于100的屋苑#counts是屋苑类别个数统计counts = data['屋苑'].value_counts()# 去除数据中屋苑个数小于100的样本data = data[~data['屋苑'].isin(counts[counts < 100].index)]原创 2020-09-12 15:26:59 · 876 阅读 · 0 评论 -
‘numpy.float64‘ object is not iterable
X,y 是一个list; line是array类型,因此使用extend方法会报错。list有多中迭代添加方法,其中extend和append是最常用的,区别在于:extend添加的是一个list,而append是任何数据类型。此处只是一个value,则应该使用append方法参考:https://blog.youkuaiyun.com/Dian1pei2xiao3/article/details/90212916...原创 2020-09-09 10:51:56 · 6185 阅读 · 0 评论 -
利用“箱线图”去除异常值
#包装了一个异常值处理的代码,可以调用def outliers_proc(data, col_name, scale=3): """ 用于清洗异常值,默认box_plot(scale=3)进行清洗 param data: 接收pandas数据格式 param col_name: pandas列名 param scale: 尺度 """ def box_plot_outliers(data_ser, box_scale): .原创 2020-09-07 18:15:52 · 21619 阅读 · 9 评论 -
Python 合并多个csv文件内容;pandas.DataFrame.columns写入标题
1.合并多个csv文件内容#----------------导包----------------------import pandas as pdimport os"""inputfile_dir 是多个csv文件的目录路径outputfile 是合并内容后输出的csv文件"""inputfile_dir = ".\input" outputfile = "all.csv"for inputfile in os.listdir(inputfile_dir): print(原创 2020-07-28 14:51:34 · 1478 阅读 · 0 评论 -
数据挖掘学习思维导图
原创 2020-06-02 14:46:25 · 1080 阅读 · 1 评论