
数据分析
文章平均质量分 52
数据分析
重工黑大帅
希望我希望的都有希望
展开
-
决策树初学
决策树初学from sklearn.tree import DecisionTreeClassifier as DTCfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitwine = load_wine()x_train,x_test,y_train,y_test = train_test_split(wine.data,wine.target,test_size=0.原创 2021-03-31 21:17:06 · 131 阅读 · 0 评论 -
逻辑回归初学2
逻辑回归初学老规矩,导入库from sklearn.linear_model import LogisticRegression as LRimport numpy as npfrom matplotlib import pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.datasets import lo原创 2021-03-31 21:12:31 · 81 阅读 · 0 评论 -
逻辑回归初学1
逻辑回归初学老规矩,导入库from sklearn.linear_model import LogisticRegression as LRimport numpy as npfrom matplotlib import pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.datasets import lo原创 2021-03-31 21:08:12 · 189 阅读 · 0 评论 -
多元线性回归初学
多元线性回归初学导入库from sklearn.linear_model import LinearRegression as LRfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets import fetch_california_housing as fchimport pandas as pdimport numpy as npfrom matplotlib import pyplot as p原创 2021-03-31 21:04:03 · 133 阅读 · 0 评论 -
线性回归初学
线性回归初学导入库import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt开始操作x = np.array([1,2,3])y = np.array([4,5,6])xarray([1, 2, 3])#laterx = np.array([1,2,3]).reshape(-1,1)y = np.array([4,5,6]).reshape(-1,1)xarray([[1],[2],原创 2021-03-31 20:57:30 · 142 阅读 · 0 评论 -
数据规约初学
数据规约初学库的导入import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False成绩分级练习score = pd.read_excel('./在线考试成绩.xls')score.head()分级final = pd.cut(score[原创 2021-03-31 20:53:26 · 124 阅读 · 0 评论 -
数据集成初学
导入相关函数库import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号导入数据use_basicinf = pd.read_csv('./附件3:用户基本信息.csv',encoding = 'gbk')us原创 2021-03-25 16:51:02 · 126 阅读 · 0 评论 -
特征分析初学
import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号分布分析score = pd.read_csv('./score.csv')score.head()x = [0,60,70,80,90原创 2021-03-24 20:49:28 · 105 阅读 · 0 评论 -
数据清洗初学
导入相应库和数据import pandas as pdsale = pd.read_excel("./catering_sale.xls")查看数据sale开始处理pd.notnull(sale["销量"]).value_counts()sale["销量"].fillna(sale["销量"].mean()) #找到空行,T为转置,即行与列交换位置sale[sale.isnull().T.any()]#为什么转置,可查看sale.isnull().any()与sale.isnul原创 2021-03-24 20:41:25 · 107 阅读 · 0 评论 -
pandas初学
为什么要学习pandas问题来了:numpy已经能够帮助我们处理数据,能够结合matplotlib解决我们数据分析的问题,那么pandas学习的目的在什么地方呢?numpy能够帮我们处理处理数值型数据,但是这还不够很多时候,我们的数据除了数值之外,还有字符串,还有时间序列等比如:我们通过爬虫获取到了存储在数据库中的数据比如:之前youtube的例子中除了数值之外还有国家的信息,视频的分类(tag)信息,标题信息等所以,numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于nump原创 2021-03-24 20:36:56 · 125 阅读 · 0 评论 -
numpy初学
为什么要学习numpy?快速方便科学计算的基础库什么是numpy?一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算numpy中常见的数据类型数组的形状numpy更多好用的方法获取最大值最小值的位置np.argmax(t,axis=0)np.argmin(t,axis=1)创建一个全0的数组: np.zeros((3,4))创建一个全1的数组:np.ones((3,4))创建一个对角线为1的正原创 2021-03-24 20:30:36 · 100 阅读 · 0 评论 -
matplotlib初学
matplotlib初学首先思考一个问题:matplotlib只能绘制折线图么?其实并不是的;matplotlib能够绘制折线图,散点图,柱状图,直方图,箱线图,饼图等;但是,我们需要知道不同的统计图到底能够表示出什么,以此来决定选择哪种统计图来更直观的呈现我们的数据。我们用一个简单的实例来引出matplotlib你获取到了2019年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?a =[“哪吒之魔童降世”,“流浪地球”,“复仇者联盟4:终局之战”,原创 2021-03-24 20:23:01 · 126 阅读 · 0 评论