
Pandas
肉bot
这个作者很懒,什么都没留下…
展开
-
Datawhale数据分析-建模与评估
建模与评估一级目录二级目录三级目录模型建立1. 清洗数据2. 选择模型3. 分割数据集4. 模型创建5. 输出预测结果评估1. 目的2. 交叉验证3. 评价数据对于一些思考问题的想法1. 清洗前后数据的不同:2. 数据集哪些差异会导致模型在拟合数据是发生变化3. 什么情况下切割数据集的时候不用进行随机选取4. 为什么线性模型可以进行分类任务,背后是怎么的数学关系5. 对于多分类问题,线性模型是怎么进行分类的6. 预测标签的概率对我们有什么帮助 一级目录 二级目录 三级目录 模型建立 1. 清洗数据 由于最初原创 2020-08-28 17:07:22 · 1021 阅读 · 0 评论 -
对几种数据可视化工具的用途
柱状图 这类图形比较适合直观的表达离散型特征对分类结果的影响 比如泰坦尼克号数据集中男女中死亡人数的可视化: #泰坦尼克号数据集中男女中死亡人数 data.groupby(['Sex','Survived'])['Survived'].count().unstack().plot(kind='bar',stacked='True') # stack: 两个图标叠加在一起 plt.title('Survived people') plt.ylabel('Number') plt.xlabel('Sex')原创 2020-08-24 23:03:35 · 472 阅读 · 0 评论 -
Datawhale数据重构
数据分析-数据重构concatjoinmergeappendDataFrame-->SeriesGroupby concat concat :join another DataFrame 重要参数: axis = 1 横向合并 axis = 0(default) 纵向合并 ignore_index: default False: 此时的index只是两个DataFrame的组合,并没有重新排序 True: index重新排序 # axis =1 各表在横向拼接 result_up = pd.conca原创 2020-08-24 20:58:47 · 395 阅读 · 0 评论 -
Datawhale机器学习-决策树感想
机器学习-决策树学习笔记理论模型代码和参数criterionmax_depthmin_samples_leaf怎样提高准确率数据处理调整参数总结 理论 个人对决策树理论的理解:决策树就像是由不同层级的很多选择器的组合,这些选择器内部的criteria是通过对训练集中的数据学习得到的。之后有新的数据传入时,选择器就一层层的对输入数据做判断,最底层选择器给出最有可能的分类结果 模型代码和参数 tree_clf = DecisionTreeClassifier() 其中可设置的重要参数有: criterion原创 2020-08-22 21:10:30 · 827 阅读 · 0 评论 -
Datawhale 数据分析打卡2-数据清洗及特征处理
数据清洗及特征处理一. Why clean data?二. 数据清洗三. 特征观察与处理四. 总结 一. Why clean data? 在导入数据并进行一些初始操作对数据有一个初步认识之后,需要开始数据清洗以及重构,将原始数据变为一个更好用的数据,为之后放入模型做准备。 二. 数据清洗 在原始数据集中经常会出现缺失值,异常点等,如果将这些数据直接放入模型中进行训练,肯定会影响训练效果。所以说要对raw data进行清洗将其变成可分析的数据集 常用的函数和功能: 查看缺失值 首先要查看下哪些列有较多的缺失值原创 2020-08-20 21:05:24 · 507 阅读 · 0 评论 -
Datawhale-机器学习打卡1
Datawhale机器学习 逻辑回归 逻辑回归主要解决分类问题,分类问题函数是不连续的阶跃函数,且函数边界[0,1]. sigmoid函数曲线与阶跃函数曲线很相似,z>0, sigmoid(z)>0.5, z<0 sigmoid(z)<0.5,其本身具有分类属性,函数在0到1之间。 而且sigmoid函数求导方便,而且cost function可以用log函数表达,log函数具有convex属性,易于求解。sigmoid函数连续可以借用方程θX表示z, 假设θX>0,y=1,原创 2020-08-19 21:36:17 · 342 阅读 · 0 评论 -
Datawhale 数据分析打卡1
Data Analysis数据分析-1.数据基础操作1. 数据载入及观察2. pandas基础3. 探索性数据分析总结 数据分析-1.数据基础操作 参加了由Datawhale举办的小组学习活动,学习内容为数据分析,记录下第一章的所学内容 1. 数据载入及观察 在数据处理中,第一步通常都需要导入数据,并进行对数据的初步预览 导入库 导入所需数据库:import numpy as np; import pandas as pd 载入数据 pd.read_csv(‘filename’), csv为文件格式,可替原创 2020-08-18 23:17:17 · 239 阅读 · 0 评论