
数据分析
啥也不懂张biubiu
希望你也能吃饱
展开
-
用泰坦尼克号数据学习数据分析(二)
昨天提交了一次,结果有点惨,今天要好好做辣。填补age空缺,使用随机森林算法随机森林算法随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。...原创 2018-10-11 19:32:01 · 824 阅读 · 0 评论 -
用泰坦尼克号数据学习数据分析(三)
我用svm做的预测,发生了一件很神奇的事情,居然跟默认的结果相同。。from sklearn import svmrf = svm.SVC(gamma=0.001,C=105.)rf.fit(train_data,train_Survived)predictSurvived = rf.predict(age_df.values)age_df.info()test['Survive...原创 2018-10-12 23:00:54 · 451 阅读 · 0 评论 -
用泰坦尼克号数据学习数据分析(一)
用泰坦尼克号年龄和船费做线性回归,看两者是否有关联首先age中确实两百多项,补上平均年龄。 part_train_data = pd.read_csv('train1.csv',usecols=['Age','Fare','SibSp'])part_train_data['Age'] = part_train_data['Age'].fillna(part_train_data['...原创 2018-10-09 08:58:42 · 1072 阅读 · 0 评论 -
机器学习算法——随机森林算法
一、随机森林算法简介: Bagging算法: 1、从原始样本中使用bootstraping方法随机抽取n个训练样本,进行k轮抽取,得到k个训练集。训练集中元素可以有重复,k个训练集相互独立。 2、对于k个训练集,训练k个模型。 3、由投票决定分类结果。 决策树: ID3,C...原创 2018-11-01 11:44:52 · 1059 阅读 · 0 评论