
数据分析
嗯_雅娴
数学系研究生
展开
-
sklearn决策树--泰坦尼克号幸存者预测
决策树的原理即利用不同的最优特征选择方法,优先选择样本纯度最高的特征来进行样本分类。其中:使用信息增益的决策树算法为 ID3;使用信息增益率的决策树算法为 C4.5;使用Gini指数的决策树算法为 CART算法。 ID3算法中,信息增益(Information gain)越大,数据越纯净,越有序,自然地我们优先选取信息增益最大的特征来分类样本。样本集的信息熵(Entorpy)的值越小...原创 2019-12-16 01:40:44 · 3079 阅读 · 0 评论 -
python数据分析之-pandas基础
from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all" #pandas基础import pandas as pdfrom pandas import Series, DataFrameimport numpy as np#S...原创 2019-11-28 00:48:07 · 285 阅读 · 0 评论 -
python-pandas基础
from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all" #pandas基础import pandas as pdfrom pandas import Series, DataFrameimport numpy as np#S...原创 2020-02-21 11:47:47 · 221 阅读 · 0 评论 -
python数据分析之Numpy基础
好久不看,基础都忘记了,再复习一遍!#numpy练习import numpy as np#生成随机数组data = np.random.randn(2,3)dataarray([[-0.11086926, 1.41892946, 1.28374622], [ 0.92468719, -0.09997067, 0.21467277]])#数组大小data...原创 2019-11-26 16:36:00 · 388 阅读 · 0 评论 -
数据分析指标汇总
一、网页访问数据指标IP (Internet Protocol) 独立IP通常采用独’立IP数, 理论上指00:00-24:00内相同IP地址重复访问只被计算一次。而不同的商业统计工具,缩短去掉重复统计的时间,也是数据统计放大的一个常用套路。(PS:在目前,尤其对企业用户群体中,一个公网独’立IP可能对应很多独’立终端,所以很多互联网公司已经放弃使用独’立IP作为统计口径了。)UV (Un...转载 2019-09-25 17:10:38 · 799 阅读 · 0 评论 -
房价预测--利用Python进行数据分析
原文链接:https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python/notebook文件说明: train.csv - the training set 训练集 test.csv - the test set 测试集 data_description.txt - 每列说明 ...原创 2019-10-10 23:23:06 · 4245 阅读 · 0 评论