- 博客(5)
- 收藏
- 关注
原创 数据读取输出
读取数据import pandas as pdpd.read_csv('path', sep = '', header = None)pd.read_table('path', sep = '', header = None)path:文件路径sep: 数据的间隔符号header: 列名的行号,默认为0即第一行是列名,如果没有列名则header = None
2018-01-11 13:25:17
332
原创 Pipeline和FeatureUnion的学习
Pipeline有关链接官方:http://scikit-learn.org/stable/modules/pipeline.html#pipelinePipeline and FeatureUnion点击打开链接pipeline.Pipeline()参数例子:点击打开链接 点击打开链接点击打开链接点击打开链接别人博客:
2017-07-23 15:28:37
477
原创 os.path.join/os.mkdir/read_csv等
os.path.join( path1[, path2[, ....]] ) : 将path1和path2等连成同一个路径;os.getcwd() : 返回当前工作目录;os.chdir( path ) : 改变工作目录为path;os.listdir( path ) : 列举path路径中的文件名,字符串列表形式返回;*注意:‘.‘:当前
2017-07-03 13:52:16
575
原创 strip函数
strip函数str.strip(rm)当rm为空时,默认删除空白符(‘\n’,'\t','\r',' ')>>> a=' 123'>>> a.strip()'123'>>> a='\n 123 '>>> a.strip()'123'>>> a='\r 123 \n'>>> a.strip()'123'当rm不为空:这
2017-03-22 16:49:49
877
原创 决策树之信息增益
对于决策树,根据其划分属性的不同,有决策树之信息增益、决策树之信息增益率、决策树之基尼指数。我们先了解决策树之信息增益。信息熵:衡量样本集合纯度的一种指标。信息熵越小表明纯度越高,反之则纯度越低。 其中,Ent(D)表示样本集合D的信息熵,样本集合D中有k类样本,其所占比例为 ,(k=1,2,…|y|)tips:此间所说的k类样本就是我们分类标签的类别,当分类是0—
2017-03-16 15:03:28
3222
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅