
特征工程
文章平均质量分 55
一杯拿铁go
好记性不如烂笔头
展开
-
matplotlib简单使用
0,基础部分一个figure可以有多个坐标。pyplot.subplots创建一个独立的坐标轴,来线上数据。plot函数将数据绘制到坐标轴上。两种风格的画图方式(OO-style和pyplot-style)#OO-style fig, ax = plt.subplots() # Create a figure containing a single axes. ax.plot([1, 2, 3, 4], [1, 4, 2, 3]) # Plot some data on the axes. ..原创 2021-09-29 17:07:45 · 238 阅读 · 0 评论 -
特征筛选--卡方检验
会粗略讲一下原理,主要在代码以及之后的实践上。主要用scala代码为例。一,卡方检验的步骤第一步确认“无关性假设”给出“原假设”和“备择假设”。通常卡方中的原假设是两个变量是独立没关系的。给出统计表:第二步,根据无关性假设生成新的理论值四格表显然,若是两个变量是独立无关的,那么四格表中的理论值与实际值的差别会很是小。第三步,计算X^2的值第四步根据自由度查表来判断是否相关。这里须要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四原创 2021-04-22 17:53:00 · 1170 阅读 · 0 评论 -
训练样本的处理以及注意事项
官网:https://scikit-learn.org/stable/index.html在经过了数据的筛选,数据的清洗、数据的特征处理,给数据加标签之后就得到了数据的训练样本了。在得到训练样本之后还是要对训练样本做进步一的处理。需要考虑的问题有,训练样本的正负样本数的比例是怎么样的。比如在实际的应用场景中正负样本的比例的10:1,那么在训练数据的时候要保证训练数据和测试数据的正负样本比例...原创 2020-03-10 16:33:38 · 1669 阅读 · 0 评论