- 博客(3)
- 收藏
- 关注
原创 决策树学习笔记Part_A
决策树学习PART_A 决策树是比赛与工作常用的分类预测算法,主要应用在二分类问题,该模型主要包含三种算法思想:分别是ID3、C4.5、CART算法 为了更好理解决策树,首先需要引入知识: 信息熵、条件熵(条件概率、联合分布) 信息熵 信息熵:热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。 简单理解就是度量信息的混乱程度,从概率上理解就是在一个样本空间理,随机进行一次抽样,我有可能抽到不同样本的情况多,就说明该样本空间不同的样本类别多,对应的是这个空间信息混乱程度高,
2021-10-15 00:00:34
300
原创 Boss直聘数据pandas清洗+tableau分析
Boss直聘数据pandas清洗+tableau分析 先加载库 import pandas as pd import numpy as np import re 预览dirty数据 boss_data_df= pd.read_csv('boss_data_guangzhuo.csv',encoding='gbk') boss_data_df.head(10) 主要任务 分离最低最高薪资 转换薪资为数值 清洗干净学历数据 分离最低最高薪资 df_split = boss_data_df["薪资"].
2020-11-14 16:53:50
809
原创 小白学习—Find小工具
基于运用OS库的文件查找小工具 对于os库,参考官方文档和其他博主的文章总结了以下的思维导图,这个小工具主要是用os.walk()进行遍历查找。 初学对于自己可以写出一个方便自己使用的小工具也是一件不错的事情,愿大家可以一起进步! 学习笔记 大家也可以尝试运行一下! Find小工具实现 import os def find_file(dirpath,keyword): quanlity...
2020-04-09 17:15:59
266
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅