sklearn与特征工程
数据的来源与类型
来源
大部分数据来源于已有的数据库、与爬虫工程师的采集
数据的类型
按数据分类
标称型:标称型目标变量的结果只在有限目标中取值(如真与假)主要用于分类
数值型:数值型目标变量则可以从无限的数值集合中取值 (如0.100 ,42.001)主要用于回归分析
按数据的分布分类
离散型:离散变量是指其数值只能用自然或整数单位计算的则为离散变量 (班级人数)
连续型:指在指定区间内可以是任意一个数值(票房数据)
大部分数据来源于已有的数据库、与爬虫工程师的采集
标称型:标称型目标变量的结果只在有限目标中取值(如真与假)主要用于分类
数值型:数值型目标变量则可以从无限的数值集合中取值 (如0.100 ,42.001)主要用于回归分析
离散型:离散变量是指其数值只能用自然或整数单位计算的则为离散变量 (班级人数)
连续型:指在指定区间内可以是任意一个数值(票房数据)