
特征工程
文章平均质量分 81
Nicholas_Liu2017
这个作者很懒,什么都没留下…
展开
-
文本挖掘:手把手教你分析携程网评论数据
文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。首先评论数据如何获取?一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。本次文本分析中需要使用如下3个包:1)Rwordseg包用于分词2)tmcn用于转载 2017-07-24 15:39:18 · 11018 阅读 · 10 评论 -
特征工程(三) 数据标准化和归一化
归一化:1)把数据变成(0,1)之间的小数2)把有量纲表达式变成无量纲表达式 归一化算法有:1.线性转换 y=(x-MinValue)/(MaxValue-MinValue2.对数函数转换: y=log10(x)3.反余切函数转换 y=atan(x)*2/PI4.线性也与对数函数结合 式(1)将输入值换算为[转载 2017-07-08 19:43:57 · 6589 阅读 · 0 评论 -
特征工程(一)
特征工程在数据处理上,其重要性是有目共睹的,这里转载一篇写的十分好的知乎评论,可以看一下https://www.zhihu.com/question/29316149转载 2017-07-08 14:45:08 · 445 阅读 · 0 评论 -
特征工程(二)
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2017-07-08 14:40:38 · 605 阅读 · 0 评论