处理和转化自己的数据
1)过滤损坏或丢失的数据。
2)填补损坏或丢失的数据。
3)增加潜在问题的鲁棒性
从你的数据中提取有意义的特征
1)数字特征:一般为整形,如年龄等
2)类别特征:例如性别
3)文本特征:例如电影名,描述等
有以下几个方法处理:
1.Tokenization : 标记化
2.Stop word removal: 停用词移除
3.Stemming: 字干搜索
4.Vectorization: 向量化
4)其他特征:如video,地理位置(经纬度)等
可用的库:
NLTK in Python;
OpenNLP in Java;
Breeze and Chalk in Scala
本文探讨了数据处理的关键步骤,包括过滤、填补缺失数据、增强鲁棒性,并介绍了从数据中提取有意义特征的方法,涉及数字、类别、文本特征及处理技术。重点提及了NLTK、OpenNLP、Breeze和Chalk等库在Python、Java和Scala中的应用。
1630

被折叠的 条评论
为什么被折叠?



