高级数据准备与挑战数据处理
1. 文本数据特征工程
在数据处理中,从文本数据里挖掘隐藏信息是一种重要的特征工程技术。例如创建 CabinCode 和 TitleGroup 特征,这些新特征能为数据集提供额外信息,助力学习算法提升性能。发挥一点创造力,结合 stringr 和正则表达式知识,或许能让你在竞争中脱颖而出。
2. 使用lubridate清理日期
lubridate 包(https://lubridate.tidyverse.org )是处理日期和时间数据的重要工具。虽然并非每次分析都需要它,但一旦需要,能省去不少麻烦。在处理日期和时间时,像闰年和时区这类难以预料的细微因素,会让看似简单的任务变得复杂。
lubridate 有以下三个重要的特征工程优势:
- 考虑到日期和时间表达的地区差异,确保日期和时间数据能正确加载到R中。
- 准确计算日期和时间的差异,同时考虑时区和闰年因素。
- 考虑现实世界中对时间增量理解的差异,比如人们在生日时“长了一岁”。
2.1 读取日期到R中
日期有多种呈现格式,例如《Machine Learning with R》第一版的出版日期可以表示为:
- October 25, 2013(美国常见的长格式)
- 10/25/13(美国常见的短格式)
- 25 October 2013(欧洲常见的长格式)
- 25.10.13(欧洲常见的短格式)
- 2
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



