利用Azure Databricks进行时间序列数据处理与文本特征提取
1. 时间序列数据源
在数据科学和工程领域,处理时间序列数据是一项常见挑战。包含地理空间或交易数据的数据集,常见于金融和经济应用领域,通常会以时间戳进行索引。处理金融、欺诈检测或社会经济时间序列数据时,往往需要对数据点进行连接、聚合和可视化操作。
时间序列数据的日期时间格式多样,不仅格式本身不同,所包含的信息也有差异,如 DD/MM/YYYY 和 MM/DD/YYYY 格式。若误解这些格式,可能导致操作失败或结果错误。而且,这些数据并非数值格式,这会给机器学习和深度学习算法的处理带来困难。
特征工程可解决这些问题,它能将数据转换并创建新特征。例如,将数据重组为日、月、年等数值特征,还可使用动态时间规整技术比较不同长度的时间序列。
在Azure Databricks中,可对时间序列数据进行连接、聚合和窗口操作,且能并行处理。Koalas API提供类似Pandas的语法,便于从实验过渡到生产环境。
以下是处理金融时间序列数据的具体步骤:
1. 下载数据 :在Azure笔记本单元格中运行以下代码下载示例数据:
%sh
wget https://pages.databricks.com/rs/094-YMS-629/images/ASOF_Quotes.csv ;
wget https://pages.databricks.com/rs/094-YMS-629/images/ASOF_Trad
超级会员免费看
订阅专栏 解锁全文

38

被折叠的 条评论
为什么被折叠?



