数据处理与可视化全流程指南
1. 使用 Parquet 工具验证
我们可以使用 Parquet 工具来确认存储在 Parquet 文件中的模式是否确实为 Avro 模式。具体操作命令如下:
/Users/Gabriel/Dropbox/arun/ScalaDataAnalysis/git/parquet-mr/parquet-tools/target/parquet-tools-1.6.0rc3/parquet-tools meta /Users/Gabriel/Dropbox/arun/ScalaDataAnalysis/Code/scaladataanalysisCB-tower/chapter3-data-loading-parquet/studentAvroPq
运行该命令后,如果输出显示如下额外部分,就可以确认 Avro 模式已存储:
creator: parquet-mr
extra: parquet.avro.schema = {"type":"record","name":"StudentAvro",
"namespace":"studentavro.avro","fields":[{"name":"id","type":[{"type":"st
ring","avro.java.string":"Stri [more]...
2. 从 RDBMS 加载数据
这里以 MySQL 为例,介绍从关系型数据库管理系统(RDBMS)加载数据的方法。假设你已经在机器上安装了 MySQL
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



