大数据风险评估与NoSQL数据库应用实践
贷款风险评估案例:数据处理与存储
在贷款风险评估案例中,我们将运用一系列技术来处理和分析数据,最终构建可视化报告。首先,使用Python的PySpark库来处理数据。以下是创建数据框架和注册临时表的代码:
from pyspark.sql.types import *
fields = [StructField(field_name,StringType(),True) for field_name in firstline]
schema = StructType(fields)
schemaLoans = sqlContext.createDataFrame(datalines, schema)
schemaLoans.registerTempTable("loans")
完成元数据准备后,就可以将数据插入Hive中。接下来执行查询并将表存储在Hive里。这里使用的是Hive自己的SQL方言HiveQL,并且将数据存储为Parquet文件,这是一种流行的大数据文件格式。具体操作步骤如下:
1. 删除可能存在的 LoansByTitle 表:
sqlContext.sql("drop table if exists LoansByTitle")
- 创建
LoansByTitle表,统计每个贷款目的的贷款数量:
NoSQL在大数据风险评估中的应用
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



