目录
【第四章:Sentosa_DSML社区版-数据读入】
Sentosa_DSML社区版-数据读入:数据读入类算子是给算子流提供数据的算子,将数据从文件或不同的数据库中引入到算子流中,支持文本文件、 Excel 、流数据和多种数据库数据的读入。数据读入类算子也是算子流的最前端算子,只能连接后端节点。
4.1 数据库读入
1.算子介绍
数据库读入算子(JDBCSourceNode)支持读取JDBC 兼容关系数据库,读取外部数据库数据。
2.算子类型
数据读入算子
3.算子属性说明
属性 |
页面显示名称 |
选项 |
类型 |
默认值 |
约束规则 |
属性说明 |
database_source |
数据库类型 |
必填 |
String |
默认(mysql) |
mysql,sqlserver,db2,oracle |
指定读取的数据库类型 |
url |
数据库地址 |
必填 |
String |
默认(无) |
指定读取数据库的地址 |
|
port |
端口 |
必填 |
Integer |
默认(无) |
指定读取数据库的端口号 |
|
database_name |
库名 |
必填 |
String |
默认(无) |
mysql,sqlserver,db2 |
读取的库名 |
table |
表名 |
必填 |
String |
默认(无) |
读取的表名 |
|
user |
用户名 |
必填 |
String |
默认(无) |
数据库用户名 |
|
password |
密码 |
必填 |
String |
默认(无) |
数据库密码 |
|
schema |
Schema名称 |
必填 |
String |
默认(system) |
db2 |
DB2的schema |
sid |
Oracle系统标识号sid |
必填 |
String |
默认(orcl) |
oracle |
Oracle系统标识号sid |
userProperty |
连接属性 |
选填 |
HashMap<String,Object> |
默认(无 |
mysql,sqlserver |
用户自定义连接属性 |
数据库读入算子属性设置
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作。
(2)算子属性设置
数据库读入算子属性设置
注:点击图中“+”,可以添加额外的数据库连接属性;点击图中“-”,可以删除之前额外添加的数据库属性
(3)算子的运行
操作参考公共操作。
(4)可接算子类型说明
该算子后可接数据写出算子,数据处理算子(例,行处理,列处理等),图表分析算子等形成算子流运行,算子流运行参考公共操作。
4.2 文本算子
1.算子介绍
文本算子(FileSourceNode)支持从HDFS和本地文件读取数据。如果Sentosa_DSML社区版是以YARN集群启动,则只支持从HDFS读取数据;如果Sentosa_DSML社区版以LOCAL模式启动,则只支持从服务启动的机器本地读取数据。支持的文件格式共六种:csv、text、json、parquet、libsvm、orc。
2.算子类型
数据读入算子。
3.算子属性说明
文件格式csv时,输入参数说明
属性 |
页面显示名称 |
选项 |
类型 |
默认值 |
约束规则 |
属性说明 |
path |
文件路径 |
必选 |
String |
无 |
设置读取文件的路径。可以手写,也可以点击后面文件夹图标进行选择。如果做了路径限制,则只能写或者选允许的路径。 |
|
format |
文件格式 |
必选 |
String |
csv |
单选:csv,json,text,parquet,libsvm,orc |
设置读入文件格式 |
header |
以首行字段作为列的名称 |
必选 |
Boolean |
是 |
单选:是,否 |
是否使用第一行作为列的名称,如果选false,系统会自动设置列名。 |
sep |
分隔符设置 |
必选 |
String |
逗号 |
单选:逗号,分号,制表符,空格,其他 |
设置数据的分隔符 |
encoding |
编码 |
必选 |
String |
utf-8 |
单选:UTF-8,GBK |
设置编码格式 |
infer_schema |
自动推断列的数据类型 |
必选 |
Boolean |
是 |
单选:是,否 |
是否自动推断列的类型 |
ignore_leading_white_space |
是否跳过正在读取数据的前导空格 |
必选 |
Boolean |
是 |
单选:是,否 |
是否跳过正在读取数据的前导空白 |
ignore_trailing_white_space |
是否跳过正在读取数据的尾随空格 |
必选< |