【第四章:Sentosa_DSML社区版-数据读入】

目录

4.1 数据库读入

4.2 文本算子

4.3 Excel读入

4.4 拟合数据生成

4.5 随机数据生成

4.6 马尔可夫数据源

4.7 XML读入


【第四章:Sentosa_DSML社区版-数据读入】

        Sentosa_DSML社区版-数据读入:数据读入类算子是给算子流提供数据的算子,将数据从文件或不同的数据库中引入到算子流中,支持文本文件、 Excel 、流数据和多种数据库数据的读入。数据读入类算子也是算子流的最前端算子,只能连接后端节点。

4.1 数据库读入

1.算子介绍

        数据库读入算子(JDBCSourceNode)支持读取JDBC 兼容关系数据库,读取外部数据库数据。

2.算子类型

        数据读入算子

3.算子属性说明 

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

database_source

数据库类型

必填

String

默认(mysql)

mysql,sqlserver,db2,oracle

指定读取的数据库类型

url

数据库地址

必填

String

默认(无)

指定读取数据库的地址

port

端口

必填

Integer

默认(无)

指定读取数据库的端口号

database_name

库名

必填

String

默认(无)

mysql,sqlserver,db2

读取的库名

table

表名

必填

String

默认(无)

读取的表名

user

用户名

必填

String

默认(无)

数据库用户名

password

密码

必填

String

默认(无)

数据库密码

schema

Schema名称

必填

String

默认(system)

db2

DB2的schema

sid

Oracle系统标识号sid

必填

String

默认(orcl)

oracle

Oracle系统标识号sid

userProperty

连接属性

选填

HashMap<String,Object>

默认(无

mysql,sqlserver

用户自定义连接属性

数据库读入算子属性设置

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

数据库读入算子属性设置 

        注:点击图中“+”,可以添加额外的数据库连接属性;点击图中“-”,可以删除之前额外添加的数据库属性

(3)算子的运行

        操作参考公共操作。

(4)可接算子类型说明

        该算子后可接数据写出算子,数据处理算子(例,行处理,列处理等),图表分析算子等形成算子流运行,算子流运行参考公共操作。

4.2 文本算子

1.算子介绍

        文本算子(FileSourceNode)支持从HDFS和本地文件读取数据。如果Sentosa_DSML社区版是以YARN集群启动,则只支持从HDFS读取数据;如果Sentosa_DSML社区版以LOCAL模式启动,则只支持从服务启动的机器本地读取数据。支持的文件格式共六种:csv、text、json、parquet、libsvm、orc。

2.算子类型

        数据读入算子。

3.算子属性说明

        文件格式csv时,输入参数说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

path

文件路径

必选

String

设置读取文件的路径。可以手写,也可以点击后面文件夹图标进行选择。如果做了路径限制,则只能写或者选允许的路径。

format

文件格式

必选

String

csv

单选:csv,json,text,parquet,libsvm,orc

设置读入文件格式

header

以首行字段作为列的名称

必选

Boolean

单选:是,否

是否使用第一行作为列的名称,如果选false,系统会自动设置列名。

sep

分隔符设置

必选

String

逗号

单选:逗号,分号,制表符,空格,其他

设置数据的分隔符

encoding

编码

必选

String

utf-8

单选:UTF-8,GBK

设置编码格式

infer_schema

自动推断列的数据类型

必选

Boolean

单选:是,否

是否自动推断列的类型

ignore_leading_white_space

是否跳过正在读取数据的前导空格

必选

Boolean

单选:是,否

是否跳过正在读取数据的前导空白

ignore_trailing_white_space

是否跳过正在读取数据的尾随空格

必选<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值