- 博客(13)
- 收藏
- 关注
原创 kettlle的windows集群的搭建
Windows上kettle集群搭建(三台)10.0.130.101(master) 10.0.130.101(slave) 10.0.130.101(slave)1.解压kettle包到本地文件夹2.首先确认本机是否有tomcat运行,因为kettle集群的master默认采用8080端口,这和tomcat的默认端口是冲突的,当然可以进行端口修改,自定义使用端口3.打开kettle的安装目录,进入到data-integration->pwd目录,找到carte-config-master-
2020-10-17 09:59:06
311
原创 SparkSQL基于Hbase自定义数据源
package object hbase {//类型的封装(spark和hbase)abstract class SchemaField extends Serializable//spark的schema封装case class RegisterSchemaField(fieldName:String , fieldType:String) extends SchemaField with Serializable//hbase的schema封装case class HbaseSchemaFi
2020-09-09 17:27:01
409
原创 sparkStreaming监控的两种方式
注意:里面用到的一些特殊类或者接口请看我的离线监控就能找到import com.cartravel.loggings.Loggingimport com.cartravel.tools.{PropertiesUtil, SparkMetricsUtils}import org.apache.spark.rdd.RDDimport org.joda.time.DateTimeimport org.json4s.DefaultFormatsimport org.json4s.jackson.Json
2020-09-09 13:56:05
1339
原创 spark基于源码进行离线任务监控
import javax.mail.Authenticator;import javax.mail.Message.RecipientType;import javax.mail.PasswordAuthentication;import javax.mail.Session;import javax.mail.Transport;import javax.mail.internet.InternetAddress;import javax.mail.internet.MimeMessage;
2020-09-09 10:31:24
432
1
原创 手动管理kafka的偏移量
package com.cartravel.kafkaimport java.lang.Longimport kafka.utils.{ZKGroupTopicDirs, ZkUtils}import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord, KafkaConsumer, NoOffsetForPartitionException}import org.apache.kafka.common.TopicPar
2020-09-09 09:09:50
612
原创 spark读取多目录生成parquet文件
package mcd.etl.cosmosimport java.io.Fileimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject scalaMegreData {def main(args: Array[String]): Unit = {val conf = new SparkConf().setMaster(“local[*]”).setAppName(“scalaMegreDat
2020-08-17 11:30:33
805
原创 spark读取hdfs上的多目录parquet文件
package mcd.etl.cosmosimport java.io.{File, PrintWriter}import java.net.URIimport org.apache.hadoop.conf.{Configurable, Configuration}import org.apache.hadoop.fs.Pathimport org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SparkSessio
2020-08-17 11:29:06
1758
原创 KNN算法简单操作 和 KNN的决策边界
KNN(属于监督学习)中几个需要考虑的问题:(1)怎样把一个物体表示成一个向量(2)怎样标记好每一个物体的标签(3)怎么计算两物体之间的距离/相似度(4)怎样选择合适的k注:第一个的数据来源于sklearn这学习库中from sklearn import datasets #使用自带数据集from sklearn.model_selection import train_test_...
2019-12-13 13:54:20
2178
原创 使用python语言编写的快速排序和冒泡排序
一:快速排序def qsort(my_list):if len(my_list) <= 1: return my_listreturn qsort([left_list for left_list in my_list[1:] if left_list < my_list[0]]) + my_list[0:1] + qsort([right_list for right_li...
2019-11-29 15:30:15
303
原创 python中装饰器的使用以及传参
def args_is_str(function_name):def wapper(a):t = type(a)if not isinstance(t(),str):print(“参数错误”)else:function_name(a)return wapper@args_is_strdef function_demo2(args):print(args)function_d...
2019-11-29 15:22:34
160
原创 centos7启动jenkins的问题
启动命令:systemctl start jenkins报错:Job for jenkins.service failed because the control process exited with error code. See “systemctl status jenkins.service” and “journalctl -xe” for details.在执行:[cento...
2019-11-13 13:51:00
2942
原创 spark-sql读取hdfs上的文件保存到redis中,这里是redis以集群模式为主
package sparkSqlimport org.apache.spark.SparkConfimport java.utilimport java.util.Propertiesimport org.apache.commons.math3.linear.SparseFieldVectorimport org.apache.commons.pool2.impl.GenericObj...
2019-10-09 10:29:22
1206
原创 spark集成springboot
关于springboot与spark集成 问题:就是我当时spark作业想要用spark-submint去提交,但是我spark的作业结果是要展示到前端页面上,当时不知道怎么去做,就针对这个问题让...
2019-09-26 18:02:44
1225
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人