- 博客(39)
- 资源 (1)
- 收藏
- 关注
原创 dataspace
{"type":"FeatureCollection","features":[{"type":"Feature","properties":{"adcode":654223,"name":"沙湾市","center":[85.622508,44.329544],"centroid":[85.46967,44.345745],"childrenNum":0,"level":"district","acroutes":[100000,650000,654200],"parent":{"adcode":6542
2023-11-18 21:22:25
284
原创 gaehrhrh
teams.microsoft.com/l/meetup-join/19:meeting_MDkyNzQxMDEtODA5Ny00ZDI1LThhNjktMWYxYmMyZWM4Y2Y0@thread.v2/0?context=%7B%22Tid%22:%22a8a4aed7-f228-48e2-bdd7-c2c82758d462%22,%22Oid%22:%2209919236-79f4-462b-814a-b85e39d92ba4%22%7
2023-07-07 18:30:04
182
原创 Df发送到kafka
import java.util.Properties import io.confluent.kafka.serializers.{AbstractKafkaAvroSerDeConfig, KafkaAvroSerializer}import org.apache.avro.Schemaimport org.apache.kafka.clients.CommonClientConfigsimport org.apache.kafka.clients.producer.{KafkaProducer, Pr
2023-04-04 09:27:06
378
原创 Kafka producer
import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}import org.apache.kafka.common.serialization.StringSerializerimport io.confluent.kafka.serializers.{KafkaAvroSerializer, AbstractKafkaAvroSer
2023-04-03 18:49:41
314
原创 Kafka consumer
import java.util.Propertiesimport org.apache.kafka.clients.consumer.{ConsumerConfig, KafkaConsumer}import scala.collection.JavaConverters._ object SimpleKafkaConsumer extends App { val props = new Properties() props.put(ConsumerConfig.BOOTSTRAP_SERVERS_
2023-04-03 13:34:18
289
原创 Apache avro转confluent avro
import org.apache.avro.Schemaimport org.apache.avro.generic.{GenericData, GenericRecord}import io.confluent.kafka.serializers.KafkaAvroSerializer val schemaString = """{"type":"record","name":"Test","fields":[{"name":"foo","type":"string"}]}"""val schema =
2023-04-03 09:52:21
300
原创 序列化avro schema
需要将SerializableBytes类定义在Spark应用程序的可访问范围内,例如定义在主类或者全局对象中。另外,由于Schema对象在executor端反序列化时会重新创建,因此需要确保Schema类的定义也在executor端的类路径下。// 将字节数组反序列化为schema对象。// 将字节数组包装为可序列化的对象。// 将schema转换为字节数组。
2023-03-31 20:58:27
396
原创 Spark Avro序列化
/ 使用上面提到的方法将 schema 序列化为字节数组并传递给 KafkaProducer。// 这里将 row 转换为 GenericRecord 并序列化为字节数组。// 根据字段类型设置 GenericRecord 中对应字段的值。// 处理其他类型,如 Union 类型、Map 类型等。// 遍历 Row 中每个字段。// 获取字段名和字段值。
2023-03-31 20:48:41
276
原创 使用 Avro 序列化器将 Spark Structured Streaming 数据发送到 Confluent Kafka
/ 定义 Avro 的 Schema,这里假设发送的数据包含一个 "name" 字段和一个 "age" 字段。.selectExpr("CAST(value AS STRING)") // 假设数据格式为 JSON。// 定义一个自定义的 ForeachWriter,用于将数据发送到 Kafka。// 定义 Structured Streaming 查询。// 定义 Avro 序列化器的配置信息。// 定义 Kafka 生产者的配置信息。
2023-03-31 01:14:42
356
原创 Avro发数据
然后,创建Kafka生产者并将Avro序列化器设置为值的序列化器。最后,使用生产者将Avro消息发送到Kafka。创建要发送到Kafka的Avro消息。
2023-03-31 01:03:36
202
原创 Spark sql怎么使用Kafka Avro序列化器
序列化数据并将其发送到Kafka:您可以使用KafkaAvroSerializer序列化数据并将其发送到Kafka主题中。在下面的代码中,我们使用foreach函数遍历DataFrame中的每一行,并将其序列化为Avro格式后发送到Kafka主题中。创建Kafka生产者实例:您需要使用org.apache.kafka.clients.producer.KafkaProducer类创建一个Kafka生产者实例。准备要序列化的数据:您需要将要序列化的数据准备好。
2023-03-31 00:57:32
670
原创 使用Kafka Avro序列化器将数据序列化为Avro格式并将其发送到Kafka topic
创建Kafka Avro序列化器:可以使用io.confluent.kafka.serializers.KafkaAvroSerializer类创建一个Kafka Avro序列化器实例。上述代码中,key.serializer和value.serializer分别指定键和值的序列化器。在这种情况下,键使用默认的StringSerializer,而值使用Kafka Avro序列化器。序列化数据并将其发送到Kafka:可以使用kafkaAvroSerializer序列化数据并将其发送到Kafka主题中。
2023-03-31 00:45:45
983
原创 Avro格式
/ 转换DataFrame并编码为Avro格式。// 初始化SparkSession。// 发送到Kafka。// 读取流式数据源。// 定义Avro模式。
2023-03-30 14:13:27
365
原创 Spark sql avro
/ 将 DataFrame 中的数据类型转换为 Avro schema 中的数据类型。// 将字节流反序列化为 Avro record。// 将 Avro 数据序列化为字节流。// 定义 Avro schema。// 创建一个 DataFrame。// 输出 Avro record。
2023-03-25 16:24:42
573
原创 spark Sql 更新json数据
有两个daframe,现在需要用backDF 中 new_id 更新 userDF 中的uid。由于环境原因,无法使用fastjson,故使用scala原生的json来解析。取出 userDF中的uid作为新的一列,与 backDF 进行join。scala 解析json,将js中的 uid 更新为新的 id。
2022-08-19 16:02:01
418
原创 spark sql 生成指定区间的日期
spark sql生成指定区间的日期 spark.sql( """ |select date_add(date_add(end_date, diff), a.pos) as date |from | ( | select posexplode(split(repeat(" ", datediff(end_date, date_add(end...
2022-04-19 13:54:11
3976
原创 Sqoop对于id是非自增的数据导入hive
ADB数据库里以天分区的表在20210513这一天有 4832257 条数据需要用sqoop将数据从ADB导入Hive由于数据的id是在一定范围内是无序的,使用 sqoop的 BoundingValsQuery 来查询出所有行数和结合 --boundary-query 指定边界查询 --split-by 指定切分的字段,需是int或者是integer类型的 -m 指定map task的个数这三个参数结合使用详情看官网http://sqoop.apache...
2021-05-17 16:52:00
317
原创 python3爬取斗鱼主播信息
爬取舞蹈区的主播信息如昵称,热度,直播标题,直播地址,主播头像1、抓包分析(https://www.douyu.com/g_dance)g_dance可以换成其他的,原理是一样的 通过首页分析得不到要请求的链接,如果是直接通过elements中的元素来解析的话得不到主播的头像url地址,通过分析是通过json文件来传值的,第一页找不到,换到第...
2019-12-18 17:20:06
963
2
原创 {"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.94.81.141"}
在爬取拉勾网的时候报错{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.94.81.141"}需要获取搜索结果那一页的cookie 以及header里面需要添加Accept、Referer、User-Agentimport requests url = 'https://www.lagou.com/jobs...
2019-08-28 23:57:25
7873
原创 Make sure that you use the correct version of 'pip' installed for your Python interpreter
像matplotlib在pycharm安装时候报错Make sure that you use the correct version of 'pip' installed for your Python interpreter就是在cmd进入下面的这个地址,然后运行 python.exe -m pip install matplotlib如果报错pip is co...
2019-04-20 15:30:00
45731
15
原创 配置java环境变量
1、右击电脑远属性2、在左边选高级系统设置3、选环境变量 4、新建JAVA_HOME 点击浏览目录找到你的java安装目录 5、新建CLASSPATH 把下面该的内容粘贴进去再点击确定 .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar 6、编辑path路径 ...
2018-11-17 10:57:00
228
原创 59. 螺旋矩阵 II
给定一个正整数 n,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的正方形矩阵。示例:输入: 3输出:[ [ 1, 2, 3 ], [ 8, 9, 4 ], [ 7, 6, 5 ]]class Solution { public static int[][] generateMatrix(int n) { int[][] a...
2018-11-13 17:34:39
158
原创 古风排版java版
7-7 古风排版(20 分)中国的古人写文字,是从右向左竖向排版的。本题就请你编写程序,把一段文字按古风排版。输入格式:输入在第一行给出一个正整数N(<100),是每一列的字符数。第二行给出一个长度不超过1000的非空字符串,以回车结束。输出格式:按古风格式排版给定的字符串,每列N个字符(除了最后一列可能不足N个)。输入样例:4This is a test case...
2018-11-09 20:37:09
862
原创 从HDFS文件系统中读写文件原理
1、从HDFS文件系统中写文件 1、客户端发起请求要写文件 /aa/jdk.tgz 2、namenode会检查该目录是否存在,返回是否可写 3、客户端请求写入第一个block 4、namenode返回3个datanode主机 5、挑选dn1,请求建立传输数据的连接,建立socket连接,请求带有参数,告诉dn1要传输给多少台机器 ...
2018-09-14 10:35:39
2240
原创 虚拟机配置静态ip地址(俗称固定ip地址)
1、以管理员的身份打开虚拟机,点击导航栏上面的 编辑-->虚拟网络编辑器 2、首先选中上面的VMnet8,在到下面的子网 ip 处编辑ip地址,可以改成192.168.8.0,最后点击右边的 NAT设置 3、在NAT中设置网关 i p,可以改成 192.168.8.2,最后点击确定就可以了,虚拟机的ip地...
2018-07-23 23:16:18
112731
18
原创 MapReduce实现每年的每月前两天温度最高排序
温度数据:1949-10-01 14:21:02 34c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 11:21:02 23c1950-10-02 12:21:02 41c1950-10-03 11:21:02 27c1951-07-01 12:21:02 45c...
2018-07-16 10:22:41
1951
1
原创 mysql配置环境变量(win 10)
1、安装完mysql后就需要配置环境变量 (win 10)选择“我的电脑”,单击右键,选择“属性->高级->环境变量中的系统变量,对 MYSQL_HOME、Path 这 2 个系统变量分别设置如下相应的值(设置原则:如果存在相应的变量,直接对该变量进行编辑,注意只添加不删除;如果该变量不存在,则新建后再编辑。)这里由于没有于是就新建一个环境变量 MYSQL_HOM MYSQL_H...
2018-06-15 01:32:48
191747
18
原创 HDFS的基本操作
HDFS的基本操作 命令行客户端的常用命令 1、上传文件到集群中hdfs dfs -put 本地路径 hdfs上的路径例如:把本地 linux 上root目录下的a.txt上传到集群中的根目录下 hadoop fs -put /root/a.txt /相同功能的另外一种写法hadoop fs -copyFromLocal /root/a.txt...
2018-06-13 13:26:58
563
原创 冒泡排序实现从小到大排序
public static void bubbleSort(int[] arr){ if(arr==null&&arr.length<2){ return; } for (int end = arr.length-1;end>0;end--){ for(int i =...
2018-06-12 18:03:28
4486
原创 新版Myeclipse创建sturt2项目
1、先创建web工程2、输入web 选Dynamic Web Project3、版本选择2.54、安装struts2 选中项目,然后右键,在Configure Facets里面有Install Apache Struts(2.x)5、install Apache Struts(2.x) 选好自己配置的tomcat,finish就可以了6、lib ...
2018-06-09 16:03:42
268
原创 JDK1.8在LINUX下安装步骤
在/usr/lib/目录下新建jvm文件夹,如果已有jvm文件夹,则将之前的JDK版本删除,即在jvm目录下执行命令:rm –rf *将JDK文件jdk-8u40-linux-x64.gz拷贝到/home/目录下;在/home/目录下执行命令(也就是把压缩包tar开到 /usr/lib/jvm 下面): tar zxvf ./jdk-8u40-linux-x64.gz -...
2018-06-06 13:55:17
578
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人