永远相信神话-优快云博客

原创 dataspace

{"type":"FeatureCollection","features":[{"type":"Feature","properties":{"adcode":654223,"name":"沙湾市","center":[85.622508,44.329544],"centroid":[85.46967,44.345745],"childrenNum":0,"level":"district","acroutes":[100000,650000,654200],"parent":{"adcode":6542

2023-11-18 21:22:25 284

原创 gaehrhrh

teams.microsoft.com/l/meetup-join/19:meeting_MDkyNzQxMDEtODA5Ny00ZDI1LThhNjktMWYxYmMyZWM4Y2Y0@thread.v2/0?context=%7B%22Tid%22:%22a8a4aed7-f228-48e2-bdd7-c2c82758d462%22,%22Oid%22:%2209919236-79f4-462b-814a-b85e39d92ba4%22%7

2023-07-07 18:30:04 182

原创 Databrick

val timeoutSeconds = 60 // 设置超时时间为 60 秒。// 处理 results。

2023-04-12 18:38:55 293

原创 Df发送到kafka

import java.util.Properties import io.confluent.kafka.serializers.{AbstractKafkaAvroSerDeConfig, KafkaAvroSerializer}import org.apache.avro.Schemaimport org.apache.kafka.clients.CommonClientConfigsimport org.apache.kafka.clients.producer.{KafkaProducer, Pr

2023-04-04 09:27:06 378

原创 Kafka producer

import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}import org.apache.kafka.common.serialization.StringSerializerimport io.confluent.kafka.serializers.{KafkaAvroSerializer, AbstractKafkaAvroSer

2023-04-03 18:49:41 314

原创 Kafka consumer

import java.util.Propertiesimport org.apache.kafka.clients.consumer.{ConsumerConfig, KafkaConsumer}import scala.collection.JavaConverters._ object SimpleKafkaConsumer extends App { val props = new Properties() props.put(ConsumerConfig.BOOTSTRAP_SERVERS_

2023-04-03 13:34:18 289

原创 Apache avro转confluent avro

import org.apache.avro.Schemaimport org.apache.avro.generic.{GenericData, GenericRecord}import io.confluent.kafka.serializers.KafkaAvroSerializer val schemaString = """{"type":"record","name":"Test","fields":[{"name":"foo","type":"string"}]}"""val schema =

2023-04-03 09:52:21 300

原创 to_avro 转confluent avro

"""avroDf.start()

2023-04-01 14:50:26 179

原创 Apache avro 转 Confluent avro

【代码】Apache avro 转 Confluent avro。

2023-04-01 14:21:40 164

原创序列化avro schema

需要将SerializableBytes类定义在Spark应用程序的可访问范围内，例如定义在主类或者全局对象中。另外，由于Schema对象在executor端反序列化时会重新创建，因此需要确保Schema类的定义也在executor端的类路径下。// 将字节数组反序列化为schema对象。// 将字节数组包装为可序列化的对象。// 将schema转换为字节数组。

2023-03-31 20:58:27 396

原创 Avro序列化schema

schema。

2023-03-31 20:57:25 503

原创 Spark Avro序列化

/ 使用上面提到的方法将 schema 序列化为字节数组并传递给 KafkaProducer。// 这里将 row 转换为 GenericRecord 并序列化为字节数组。// 根据字段类型设置 GenericRecord 中对应字段的值。// 处理其他类型，如 Union 类型、Map 类型等。// 遍历 Row 中每个字段。// 获取字段名和字段值。

2023-03-31 20:48:41 276

原创序列化二进制

/ 将字节数组反序列化成schema对象。// 将schema序列化成字节数组。

2023-03-31 17:22:41 661

原创使用 Avro 序列化器将 Spark Structured Streaming 数据发送到 Confluent Kafka

/ 定义 Avro 的 Schema，这里假设发送的数据包含一个 "name" 字段和一个 "age" 字段。.selectExpr("CAST(value AS STRING)") // 假设数据格式为 JSON。// 定义一个自定义的 ForeachWriter，用于将数据发送到 Kafka。// 定义 Structured Streaming 查询。// 定义 Avro 序列化器的配置信息。// 定义 Kafka 生产者的配置信息。

2023-03-31 01:14:42 356

原创 Avro发数据

然后，创建Kafka生产者并将Avro序列化器设置为值的序列化器。最后，使用生产者将Avro消息发送到Kafka。创建要发送到Kafka的Avro消息。

2023-03-31 01:03:36 202

原创 Spark sql怎么使用Kafka Avro序列化器

序列化数据并将其发送到Kafka：您可以使用KafkaAvroSerializer序列化数据并将其发送到Kafka主题中。在下面的代码中，我们使用foreach函数遍历DataFrame中的每一行，并将其序列化为Avro格式后发送到Kafka主题中。创建Kafka生产者实例：您需要使用org.apache.kafka.clients.producer.KafkaProducer类创建一个Kafka生产者实例。准备要序列化的数据：您需要将要序列化的数据准备好。

2023-03-31 00:57:32 670

原创使用Kafka Avro序列化器将数据序列化为Avro格式并将其发送到Kafka topic

创建Kafka Avro序列化器：可以使用io.confluent.kafka.serializers.KafkaAvroSerializer类创建一个Kafka Avro序列化器实例。上述代码中，key.serializer和value.serializer分别指定键和值的序列化器。在这种情况下，键使用默认的StringSerializer，而值使用Kafka Avro序列化器。序列化数据并将其发送到Kafka：可以使用kafkaAvroSerializer序列化数据并将其发送到Kafka主题中。

2023-03-31 00:45:45 983

原创 Avro格式

/ 转换DataFrame并编码为Avro格式。// 初始化SparkSession。// 发送到Kafka。// 读取流式数据源。// 定义Avro模式。

2023-03-30 14:13:27 365

原创 Kafka发送数据

)

2023-03-30 14:08:09 306

原创 Spark sql avro

/ 将 DataFrame 中的数据类型转换为 Avro schema 中的数据类型。// 将字节流反序列化为 Avro record。// 将 Avro 数据序列化为字节流。// 定义 Avro schema。// 创建一个 DataFrame。// 输出 Avro record。

2023-03-25 16:24:42 573

原创 spark Sql 更新json数据

有两个daframe，现在需要用backDF 中 new_id 更新 userDF 中的uid。由于环境原因，无法使用fastjson，故使用scala原生的json来解析。取出 userDF中的uid作为新的一列，与 backDF 进行join。scala 解析json，将js中的 uid 更新为新的 id。

2022-08-19 16:02:01 418

原创 spark sql 生成指定区间的日期

spark sql生成指定区间的日期 spark.sql( """ |select date_add(date_add(end_date, diff), a.pos) as date |from | ( | select posexplode(split(repeat(" ", datediff(end_date, date_add(end...

2022-04-19 13:54:11 3976

原创 Sqoop对于id是非自增的数据导入hive

ADB数据库里以天分区的表在20210513这一天有 4832257 条数据需要用sqoop将数据从ADB导入Hive由于数据的id是在一定范围内是无序的，使用 sqoop的 BoundingValsQuery 来查询出所有行数和结合 --boundary-query 指定边界查询 --split-by 指定切分的字段，需是int或者是integer类型的 -m 指定map task的个数这三个参数结合使用详情看官网http://sqoop.apache...

2021-05-17 16:52:00 317

原创 python3爬取斗鱼主播信息

爬取舞蹈区的主播信息如昵称，热度，直播标题，直播地址，主播头像1、抓包分析（https://www.douyu.com/g_dance）g_dance可以换成其他的，原理是一样的通过首页分析得不到要请求的链接，如果是直接通过elements中的元素来解析的话得不到主播的头像url地址，通过分析是通过json文件来传值的，第一页找不到，换到第...

2019-12-18 17:20:06 963 2

原创 {"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.94.81.141"}

在爬取拉勾网的时候报错{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.94.81.141"}需要获取搜索结果那一页的cookie 以及header里面需要添加Accept、Referer、User-Agentimport requests url = 'https://www.lagou.com/jobs...

2019-08-28 23:57:25 7873

原创 Make sure that you use the correct version of 'pip' installed for your Python interpreter

像matplotlib在pycharm安装时候报错Make sure that you use the correct version of 'pip' installed for your Python interpreter就是在cmd进入下面的这个地址，然后运行 python.exe -m pip install matplotlib如果报错pip is co...

2019-04-20 15:30:00 45731 15

原创 iloc的用法

iloc[ : , : ] 前面的冒号就是取行数，后面的冒号是取列数

2018-11-17 20:23:53 41422 1

原创配置java环境变量

1、右击电脑远属性2、在左边选高级系统设置3、选环境变量 4、新建JAVA_HOME 点击浏览目录找到你的java安装目录 5、新建CLASSPATH 把下面该的内容粘贴进去再点击确定 .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar 6、编辑path路径 ...

2018-11-17 10:57:00 228

原创 59. 螺旋矩阵 II

给定一个正整数 n，生成一个包含 1 到 n2 所有元素，且元素按顺时针顺序螺旋排列的正方形矩阵。示例:输入: 3输出:[ [ 1, 2, 3 ], [ 8, 9, 4 ], [ 7, 6, 5 ]]class Solution { public static int[][] generateMatrix(int n) { int[][] a...

2018-11-13 17:34:39 158

原创古风排版java版

7-7 古风排版（20 分）中国的古人写文字，是从右向左竖向排版的。本题就请你编写程序，把一段文字按古风排版。输入格式：输入在第一行给出一个正整数N（<100），是每一列的字符数。第二行给出一个长度不超过1000的非空字符串，以回车结束。输出格式：按古风格式排版给定的字符串，每列N个字符（除了最后一列可能不足N个）。输入样例：4This is a test case...

2018-11-09 20:37:09 862

原创从HDFS文件系统中读写文件原理

1、从HDFS文件系统中写文件 1、客户端发起请求要写文件 /aa/jdk.tgz 2、namenode会检查该目录是否存在，返回是否可写 3、客户端请求写入第一个block 4、namenode返回3个datanode主机 5、挑选dn1，请求建立传输数据的连接，建立socket连接，请求带有参数，告诉dn1要传输给多少台机器 ...

2018-09-14 10:35:39 2240

原创虚拟机配置静态ip地址（俗称固定ip地址）

1、以管理员的身份打开虚拟机，点击导航栏上面的编辑-->虚拟网络编辑器 2、首先选中上面的VMnet8，在到下面的子网 ip 处编辑ip地址，可以改成192.168.8.0，最后点击右边的 NAT设置 3、在NAT中设置网关 i p，可以改成 192.168.8.2，最后点击确定就可以了，虚拟机的ip地...

2018-07-23 23:16:18 112731 18

原创 MapReduce实现每年的每月前两天温度最高排序

温度数据：1949-10-01 14:21:02 34c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 11:21:02 23c1950-10-02 12:21:02 41c1950-10-03 11:21:02 27c1951-07-01 12:21:02 45c...

2018-07-16 10:22:41 1951 1

原创 IDEA新建maven项目

1、新建项目选择org.apache.maven的快速启动 2、选择下一步

2018-06-19 16:43:36 244

原创 mysql配置环境变量（win 10）

1、安装完mysql后就需要配置环境变量 (win 10)选择“我的电脑”，单击右键，选择“属性->高级->环境变量中的系统变量，对 MYSQL_HOME、Path 这 2 个系统变量分别设置如下相应的值（设置原则：如果存在相应的变量，直接对该变量进行编辑，注意只添加不删除；如果该变量不存在，则新建后再编辑。）这里由于没有于是就新建一个环境变量 MYSQL_HOM MYSQL_H...

2018-06-15 01:32:48 191747 18

原创 HDFS的基本操作

HDFS的基本操作命令行客户端的常用命令 1、上传文件到集群中hdfs dfs -put 本地路径 hdfs上的路径例如：把本地 linux 上root目录下的a.txt上传到集群中的根目录下 hadoop fs -put /root/a.txt /相同功能的另外一种写法hadoop fs -copyFromLocal /root/a.txt...

2018-06-13 13:26:58 563

原创冒泡排序实现从小到大排序

public static void bubbleSort(int[] arr){ if(arr==null&&arr.length<2){ return; } for (int end = arr.length-1;end>0;end--){ for(int i =...

2018-06-12 18:03:28 4486

原创新版Myeclipse创建sturt2项目

1、先创建web工程2、输入web 选Dynamic Web Project3、版本选择2.54、安装struts2 选中项目，然后右键，在Configure Facets里面有Install Apache Struts(2.x)5、install Apache Struts(2.x) 选好自己配置的tomcat,finish就可以了6、lib ...

2018-06-09 16:03:42 268

原创 JDK1.8在LINUX下安装步骤

在/usr/lib/目录下新建jvm文件夹，如果已有jvm文件夹，则将之前的JDK版本删除，即在jvm目录下执行命令：rm –rf *将JDK文件jdk-8u40-linux-x64.gz拷贝到/home/目录下；在/home/目录下执行命令（也就是把压缩包tar开到 /usr/lib/jvm 下面）： tar zxvf ./jdk-8u40-linux-x64.gz -...

2018-06-06 13:55:17 578

2018最新多个python视频和爬虫教程

空空如也