- 博客(101)
- 资源 (11)
- 问答 (1)
- 收藏
- 关注

原创 大数据项目之业务数据采集(二)
业务数据采集平台模型搭建1、业务采集业务数据:与企业核心业务相关的业务,存放在MySQL数据库中,需要将MySQL中的数据采集到hdfs中。方案选择1、数据传输:sqoop优势:1、sqoop使用在业务场景,使用与数据导入方式是RDMS和HDFS互相导入2、批处理场景!在非实时的项目中,第二天导入数据,所以不需要流式处理,sqoop通过启动mapreduce且只有map,可以快速的将数据导入到HDFS3、开源免费2、数据导入方式一、全量每天需要存一份完整数据,数据量不大,有更
2021-02-25 09:56:46
887
2
原创 基于MaxComputer的电商业务
用户 -> 购物车【用户,加购物车商品id,数量,是否下单】 -> 商品。用户 -> 订单表 -> 支付表【下单金额不等于支付金额,支付时会有优惠】用户 -> 退单表 -> 商品信息。用户 -> 评价 -> 商品信息。
2024-12-12 17:01:04
139
原创 按区间反转文章片段
例如输入字符串 “I am a developer.”,区间[0,3]则输出 “developer. a am I”。输入一个英文文章片段,翻转指定区间的单词顺序,标点符号和普通字母一样处理。反转后的英文文章片段,所有单词之间以一个半角空格分割进行输出。第二个参数为反转起始单词下标,下标从0开始。2、注意end的大小可能超过字符串长度。第一个参数为英文文章内容即英文字符串。1、注意输入字符串中前后的空格。第三个参数为结束单词下标,使用换行隔开三个参数。
2023-10-24 22:50:14
215
原创 字符串划分
给定一个小写字母组成的字符串s,请找出字符串中两个不同位置的字符作为分割点,使得字符串分成的三个连续子串且子串权重相等,注意子串不包含分割点。若能找到满足条件的两个分割点,请输出这两个分割点在字符串中的位置下标,若不能找到满足条件的分割点请返回0,0。输入为一个字符串,字符串由a~z,26个小写字符组成,5
2023-10-24 22:25:46
221
原创 IPv4地址转换成整数
存在一种虚拟IPv4地址,由4小节组成,每节的范围为0-255,以#号间隔,虚拟IPv4地址可以转换为一个32位的整数,例如:128#0#255#255,转换为32位整数的结果为2147549183(0x8000FFFF)1#0#0#0,转换为32位整数的结果为16777216(0x01000000)。现以字符串形式给出一个虚拟IPv4地址,限制第1小节的范围为1-128,即每一节范围分别为。要求每个IPv4地址只能对应到唯一的整数上。输入一行,虚拟IPv4地址格式字符串。
2023-10-23 23:22:17
372
原创 需要打开多少监控器
某长方形停车场,每个车位上方都有对应监控器,当且仅当在当前车位或者前后左右四个方向任意一个车位范围停车时,监控器才需要打开。给出某一时刻停车场的停车分布,请统计最少需要打开多少个监控器
2023-10-22 18:00:46
306
原创 核酸检测人员安排
每名采样员的效率不同,采样效率为N人/小时。由于外界变化,采样员的效率会以M人/小时为粒度发生变化,M为采样效率浮动粒度,M=N10%,输入保证N10%的结果为整数。采样员效率浮动规则:采样员需要一名志愿者协助组织才能发挥正常效率,在此基础上,每增加一名志愿者,效率提升1M,最多提升3M
2023-10-22 17:01:39
329
原创 阿里巴巴找黄金宝箱(II)
一贫如洗的樵夫阿里巴巴在去砍柴的路上,无意中发现了强盗集团的藏宝地,藏宝地有编号从0~N的箱子,每个箱子上面贴有箱子中藏有金币的数量。
2023-10-22 14:05:16
230
原创 统计射击比赛成绩
统计设计比赛成绩给定一个射击比赛成绩单,包含多个选手若干次射击的成绩分数,请对每个选手按其最高3个分数之和进行降序排名,输出降序排名后的选手ID序列。
2023-10-22 13:06:19
675
2
原创 计算误码率
移动通信网络中的误码率主要是指比特误码率,其计算公式如下:比特误码率=错误比特数/传输总比特数,为了简单,我们使用字符串来标识通信的信息,一个字符错误了,就认为出现了一个误码输入一个标准的字符串,和一个传输后的字符串,计算误码率。② 从队列中不断去取数据,比较【先比较数字大小一致,再比较字符是否一致】之后多余部分再写入队列中,将不同的部分写入队列中。1、将压缩的数据全部解析完比较不同的数量【由于解压之后数据量可能很大,会导致超时问题】两行,分别为两种字符串的压缩形式。一行,错误的字等数量/展开后的总长度。
2023-10-22 10:47:46
1512
原创 使用mediapipe训练手指数字识别
本文是从0开始创建一个识别手势的机器学习模型,为了识别手势,采用mediapipe模型,这个模型会返回手指的位置,之后再通过训练一个模型将这些位置分类得到手势
2023-07-29 12:07:16
3152
4
原创 spark读取jar中txt文件报错文件找不到
相比之下,getClass.getClassLoader.getResourceAsStream(filename) 方法接收的是 classpath 下文件的相对路径,因此可以在 jar 包中正确地读取文件内容。因此,如果您需要在 Spark 任务中读取 jar 包内的文件,建议使用 getClass.getClassLoader.getResourceAsStream(filename) 方法。需要注意的是,绝对路径在不同的机器上可能不同,因此这种方法并不可移植。建议仅在开发和测试环境中使用这种方法。
2023-03-27 17:31:09
564
原创 Hudi编译中maven-remote-resources-plugin:1.5:process: org/apache/commons/collections/ExtendedProperties
在hudi编译中执行maven package时报maven-remote-resources-plugin:1.5缺少collections 下的ExtendedProperties方法,
2023-02-01 22:43:49
566
原创 Tensorflow笔记【四】之搭建神经网络并对比
在搭建神经网络中,需要通过训练集训练搭建的神经网络,训练完成后需要通过验证集测试我们神经网络训练的效果。
2022-12-04 11:48:07
664
1
原创 算法之冒泡排序
在喝汽水时,常常会看到许多小气泡飘到上面,这时由于小气泡中的二氧化碳比水轻,而冒泡排序同这个物理现象一样,排序的元素会按照大小想气泡一样一个个向一个方向移动,
2022-11-06 16:36:02
316
原创 Datax安装及使用[Mysql <-> HDFS]
是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
2022-10-07 10:33:21
617
原创 spark引擎执行sql报错:JsonParseException:Unexpected_character
com.fasterxml.jackson.core.JsonParseException Unexpected_character("code
2022-07-10 11:57:32
1451
原创 Spark判断HDFS路径数据是否存在
该方法不需要使用hdfs的配置文件??import org.apache.hadoop.fs.{FSDataOutputStream, FileSystem, Path}val filePath = new org.apache.hadoop.fs.Path(Path)val fileSystem = filePath.getFileSystem(spark.sparkContext.hadoopConfiguration)//判断该路径下的HDFS文件是否存在fileSystem.exis
2022-05-29 10:58:30
761
原创 flink的slot如何配置?
Task Solt的配置为什么等于提交代码运行的最大的并行度?1、为了提高容错,如果一个slot失败,可以直接分配到其他slot执行2、由于每个算子的执行速度不同,flink为了保证并行执行的效率,不是将每个合并后的操作分配到一个Task Slot中(有些执行快,有些执行慢,慢的还会一直占用该slot),而是采用在每个slot中存所有的操作例如:public class BatchWordCount { public static void main(String[] args) th
2022-04-16 10:29:05
3780
原创 Python使用protobuf格式通信(遇到的坑)
1、安装使用清华源进行安装pip3 install https://pypi.tuna.tsinghua.edu.cn/simple grpcio grpcio-tools protobuf坑:根据.proto文件转化时报错,但grpc-tools安装成功了Error while finding module specification for 'grpc_tools.protoc' (ModuleNotFoundError: No module named 'grpc_tools')
2021-12-11 09:57:09
1675
原创 Redis客户端常用命令大全
基本操作命令含义select [number]切换库,默认16个库flushdb清空库dbsize查看数据库中数据个数flushall清空所有库key操作命令含义keys xxx查找key,xxx为表达式,支持 * ?type key查看key对应值的类型exists key指定的key是否存在,0代表不存在,drdel key删除指定keyrandomkey在现有的KEY中随机返回一个ex
2021-12-05 10:58:08
968
原创 [J is not a valid external type for schema of bigint
问题:起源:在spark任务中,在将TFrecord的数据写入到Hive表中时,使用Datafram读取数据,解析,转化,得到DataFram[Row],再与Schema匹配,写入到Hive表中,打印Datafram的Schema,发现没有问题,但程序一直写不进去,报错,在解析数据写入到hive表时,出现 [J is not a valid external type for schema of bigint可以看到是数据类型不匹配导致的异常,但是 [J数据类型是怎样的?表中的字段近乎1000个,
2021-11-23 23:49:30
1148
原创 java.lang.ClassNotFoundException:tfrecord.Defaultsource
java.lang.ClassNotFoundException:tfrecord.Defaultsource报错信息:1、java.lang.ClassNotFoundException:tfrecord.Defaultsource2、java.lang.ClassNotFoundException:tensorflow.Defaultsource出现这两个异常,是由于缺失spark-tensorflow的jar包导致的,可以从以下几个方面进行排除。1、先确定在代码在pom依赖中配置ok2、
2021-10-31 09:22:20
953
原创 线性回归方程
最小二乘法求线性回归1、读取数据import numpy as npimport matplotlib.pyplot as plt# 读取信息points = np.genfromtxt('data.csv',delimiter=',')x = points[:,0]y = points[:,1]plt.scatter(x,y) # 扫描所有点plt.show() 2、定义损失函数# 将求拟合函数转化为求损失函数,(当损失函数的值最小时,拟合效果越好)def cost_f
2021-08-15 09:40:12
498
原创 python将文本(txt)转excel(xls)
需要提前安装相关python包(如果通过安装anconda可以忽略)pip3 xlwtpip3 codecspython代码import xlwtimport codecs#输入的文本文件的路径input_txt = r'D:\Users\test0.txt'#输出excel的路径output_excel = r'D:\Users\finish0.xls'#保存到excel的那个工作表sheetName = 'test'#从哪行哪列开始start_row = 0start_
2021-08-08 08:26:11
1391
Linux下MySQL-Hive.rar
2020-12-26
MySQL练习题(附带数据)
2020-12-02
flink java的API和scala的API创建环境的区别
2022-01-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人