xhaoDream-优快云博客

原创 NFS客户端与服务端用户不一致问题

NFS共享目录客户端和服务端用户不一致

2025-03-21 16:56:27 488

调整后：java -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=*:6666 -jar SpringbootDemo.jar。原先的启动脚本：java -jar SpringbootDemo.jar。调试前提：要保证idea中的代码和服务器上部署的代码是一套。博主使用的jdk为17版本，jdk9以上都可以使用。一定要确保代码一致，否则会导致调试定位问题不准确。*:6666 允许远程调试。一、服务器启动脚本修改。

2025-01-22 20:30:00 190

原创国产数据库-虚谷使用记录

虚谷数据库是一款自主原创、安全可靠、功能强大、性能优越的关系型数据库管理系统，支持SQL（StructuredQueryLanguage）标准语法，支持标准化、双机高可用、分布式集群部署，提供国产化、面向多核的高性能和数据安全服务，融合成都虚谷伟业科技有限公司在数据库领域20多年的研发经验沉淀，结合各类关系型数据库的应用场景需求，持续构建竞争力特性。整个产品采用的是单进程多线程模型，所有的数据库任务（计算、存储、管理）可以独占或混合在单个进程中，所以具有从1到N无缝扩展的特性。4、查询表的自增序列。

2025-01-18 20:53:31 351

原创国产数据库-南大通用GBase使用记录

国产数据库GBase

2025-01-10 19:06:54 405

原创国产数据库-崖山使用介绍

崖山数据库个人版使用介绍

2024-12-31 17:44:02 934

原创查找list集合中，持续时间＞=ContinueTime的数据集合，保存在新的list中

在给定的包含时间戳的list中，查找连续continueNum次的且时间间隔为needDiff的集合。

2024-05-29 16:05:56 300

原创 Java-File：遍历目录下的所有文件

file工具类，扫描所有文件

2023-12-29 14:30:09 708

原创 java 读取parquet中fixed类型的数据

parquet fixed类型数据读取

2023-12-28 14:30:54 578

原创 DBeaver安装与使用教程（超详细安装与使用教程），好用免费的数据库管理工具

图文教程，超详细的DBeaver安装、破解及使用教程，包含了博主对应使用的安装包

2023-10-27 17:46:08 4341 6

原创 flink Sink kafka，flink 写入数据到 kafka 后，数据过一段时间自动删除

kafka 中的数据写入后消失问题排查、解决

2023-09-08 18:05:21 887

原创启动springboot，出现Unable to start embedded Tomcat

解决springboot 项目启动失败问题

2023-08-11 10:21:56 2392

原创 Iceberg 合并datafiles、manifest files，清除过期snapshot、删除孤立文件

文章介绍了数据湖组件iceberg 表相关的治理，包括datafile合并、metadata file合并、孤立文件删除、过期快照删除等操作。

2023-07-28 17:04:00 1102

原创单机版Kafka简装

centos7 简单安装kafka 用于学习单机版

2022-07-01 11:31:31 324

原创 Hive分区表导入数据

Hive分区表导入数据（动态分区插入，静态分区插入、动静态分区插入）在hive上建立一个简单的分区表：CREATE TABLE `school_student_info`(`name` string, `age` int,`sex` string )PARTITIONED BY (`grade` string,`teacher` string)ROW FORMAT SERDE...

2020-03-29 12:21:02 3745

原创深入理解XGBoost算法

**XGBoost：**通用参数：宏观函数控制Booster>>gbtree：采用数的结构来运行数据gblinear：基于线性模型运行数据Silent>>静默模式，为1时模型运行不输出Nthread>>使用线程数，默认为-1，使用所有线程。Booster参数：控制每一步的boooster（tree/regression）。可以调控模型效...

2020-03-10 17:25:58 611

原创 xgboost.core.XGBoostError:label must be in [0,1] for logistic regression

错误：xgboost.core.XGBoostError: ****regression_obj.cu:102: label must be in [0,1] for logistic regression通过查看目标列Y中，发现其中有空值，然后做空值的替换。然后尝试了下面三种方法都没有成功，还是会出现同样的错误。df[‘Y’].replace('NaN',0,inplace=True)...

2020-03-10 16:30:21 5855

原创 requests BeautifulSoup 猫眼电影信息的爬取

**根据用户需要爬取的数量，爬取猫眼电影网的电影信息**import requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport json,os,sysimport lxmlfrom multiprocessing import Poolfilename ...

2020-02-28 16:26:10 665

原创 oracle sql like多个条件函数

select price, publish_timefrom telwhere regexp_like(publish_time,'(2017|2018|2019)')group by price, publish_time> select * from table where REGEXP_LIKE(字段名, '(匹配串1|匹配串2|...)')> ;//全模糊匹配...

2019-10-28 10:13:20 2066

原创基于pyspark的als推荐电影

ALS推荐算法：ALS算法是基于模型的推荐算法基本思想对稀疏矩阵进行模型分解，评估出缺失项的值，以此来得到一个基本的训练模型。然后依照此模型可以针对新的用户和物品数据进行评估。ALS是采用交替的最小二乘法来算出缺失项的，交替的最小二乘法是在最小二乘法的基础上发展而来的。从协同过滤的分类来说，ALS算法属于User-Item CF，也叫做混合CF，它同时考虑了User和Item两个方面。矩...

2019-10-25 11:30:58 3694 1

原创 hive 数据倾斜

hive上执行脚本，数据一直跑不出，询问dba说可能是数据倾斜的问题，需要优化脚本（之前脚本可以正常执行），最后发现join表的重复数据过多造成的。网上看了下倾斜，简单总结下。一、概念由于数据分布不均，造成大量数据集中到一点，造成数据热点。二、现象绝大多数task执行的很快，但是个别task执行很慢。eg：一共10个task，9个几分钟就执行完了，剩余的一个跑了一个多小时还没有结束...

2019-10-17 17:15:08 410

原创 windows下spark的安装

windows下spark的安装首先的在一个大前提下就是我们本机已经安装并配置好JDk环境变量了。选择的环境如下：jdk1.8+scala2.10.2+hadoop2.7.4+spark2.4.4一、 scala安装scala安装包下载：链接：https://pan.baidu.com/s/1HLsFBhXWazuKxGpgF8xP1Q提取码：g0zi安装后cmd输入sca...

2019-10-14 20:19:12 1333

原创 Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED

Exception: Randomness of hash of string should be disabled via PYTHONHASHSEEDpyCharm执行程序执行到movies_for_user = ratings.groupBy(lambda x:x.user).mapValues(list).lookup(789)报错Exception: Randomness of ...

2019-10-14 17:03:04 344

原创 python2和python3的安装

因工作需要，原先电脑上只有python3的运行环境，但工作有一个模型的脚本需要python2的运行环境，公司工位上的电脑是有Python2的环境的，无奈赶上国庆放假，还需要工作，需要在自己电脑安装python2的环境，安装过程中遇到不少问题，就总结下。一、安装python2.7（https://www.python.org/）64位：Windows x86-64 MSI installer...

2019-10-02 10:37:21 366

原创 python实现----最大公约数和最小公倍数

''' 录入两个正整数，输出最大公约数和最小公倍数'''def max_min(num1,num2): #确保num1小于num2 if num1 > num2: num1,num2 = num2,num1'''从1到小数本身循环，满足小数求余为0，然后大数求余也为0，则n为两数的最大公约数'''def max_num(num1, num2...

2019-09-17 14:58:22 1551

原创生成器 generator send yield

generator的send()函数和yield关键字直接上代码：def test(): num = 1 while True: num += 2 yield num print('yield>>>>>>'+str(num))t = test()print(next(t))print(n...

2019-09-11 11:27:14 302

原创 oracle sql parallel mapjoin 调优

最近在搞数据库，需要操作上千万的数据，但是发现自己写的sql运行的很慢，然后问了小组的组长(一个技术超级强的和蔼可亲的哈哈领导)，发现在查询数据的时候加入了Parallel、MAPJION这两个东西，然后我上网查了下这两个词的使用场景和方法，简单总结下。一、Parallel1、场景一般在使用sql是返回记录数大于100万数据时使用，sql效率提升比较明显，但会消耗数据库的资源和性能...

2019-09-06 11:25:27 1078

原创 Python 深浅拷贝

**拷贝有很多方法：**copy.copy()浅拷贝copy.deepcopy()深拷贝可以通过‘=’进行拷贝但是这三种方法有什么相同之处和不同之处呢？下面就看看这些方法的不同之处吧。以拷贝列表list为例：首先引入Python copy包：浅拷贝：从结果中看出，输出的列表a、b内容一致。对列表b中的单个元素记性修改从结果中看出，列表b修改单一元素，对列表a的元素...

2019-08-21 11:20:54 314

转载 python中yield的用法详解——最简单，最清晰的解释

首先，如果你还没有对yield有个初步分认识，那么你先把yield看做“return”，这个是直观的，它首先是个return，普通的return是什么意思，就是在程序中返回某个值，返回之后程序就不再往下运行了。看做return之后再把它看做一个是生成器（generator）的一部分（带yield的函数才是真正的迭代器），好了，如果你对这些不明白的话，那先把yield看做return,然后直接看下面...

2019-07-29 17:45:57 133

原创 Shell中(())和[[]]的区别

**Shell (( ))和[[ ]] 的区别直接上代码图**Shell (( ))双小括号：Shell(())是专门用来运算整数且只能进行整数运算，不能对小数、浮点数或字符串进行运算。1、基本的数值计算：2、进行稍微复杂的运算3、进行逻辑运算，结果为true返回1，false返回04、进行自增自减运算5、多个表达式运算Shell [[ ]] 双中括号：1、...

2019-07-17 21:57:22 1953

原创 Linux：定时任务配置

新增调度任务可用两种方法：1)、在命令行输入: crontab -e 然后添加相应的任务，wq存盘退出。test.sh，每秒执行一次(/1 * * * * /test/dingshi/test.sh >> /test/dingshi/result.log)2)、直接编辑/etc/crontab 文件，即vi /etc/crontab，添加相应的任务。(/1 * * * * r...

2019-07-16 19:28:40 903

转载 Java面试官：兄弟，你确定double精度比float低吗？

我有一个朋友，叫老刘，戴着度数比我还高的近视镜，显得格外的“程序员”；穿着也非常“不拘一格”，上半身是衬衣西服，下半身是牛仔裤运动鞋。我和老刘的感情非常好，每周末我们都要在一起吃顿饭。这周，我们吃的是洛阳有名的吴家刀削面，席间他聊了一件蛮有趣的面试经历；我听得津津有味。散席的时候，老刘特意叮嘱我把他和面试者的对话整理一下发出来，因为他觉得这段对话非常的精彩，值得推荐给更多初学Java的年轻人。...

2019-07-11 17:44:14 228

原创记：第一次入门爬虫（java）

需求：给定一系列的号码（txt文件），获取其在百度网站中的号码标识，并输出到指定文件中。使用jsoup模拟上网操作，获取到电话号码后百度其在网页中的信息标识，并进行打印输出。需要使用的jar包：jsoup.jar链接：https://pan.baidu.com/s/1ukyH7SiP7PN_YQBbmYQeeQ 提取码：dr3v部分源码：public String crawl...

2019-07-09 21:15:44 256

java 读取csv 并转为Map<String,Object>

通过引用【opevcsv】依赖，逐行读取数据并转为Map<String,Object>格式，后续可以通过BeanUtil.MaptoBean()方法将map转为你需要的bean对象； csv文件必须带表头，bean对象命名符合驼峰格式；通过此方法可以快速的将文件转换为程序可以操作的bean对象；

2023-05-26

分布式 rpc远程调用 dubbo

基于RPC远程调用的方式，发布服务，注册到zookeeper节点，consumer-server调用provider-server发布的服务。使用与TCP长连接的通讯方式。

2023-02-13

微服务： SpringCloud + Nacos + Feign

微服务示例，下载下来可用；服务注册，资源互相调用等，都有实现； parent pom中不要制定version，让工程自己匹配最佳版本号

2022-08-10

hadoop Java API

基于hadoop的一些基本操作

2022-06-30

springboot+多数据源配置+swagger-ui页面测试+逆向工程+swagger

本项目是是一个多数据源（DataSources）配置的一个基本框架，并且集成了逆向工程相关的配置信息。不会配置多数据源的小伙伴可以直接下载来使用，作为自己项目的框架，基于springboot2.0.4写的。还有一个就是集成了逆向工程，不需要自己再去写pojo和mapper了。欢迎大家下载学习。

2022-06-29

springboot整合spring-kafka kafkaTemplate

可以用来当做一个kafka项目的框架。本项目里面简单写了单挑信息、批量信息的web接口测试消息发送，并且注入了两个bean，实现KafkaListener两种不同模式{containerFactory="batchFactory"}，{containerFactory = "batchFactoryOff"}。

2022-06-27