- 博客(32)
- 资源 (15)
- 收藏
- 关注
原创 使用Idea远程调试部署在服务器上的代码
调整后:java -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=*:6666 -jar SpringbootDemo.jar。原先的启动脚本:java -jar SpringbootDemo.jar。调试前提:要保证idea中的代码和服务器上部署的代码是一套。博主使用的jdk为17版本,jdk9以上都可以使用。一定要确保代码一致,否则会导致调试定位问题不准确。*:6666 允许远程调试。一、服务器启动脚本修改。
2025-01-22 20:30:00
190
原创 国产数据库-虚谷 使用记录
虚谷数据库是一款自主原创、安全可靠、功能强大、性能优越的关系型数据库管理系统,支持SQL(StructuredQueryLanguage)标准语法,支持标准化、双机高可用、分布式集群部署,提供国产化、面向多核的高性能和数据安全服务,融合成都虚谷伟业科技有限公司在数据库领域20多年的研发经验沉淀,结合各类关系型数据库的应用场景需求,持续构建竞争力特性。整个产品采用的是单进程多线程模型,所有的数据库任务(计算、存储、管理)可以独占或混合在单个进程中,所以具有从1到N无缝扩展的特性。4、查询表的自增序列。
2025-01-18 20:53:31
351
原创 查找list集合中,持续时间>=ContinueTime的数据集合,保存在新的list中
在给定的包含时间戳的list中,查找连续continueNum次的且时间间隔为needDiff的集合。
2024-05-29 16:05:56
300
原创 DBeaver安装与使用教程(超详细安装与使用教程),好用免费的数据库管理工具
图文教程,超详细的DBeaver安装、破解及使用教程,包含了博主对应使用的安装包
2023-10-27 17:46:08
4341
6
原创 Iceberg 合并datafiles、manifest files,清除过期snapshot、删除孤立文件
文章介绍了数据湖组件iceberg 表相关的治理,包括datafile合并、metadata file合并、孤立文件删除、过期快照删除等操作。
2023-07-28 17:04:00
1102
原创 Hive分区表导入数据
Hive分区表导入数据(动态分区插入,静态分区插入、动静态分区插入)在hive上建立一个简单的分区表:CREATE TABLE `school_student_info`(`name` string, `age` int,`sex` string )PARTITIONED BY (`grade` string,`teacher` string)ROW FORMAT SERDE...
2020-03-29 12:21:02
3745
原创 深入理解XGBoost算法
**XGBoost:**通用参数:宏观函数控制Booster>>gbtree:采用数的结构来运行数据gblinear:基于线性模型运行数据Silent>>静默模式,为1时模型运行不输出Nthread>>使用线程数,默认为-1,使用所有线程。Booster参数:控制每一步的boooster(tree/regression)。可以调控模型效...
2020-03-10 17:25:58
611
原创 xgboost.core.XGBoostError:label must be in [0,1] for logistic regression
错误:xgboost.core.XGBoostError: ****regression_obj.cu:102: label must be in [0,1] for logistic regression通过查看目标列Y中,发现其中有空值,然后做空值的替换。然后尝试了下面三种方法都没有成功,还是会出现同样的错误。df[‘Y’].replace('NaN',0,inplace=True)...
2020-03-10 16:30:21
5855
原创 requests BeautifulSoup 猫眼电影信息的爬取
**根据用户需要爬取的数量,爬取猫眼电影网的电影信息**import requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport json,os,sysimport lxmlfrom multiprocessing import Poolfilename ...
2020-02-28 16:26:10
665
原创 oracle sql like多个条件函数
select price, publish_timefrom telwhere regexp_like(publish_time,'(2017|2018|2019)')group by price, publish_time> select * from table where REGEXP_LIKE(字段名, '(匹配串1|匹配串2|...)')> ;//全模糊匹配...
2019-10-28 10:13:20
2066
原创 基于pyspark的als推荐电影
ALS推荐算法:ALS算法是基于模型的推荐算法基本思想对稀疏矩阵进行模型分解,评估出缺失项的值,以此来得到一个基本的训练模型。然后依照此模型可以针对新的用户和物品数据进行评估。ALS是采用交替的最小二乘法来算出缺失项的,交替的最小二乘法是在最小二乘法的基础上发展而来的。从协同过滤的分类来说,ALS算法属于User-Item CF,也叫做混合CF,它同时考虑了User和Item两个方面。矩...
2019-10-25 11:30:58
3694
1
原创 hive 数据倾斜
hive上执行脚本,数据一直跑不出,询问dba说可能是数据倾斜的问题,需要优化脚本(之前脚本可以正常执行),最后发现join表的重复数据过多造成的。网上看了下倾斜,简单总结下。一、 概念由于数据分布不均,造成大量数据集中到一点,造成数据热点。二、现象绝大多数task执行的很快,但是个别task执行很慢。eg:一共10个task,9个几分钟就执行完了,剩余的一个跑了一个多小时还没有结束...
2019-10-17 17:15:08
410
原创 windows下spark的安装
windows下spark的安装首先的在一个大前提下就是我们本机已经安装并配置好JDk环境变量了。选择的环境如下:jdk1.8+scala2.10.2+hadoop2.7.4+spark2.4.4一、 scala安装scala安装包下载:链接:https://pan.baidu.com/s/1HLsFBhXWazuKxGpgF8xP1Q提取码:g0zi安装后cmd输入sca...
2019-10-14 20:19:12
1333
原创 Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED
Exception: Randomness of hash of string should be disabled via PYTHONHASHSEEDpyCharm执行程序执行到movies_for_user = ratings.groupBy(lambda x:x.user).mapValues(list).lookup(789)报错Exception: Randomness of ...
2019-10-14 17:03:04
344
原创 python2和python3的安装
因工作需要,原先电脑上只有python3的运行环境,但工作有一个模型的脚本需要python2的运行环境,公司工位上的电脑是有Python2的环境的,无奈赶上国庆放假,还需要工作,需要在自己电脑安装python2的环境,安装过程中遇到不少问题,就总结下。一、安装python2.7(https://www.python.org/)64位:Windows x86-64 MSI installer...
2019-10-02 10:37:21
366
原创 python实现----最大公约数和最小公倍数
''' 录入两个正整数,输出最大公约数和最小公倍数'''def max_min(num1,num2): #确保num1小于num2 if num1 > num2: num1,num2 = num2,num1'''从1到小数本身循环,满足小数求余为0,然后大数求余也为0,则n为两数的最大公约数'''def max_num(num1, num2...
2019-09-17 14:58:22
1551
原创 生成器 generator send yield
generator的send()函数和yield关键字直接上代码:def test(): num = 1 while True: num += 2 yield num print('yield>>>>>>'+str(num))t = test()print(next(t))print(n...
2019-09-11 11:27:14
302
原创 oracle sql parallel mapjoin 调优
最近在搞数据库,需要操作上千万的数据,但是发现自己写的sql运行的很慢,然后问了小组的组长(一个技术超级强的和蔼可亲的 哈哈 领导),发现在查询数据的时候加入了Parallel、MAPJION这两个东西,然后我上网查了下这两个词的使用场景和方法,简单总结下。一、Parallel1、场景一般在使用sql是返回记录数大于100万数据时使用,sql效率提升比较明显,但会消耗数据库的资源和性能...
2019-09-06 11:25:27
1078
原创 Python 深浅拷贝
**拷贝有很多方法:**copy.copy()浅拷贝copy.deepcopy()深拷贝可以通过‘=’进行拷贝但是这三种方法有什么相同之处和不同之处呢?下面就看看这些方法的不同之处吧。以拷贝列表list为例:首先引入Python copy包:浅拷贝:从结果中看出,输出的列表a、b内容一致。对列表b中的单个元素记性修改从结果中看出,列表b修改单一元素,对列表a的元素...
2019-08-21 11:20:54
314
转载 python中yield的用法详解——最简单,最清晰的解释
首先,如果你还没有对yield有个初步分认识,那么你先把yield看做“return”,这个是直观的,它首先是个return,普通的return是什么意思,就是在程序中返回某个值,返回之后程序就不再往下运行了。看做return之后再把它看做一个是生成器(generator)的一部分(带yield的函数才是真正的迭代器),好了,如果你对这些不明白的话,那先把yield看做return,然后直接看下面...
2019-07-29 17:45:57
133
原创 Shell中(())和[[]]的区别
**Shell (( ))和[[ ]] 的区别直接上代码图**Shell (( ))双小括号:Shell(())是专门用来运算整数且只能进行整数运算,不能对小数、浮点数或字符串进行运算。1、基本的数值计算:2、进行稍微复杂的运算3、进行逻辑运算,结果为true返回1,false返回04、进行自增自减运算5、多个表达式运算Shell [[ ]] 双中括号:1、...
2019-07-17 21:57:22
1953
原创 Linux:定时任务配置
新增调度任务可用两种方法:1)、在命令行输入: crontab -e 然后添加相应的任务,wq存盘退出。test.sh,每秒执行一次(/1 * * * * /test/dingshi/test.sh >> /test/dingshi/result.log)2)、直接编辑/etc/crontab 文件,即vi /etc/crontab,添加相应的任务。(/1 * * * * r...
2019-07-16 19:28:40
903
转载 Java面试官:兄弟,你确定double精度比float低吗?
我有一个朋友,叫老刘,戴着度数比我还高的近视镜,显得格外的“程序员”;穿着也非常“不拘一格”,上半身是衬衣西服,下半身是牛仔裤运动鞋。我和老刘的感情非常好,每周末我们都要在一起吃顿饭。这周,我们吃的是洛阳有名的吴家刀削面,席间他聊了一件蛮有趣的面试经历;我听得津津有味。散席的时候,老刘特意叮嘱我把他和面试者的对话整理一下发出来,因为他觉得这段对话非常的精彩,值得推荐给更多初学Java的年轻人。...
2019-07-11 17:44:14
228
原创 记:第一次入门爬虫(java)
需求: 给定一系列的号码(txt文件),获取其在百度网站中的号码标识,并输出到指定文件中。使用jsoup模拟上网操作,获取到电话号码后百度其在网页中的信息标识,并进行打印输出。需要使用的jar包:jsoup.jar链接:https://pan.baidu.com/s/1ukyH7SiP7PN_YQBbmYQeeQ 提取码:dr3v部分源码:public String crawl...
2019-07-09 21:15:44
256
java 读取csv 并转为Map<String,Object>
2023-05-26
分布式 rpc远程调用 dubbo
2023-02-13
微服务 : SpringCloud + Nacos + Feign
2022-08-10
springboot+多数据源配置+swagger-ui页面测试+逆向工程+swagger
2022-06-29
springboot整合spring-kafka kafkaTemplate
2022-06-27
springboot+swagger-ui+PageHelper分页+logback+动态定时
2022-06-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人