- 博客(100)
- 收藏
- 关注

原创 编程常用命令总结
查看表的分区信息(如果不是分区表,会报错 Table call_center is not a partitioned table)df检查磁盘空间占用情况(并不能查看某个目录占用的磁盘大小);查看目录下文件大小(比如查看kafka-logs目录下所有文件之和的总大小)启动standalone模式下的所有集群(master以及slave节点)压缩Metrics目录下的所有文件,并将压缩包命名命名为Compress。查看表的所有字段以及字段的所有类型。查看Kafka当前的所有topic。
2022-11-29 00:21:55
3462

原创 欠拟合的原因以及解决办法(深度学习)
之前这篇文章,我分析了一下深度学习中,模型过拟合的主要原因以及解决办法:过拟合的原因以及解决办法(深度学习)_大黄的博客-优快云博客这篇文章中写一下深度学习中,模型欠拟合的原因以及一些常见的解决办法。也就是为什么我们设计的神经网络它不收敛?这里还是搬这张图出来,所谓欠拟合(也就是神经网络不收敛),它的表现就是训练集上的性能表现很辣鸡,测试集的表现同样很辣鸡。一个良好的模型,它应该是训练集上表现很好,测试集上表现也很好的。下面我列举几种常见的原因以及解决办法:一...
2021-12-12 10:36:35
36089
9

原创 过拟合的原因以及解决办法(深度学习)
过拟合:模型在训练集上表现的非常好,但在测试集的数据下表现很差。具体观察loss函数就是,train loss一直降低,而test loss先降低,而后随着epoach的增加,而不断增加。过拟合的原因:1.训练数据太少(比如只有几百组)2.模型的复杂度太高(比如隐藏层层数设置的过多,神经元的数量设置的过大),举个简单的例子,你的模型是高射炮,结果你的数据是蚊子,这不就很扯淡了吗。过拟合的解决方案:解决过拟合问题有两个方向:降低参数空间的维度或者降低每个维度上的有效规模(eff
2021-12-02 22:50:40
50337
3

原创 确定神经网络层数以及神经元个数
神经网络主要由输入层,隐藏层以及输出层构成,合理的选择神经网络的层数以及隐藏层神经元的个数,会在很大程度上影响模型的性能(不论是进行分类还是回归任务)。输入层的节点数量以及输出层的节点数量是最容易获得的。输入层的神经元数量等于数据的特征数量(feature个数)。若为回归,则输出层的神经元数量等于1;若为分类,则输出层的神经元数量为分类的类别个数(如区分猫狗,则为2;区分手写数字0-9,则为10)。1.确定隐藏层的层数对于一些很简单的数据集,一层甚至两层隐藏元都已经够了,隐藏..
2021-11-25 15:04:54
31388
3

原创 Pytorch优化器选择
Pytorch中有四种常用的优化器,SGD、Momentum、RMSProp、Adam,那我们该如何选择呢。1.SGD参数介绍:--lr(float) :学习率--momentum(float,可选):动量因子(默认为0)--weight_decay(float,可选):权重衰减(L2惩罚,默认为0)--dampening(float,可选):动量的抑制因子(默认为0)--nesterov(bool,可选):使用Nesterov动量(默认为false)示例代码:op
2021-11-20 20:32:55
5048

原创 贝叶斯优化代码
首先,我们安装贝叶斯优化的包。贝叶斯优化的包只支持python3.x版本(注意!),python2.x版本虽然也能安装成功,但是会报错,贼傻逼。安装命令,使用pip3.pip3 install bayesian-optimization后面的使用教程有时间再更新。...
2021-05-11 14:55:29
1707
6

原创 遗传算法代码
全局搜索最优算法(1)——遗传算法这里以github上的遗传算法开源库为例子:首先我们安装GA(官方说依赖库好像只支持Python 3,但是我好像python2也安装成功了。。。)pip3 install pygad在这里我们讨论一个简单的全局优化过程,讨论(x−2)2+(y−4)2(x-2)^2+(y-4)^2(x−2)2+(y−4)2在x⊂(1,5),y⊂(6,9)x\subset(1,5),y\subset(6,9)x⊂(1,5),y⊂(6,9)的最大值。源码如下:import nump
2020-09-07 16:48:10
4735
6
原创 Hadoop集群部署
首先在Master节点解压文件,进入Hadoop的目录,我这里下载的是hadoop-2.7.7。解压后的文件目录是。master节点的主机名为master。
2023-07-03 20:39:24
1061
原创 Linux手动安装JDK
选择Linux版本下载JDK的的tar包,我这里下载的是jdk-11.0.12.tar.gz,上传到服务器上随便某个目录上并解压缩。四、查看JAVA环境是否配置成功,运行以下两条命令。如果都出现版本号,说明安装成功。二、配置JDK环境变量。在~/.bashrc文件中追加以下内容。注意将JAVA_HOME替换成你自己的JDK目录即可。进入解压缩之后的JDK文件夹,并查看JDK所在目录。一、在oracle官网。
2023-07-03 20:10:37
1098
原创 Linux根据进程名字彻底删除所有相关的子进程
Linux有些时候kill -9进程pid,进程名字还会出现,比如spark提交应用时的SparkSubmit。这是因为当前进程有其它子进程依赖。
2023-02-22 21:30:22
1275
原创 Python线程实现超时自动退出
我们跑代码往往有一个需求,如果代码出错不希望它hang那边或者代码出错一直运行占用系统资源。最近跑Spark SQL发现有的Application总会因为配置参数出错而hang那边半天,就很烦。唯一你需要关注的参数就是timiLimit,它表示你希望你的应用运行多长时间退出,一般最后需要加入杀死应用程序的代码,在runAPP以及killAPP里自定义你的代码即可,亲测可用!
2023-02-22 17:37:45
2228
原创 Yarn节点unhealthy解决办法
有的节点可能会出现unhealthy状态,这种情况一般是因为那个节点上HDFS文件过多,导致剩余磁盘空间不足,一般解决方法是。超过该值该节点就会被列入不健康列表,并且不再使用该盘符参与计算任务。默认值为90%,将该值增大即可解决问题,可以更改至99.99%。一般用下面命令查看Yarn上的nodemanager节点状态。之后重启HDFS还有YARN即可,再次使用。可以看到所有节点可以都变为正常状态。该参数表示每块盘符的最高使用比例,删除HDFS上不常用的文件。
2023-02-19 20:00:53
2028
原创 Linux安装Conda
注意我的用户是yellow,所以此处为yellow,这里yellow需要替换为你的当前用户名。X86则复制X86版本的conda下载链接,ARM复制ARM的。这个文件是你当前用户的环境变量,然后在该文件里添加一行(下载完成之后,当前目录下就已经有安装包了,运行安装脚本。首先判断Linux的架构是ARM还是X86,命令为。使用wget命令下载安装包,我的机器是ARM架构的。查看是否配置成功,命令行直接输入conda,出现。一路点击回车,并输入yes,同意安装即可。找到相应的下载链接,
2023-02-07 17:21:21
3442
原创 com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure(Hive连接MySQL报错)
localhost(主机名或者ip地址都会报错,就很傻逼。然后就可以正常启动hive。(不使用安全认证)!
2023-01-20 21:39:42
5238
1
原创 latex缩小图片与文字之间的距离
表示图片下的文字与图片文字的描述缩小了5mm,该值越大,图片下的文字与图片文字的描述的距离越大。表示图片文字的描述与图片的距离缩小了4mm,该值越大,图片文字的描述与图片的距离越大。\vspace{5mm}里面的数是正数,则表示距离增大5mm。
2022-10-17 23:26:26
4284
原创 美团-大数据开发实习面试
算法问了4道都比较简单,分别考的二分,递归,双指针以及动态规划。704. 二分查找力扣原题,注意边界条件,以及是否能取等号即可。704. 二分查找代码如下: 3.双指针递增数组,判断数组中是否存在两个数之和为target,思路是双指针,一个begin,一个end,每次移动一个指针。167. 两数之和 II - 输入有序数组代码如下: 4.最长递增子序列LIS(动态规划)300. 最长递增子序列DP代码如下:最优时间复杂度为O(nlogn)写完四道算法之后,开始问项目,问了大概半小时
2022-07-05 17:02:12
1293
1
原创 Java String,char,int类型的相互转换
输出结果:输出结果: 3.string转int的方法(两种方法)输出结果为:4.string转char的方法输出结果为:5. char转int (两种方法)输出结果:
2022-06-26 01:51:54
1089
原创 字节跳动-基础结构开发面经
先让做了自我介绍,问了半小时简历上的问题。658. 找到 K 个最接近的元素力扣的原题,面试官改为找到第K个最接近的元素,要求时间复杂度为O(logn + k)。考察点:二分法。其具体的复杂度如下:八股文基本没有考,考察的问题是开放型的问题。1.Spark与Flink框架的本质区别。2.Spark SQL与Flink SQL的本质区别。先让做了自我介绍,问了半小时简历上的问题。算法:146. LRU 缓存力扣top100的原题,开放型的一道题。但是我没做过这道原题。考察数据结构,建立一个hashMap(In
2022-06-08 10:54:27
1123
1
原创 华为机试4.20:按照路径替换二叉树
这是华为第二道200分的题,考的是树的基本结构。将一颗子二叉树按照路径替换到另一颗根二叉树中,得到一颗新的二叉树。替换动作满足如下条件:1.子树的根节点完全替换根二叉树对应的节点2.子树根节点下的子树完全保留3.根二叉树的对应节点下的子树完全删除输入输入为3行第一行:一个数组,表示根二叉树。二叉树的每个节点在1到9之间,包含1和9,空节点用0表示。第二行:一个字符串,表示子二叉树根节点对应根二叉树的节点,如“/1/2”对应(每个节点下不存在相同的子节点,即pa
2022-05-04 15:57:17
3546
原创 华为机试4.20:新员工考试
复盘一下之前的笔试做的题目,这是第一题,100分的题目。考的回溯,当时也没做出来。1.新员工考试小聪入职新公司,参加线上的新员工必备考试,考试共25题,以此是10个判断题(每题2分)、10个单选题(每题4分)和5个多选题(每题8分),总分100分。考题只能顺序作答,答对题目获得相应分数,答错题目获得0分,考试系统不提示作答是否正确,答题过程中如果累积有3题答错,直接中止考试并计算考试分数。小聪考试结果是N分(0<=N<=100),请根据小聪的分数,算出所有可能的答题情况的个数
2022-05-03 18:57:11
3370
1
原创 腾讯笔试04-24 题目三
有n个战士站在一排,分别编号1,2,3,...n,战士的战斗力等于他的编号,有一些战士只会进攻,有一些战士只会防守。现在我们要将他们从某个点开始分为两个阵营,假设这个点为pos(0<=pos<=n),则编号1,2,3,...pos的战士为第一个阵营,pos+1,pos+2,...n的战士为第二阵营。假设pos为0时,说明第一阵营没有战士,所有的战士都在第二阵营。我们令第一战士为进攻方,第二战士为防守方,假设第一个阵营中能够进攻的战士战斗力总和为w,第二个阵营中能够防守的战士战斗力总和为v,我们希
2022-04-25 15:02:22
1434
原创 腾讯笔试04-24 题目二
牛牛有一个长度为n的数组a,数组下标从1~n。牛牛每一次会将a中所有下标为非质数的元素进行删除,即aj且j不为质数。在删除完成之后,牛牛会将数组a重新按顺序拼接起来。牛牛不断循环和这个过程,直到数组a的大小为1。牛牛现在给你这个数组,他想知道这个数组最后剩下的那个元素值是多少呢,请告诉牛牛。注:1不是质数(本题是核心模式,不需要自己处理输入输出,完成函数即可)示例1[1,2,3,4]输出3说明第一次数组会变成[2,3]。第二次数组会变成[3]。示例2
2022-04-25 13:18:10
2099
原创 腾讯笔试04-24 题目一
后台Java开发岗位,实习机试。5道题一共,一题20分,满分100分。第一题:牛牛有n个长度相等由数字组成的字符串,牛牛将他们一行一行排列在一起。牛牛喜欢从上到下读数,可以将n个字符串读出了一些数字字符串。牛牛想帮这些数字字符串记录下来,并将他们进行排序。希望你能帮牛牛将从小到大排序后的数字字符串输出出来,输出的这个数字字符串要去掉前导0。输入描述:第一行为n,表示有n个字符串。接下来有n行,每行有一个字符串str。1<=n<=91<=str.length
2022-04-25 12:29:14
1825
原创 Python OJ输入输出
1.OJ环境,以Python3为例if __name__ == "__main__": inputStr=input() print(inputStr)输入12 23 45输出12 23 45即input()相当于读取一行内容,并且类型为string类型。注意需要将str转为你需要的类型2.Python3常用的,字符串转为数字,存到list中if __name__ == "__main__": inputStr=input()
2022-04-24 22:23:03
2551
原创 Python深拷贝浅拷贝
最近博主在拷贝list以及dict时候遇到一些坑,后来明白python深拷贝以及浅拷贝的区别浅拷贝,指的是重新分配一块内存,创建一个新的对象,但里面的元素是原对象中各个子对象的引用。对数据采用浅拷贝的方式时,如果原对象中的元素不可变,那倒无所谓;但如果元素可变,浅拷贝通常会出现一些问题,例如list=[1,2,3]copylist=listlist.pop(-1)print(copylist)输出[1, 2]同时对于字典来说,也有这样的情况,如下:dict={"k":"v1"}
2022-04-11 11:28:51
880
原创 Python ASCII与数字的相互转换
当我们用python处理字符串时候,会遇到这样的情况,比如将'a'转化为数字,与c不同的是,转化为数字的用法是,结果输出97.num=ord('a')print(num)ord函数即可,它的解释为,即获取单个字符的ASCIIReturn the Unicode code point for a one-character string.常见字符的ASCII如下所示:48-57 数字0-9 97-122 小写字母a-z反之,使用chr函数,进行数...
2022-04-06 17:32:16
9795
原创 Python字符串转数字
默认转换方式:num = int(string)把二进制,八进制,十六进制转化为数字,python也提供了内置函数,非常方便,用法分别如下:num1 = int(binaryString,2)num2 = int(octonaryString,8)num3 = int(hexadecimalString,16)...
2022-04-06 10:03:48
46418
原创 Java PriorityQueue实现大顶堆
Java中PriorityQueue通过二叉小顶堆实现,可以用一棵完全二叉树表示。PriorityQueue位于Java util包中,实际上这个队列就是具有“优先级”。既然具有优先级的特性,那么就得有个前后排序的“规则”。所以其接受的类需要实现Comparable 接口。该队列线程安全,不允许null值,入队和出队的时间复杂度是O(log(n))。PriorityQueue 默认是小根堆,大根堆需要重写比较器。对与大根堆,就要借助于comparator比较器,来实现大根堆。实现方法有两种第一种
2022-03-11 16:12:53
7044
原创 Java Arrays.Sort方法重写
当原始的java sort方法无法满足我们的需求时候,我们需要自定义一些排序方法,此时需要重写Array.sort方法重写。模板代码如下,默认是从小到大排序的,如果想从大到小,把a-b换为b-a即可。//templateArrays.sort(T[], new Comparator<T>() { public int compare(T a, T b){ return a - b; }});示例代码如下,我的排序数组numStringArray类
2022-03-01 11:02:00
4631
原创 Error: INFO ipc.Client: Retrying connect to server: Already tried XXX time(s).
首先,这个坑逼错误可能是由于端口号没有开启导致的(比如9000端口),使用命令查看一下相应端口号是否存在。sudo netstat -tpnl若看到9000端口,则说明端口号正常开启,导致报错的原因是主节点9000端口打开了,但是不允许远程访问。若未看到9000端口,说明datanode以及namenode没有成功启动,此时可以看一下配置文件(core-site.xml以及hdfs-site.xml)是否出现问题,真不行的话格式化namenode,命令如下。之后重启hdfs。hdf.
2022-02-13 00:46:32
8751
1
原创 Flink状态后端配置(设置State Backend)
Flink提供不同的状态后端(state backends)来区分状态的存储方式和存储位置。flink状态可以存储在java堆内存内或者内存之外。通过状态后端的设置,flink允许应用保持大容量的状态。开发者可以在不改变应用逻辑的情况下设置状态后端。默认情况下,flink的状态会保存在taskmanager的内存中,而checkpoint会保存在jobManager的内存中。flink提供三种开箱即用的State Backend:MemoryStateBackend FsStateBacken
2021-12-05 21:43:21
4550
原创 git设置单个仓库用户名以及密码
有些时候我们的服务器可能要部署多个git仓库,不同git仓库的用户名以及密码都是不一样的,此时需要我们设置单个仓库的用户名以及密码。1.git设置用户名以及邮箱命令如下:git config user.name "userName" //你的用户名git config user.email "email address" //你的邮箱地址而设置全局仓库的用户名的命令如下:git config --global user.name "userName" //你的用户名
2021-12-03 15:53:27
32699
原创 train loss与test loss结果分析
在我们进行神经网络的超参数调优时,需要分析参数设置的是否合理以及网络结构是否设置的合适。对于train loss与test loss,进行分析,可以得出以下结果,一般有以下几种情况:1.train loss 不断下降,test loss不断下降,说明网络仍在学习;2.train loss 不断下降,test loss趋于不变或者上升,说明网络过拟合;3.train loss 趋于不变,test loss不断下降,说明数据集异常;4.train loss 趋于不变,test loss趋于
2021-12-01 18:28:33
3886
原创 sklearn与pytorch模型的保存与读取
当我们花了很长时间训练了一个模型,需要用该模型做其他事情(比如迁移学习),或者我们想把自己的机器学习模型分享出去的时候,我们这时候需要将我们的ML模型持久化到硬盘中去。1.sklearn中模型的保存与读取sklearn模型的保存有两种方法。pickle与joblib。第一种方法,使用pickle方法保存。import pickle #pickle模块#保存模型with open('model.pickle', 'wb') as f: pickle.dump(clf, f)
2021-11-29 17:03:50
3022
原创 numpy list df tensor的相互转换
每次用python处理数据时候,都要特码的搜这些数据类型之间是怎么转换的,这里我直接总结一下。1.numpy与list之间numpy转listlistData=numpyData.tolist()list转numpynumpyData=numpy.array(listData)2.df与list之间df转list#一维的dataFramelistData=dfData.values.tolist()#某列dataFramelistData=df['columnNa
2021-11-29 16:18:39
2896
原创 python tqdm添加进度条
用神经网络做迭代的时候,有些时候迭代次数比较多,等待的时候想看究竟迭代到了哪一次,虽然普通的print输出可以满足我们的需求,但是比较low,这里介绍一种超级简单的进度条安装包tqdm。导入包from tqdm import tqdmfrom colorama import Forefor epoch in tqdm(range(1000),bar_format='{l_bar}%s{bar}%s{r_bar}' % (Fore.CYAN, Fore.RESET)): time.sl
2021-11-19 15:28:02
1492
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人