Yellow0523-优快云博客

原创编程常用命令总结

查看表的分区信息（如果不是分区表，会报错 Table call_center is not a partitioned table）df检查磁盘空间占用情况(并不能查看某个目录占用的磁盘大小)；查看目录下文件大小（比如查看kafka-logs目录下所有文件之和的总大小）启动standalone模式下的所有集群(master以及slave节点)压缩Metrics目录下的所有文件，并将压缩包命名命名为Compress。查看表的所有字段以及字段的所有类型。查看Kafka当前的所有topic。

2022-11-29 00:21:55 3462

原创欠拟合的原因以及解决办法（深度学习）

之前这篇文章，我分析了一下深度学习中，模型过拟合的主要原因以及解决办法：过拟合的原因以及解决办法（深度学习）_大黄的博客-优快云博客这篇文章中写一下深度学习中，模型欠拟合的原因以及一些常见的解决办法。也就是为什么我们设计的神经网络它不收敛？这里还是搬这张图出来，所谓欠拟合（也就是神经网络不收敛），它的表现就是训练集上的性能表现很辣鸡，测试集的表现同样很辣鸡。一个良好的模型，它应该是训练集上表现很好，测试集上表现也很好的。下面我列举几种常见的原因以及解决办法：一...

2021-12-12 10:36:35 36089 9

原创过拟合的原因以及解决办法（深度学习）

过拟合：模型在训练集上表现的非常好，但在测试集的数据下表现很差。具体观察loss函数就是，train loss一直降低，而test loss先降低，而后随着epoach的增加，而不断增加。过拟合的原因：1.训练数据太少（比如只有几百组）2.模型的复杂度太高（比如隐藏层层数设置的过多，神经元的数量设置的过大），举个简单的例子，你的模型是高射炮，结果你的数据是蚊子，这不就很扯淡了吗。过拟合的解决方案：解决过拟合问题有两个方向：降低参数空间的维度或者降低每个维度上的有效规模（eff

2021-12-02 22:50:40 50337 3

原创确定神经网络层数以及神经元个数

神经网络主要由输入层，隐藏层以及输出层构成，合理的选择神经网络的层数以及隐藏层神经元的个数，会在很大程度上影响模型的性能（不论是进行分类还是回归任务）。输入层的节点数量以及输出层的节点数量是最容易获得的。输入层的神经元数量等于数据的特征数量（feature个数）。若为回归，则输出层的神经元数量等于1；若为分类，则输出层的神经元数量为分类的类别个数（如区分猫狗，则为2；区分手写数字0-9，则为10）。1.确定隐藏层的层数对于一些很简单的数据集，一层甚至两层隐藏元都已经够了，隐藏..

2021-11-25 15:04:54 31388 3

原创 Pytorch优化器选择

Pytorch中有四种常用的优化器，SGD、Momentum、RMSProp、Adam，那我们该如何选择呢。1.SGD参数介绍：--lr(float) :学习率--momentum(float，可选）：动量因子（默认为0）--weight_decay(float，可选）：权重衰减（L2惩罚，默认为0）--dampening(float，可选）：动量的抑制因子（默认为0）--nesterov(bool，可选）：使用Nesterov动量（默认为false）示例代码：op

2021-11-20 20:32:55 5048

原创贝叶斯优化代码

首先，我们安装贝叶斯优化的包。贝叶斯优化的包只支持python3.x版本（注意！）,python2.x版本虽然也能安装成功，但是会报错，贼傻逼。安装命令，使用pip3.pip3 install bayesian-optimization后面的使用教程有时间再更新。...

2021-05-11 14:55:29 1707 6

原创遗传算法代码

全局搜索最优算法（1）——遗传算法这里以github上的遗传算法开源库为例子：首先我们安装GA（官方说依赖库好像只支持Python 3，但是我好像python2也安装成功了。。。）pip3 install pygad在这里我们讨论一个简单的全局优化过程，讨论(x−2)2+(y−4)2(x-2)^2+(y-4)^2(x−2)2+(y−4)2在x⊂(1,5),y⊂(6,9)x\subset(1,5),y\subset(6,9)x⊂(1,5),y⊂(6,9)的最大值。源码如下：import nump

2020-09-07 16:48:10 4735 6

原创 Hadoop集群部署

首先在Master节点解压文件，进入Hadoop的目录，我这里下载的是hadoop-2.7.7。解压后的文件目录是。master节点的主机名为master。

2023-07-03 20:39:24 1061

原创 Linux手动安装JDK

选择Linux版本下载JDK的的tar包，我这里下载的是jdk-11.0.12.tar.gz，上传到服务器上随便某个目录上并解压缩。四、查看JAVA环境是否配置成功，运行以下两条命令。如果都出现版本号，说明安装成功。二、配置JDK环境变量。在~/.bashrc文件中追加以下内容。注意将JAVA_HOME替换成你自己的JDK目录即可。进入解压缩之后的JDK文件夹，并查看JDK所在目录。一、在oracle官网。

2023-07-03 20:10:37 1098

原创 Python获取当前工作目录以及改变工作目录

【代码】Python获取当前工作目录以及改变工作目录。

2023-02-23 22:26:33 1944

原创 Python中Json文件的写入与读取

注意Import json即可。

2023-02-23 17:34:44 1519

原创 Linux根据进程名字彻底删除所有相关的子进程

Linux有些时候kill -9进程pid，进程名字还会出现，比如spark提交应用时的SparkSubmit。这是因为当前进程有其它子进程依赖。

2023-02-22 21:30:22 1275

原创 Python线程实现超时自动退出

我们跑代码往往有一个需求，如果代码出错不希望它hang那边或者代码出错一直运行占用系统资源。最近跑Spark SQL发现有的Application总会因为配置参数出错而hang那边半天，就很烦。唯一你需要关注的参数就是timiLimit,它表示你希望你的应用运行多长时间退出，一般最后需要加入杀死应用程序的代码，在runAPP以及killAPP里自定义你的代码即可，亲测可用！

2023-02-22 17:37:45 2228

原创 Yarn节点unhealthy解决办法

有的节点可能会出现unhealthy状态，这种情况一般是因为那个节点上HDFS文件过多，导致剩余磁盘空间不足，一般解决方法是。超过该值该节点就会被列入不健康列表，并且不再使用该盘符参与计算任务。默认值为90%，将该值增大即可解决问题，可以更改至99.99%。一般用下面命令查看Yarn上的nodemanager节点状态。之后重启HDFS还有YARN即可，再次使用。可以看到所有节点可以都变为正常状态。该参数表示每块盘符的最高使用比例，删除HDFS上不常用的文件。

2023-02-19 20:00:53 2028

原创 Linux安装Conda

注意我的用户是yellow，所以此处为yellow，这里yellow需要替换为你的当前用户名。X86则复制X86版本的conda下载链接，ARM复制ARM的。这个文件是你当前用户的环境变量，然后在该文件里添加一行（下载完成之后，当前目录下就已经有安装包了，运行安装脚本。首先判断Linux的架构是ARM还是X86，命令为。使用wget命令下载安装包，我的机器是ARM架构的。查看是否配置成功，命令行直接输入conda,出现。一路点击回车，并输入yes，同意安装即可。找到相应的下载链接，

2023-02-07 17:21:21 3442

原创 com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure（Hive连接MySQL报错）

localhost(主机名或者ip地址都会报错，就很傻逼。然后就可以正常启动hive。（不使用安全认证)！

2023-01-20 21:39:42 5238 1

原创 Latex常用宏包\usepackage

命令\xspace可以自动生成一个空格, 除非其后是标点。

2022-10-20 00:41:29 14420

原创 latex定义新命令

Latex 可以使用。

2022-10-18 22:51:01 4175

原创 latex缩小图片与文字之间的距离

表示图片下的文字与图片文字的描述缩小了5mm，该值越大，图片下的文字与图片文字的描述的距离越大。表示图片文字的描述与图片的距离缩小了4mm，该值越大，图片文字的描述与图片的距离越大。\vspace{5mm}里面的数是正数，则表示距离增大5mm。

2022-10-17 23:26:26 4284

原创美团-大数据开发实习面试

算法问了4道都比较简单，分别考的二分，递归，双指针以及动态规划。704. 二分查找力扣原题，注意边界条件，以及是否能取等号即可。704. 二分查找代码如下： 3.双指针递增数组，判断数组中是否存在两个数之和为target，思路是双指针，一个begin，一个end，每次移动一个指针。167. 两数之和 II - 输入有序数组代码如下： 4.最长递增子序列LIS（动态规划）300. 最长递增子序列DP代码如下:最优时间复杂度为O(nlogn)写完四道算法之后，开始问项目，问了大概半小时

2022-07-05 17:02:12 1293 1

原创 Java String,char,int类型的相互转换

输出结果：输出结果： 3.string转int的方法（两种方法）输出结果为：4.string转char的方法输出结果为：5. char转int （两种方法）输出结果：

2022-06-26 01:51:54 1089

原创字节跳动-基础结构开发面经

先让做了自我介绍，问了半小时简历上的问题。658. 找到 K 个最接近的元素力扣的原题，面试官改为找到第K个最接近的元素，要求时间复杂度为O(logn + k)。考察点：二分法。其具体的复杂度如下：八股文基本没有考，考察的问题是开放型的问题。1.Spark与Flink框架的本质区别。2.Spark SQL与Flink SQL的本质区别。先让做了自我介绍，问了半小时简历上的问题。算法：146. LRU 缓存力扣top100的原题，开放型的一道题。但是我没做过这道原题。考察数据结构，建立一个hashMap（In

2022-06-08 10:54:27 1123 1

原创华为机试4.20：按照路径替换二叉树

这是华为第二道200分的题，考的是树的基本结构。将一颗子二叉树按照路径替换到另一颗根二叉树中，得到一颗新的二叉树。替换动作满足如下条件：1.子树的根节点完全替换根二叉树对应的节点2.子树根节点下的子树完全保留3.根二叉树的对应节点下的子树完全删除输入输入为3行第一行：一个数组，表示根二叉树。二叉树的每个节点在1到9之间，包含1和9，空节点用0表示。第二行：一个字符串，表示子二叉树根节点对应根二叉树的节点，如“/1/2”对应（每个节点下不存在相同的子节点，即pa

2022-05-04 15:57:17 3546

原创华为机试4.20：新员工考试

复盘一下之前的笔试做的题目，这是第一题，100分的题目。考的回溯，当时也没做出来。1.新员工考试小聪入职新公司，参加线上的新员工必备考试，考试共25题，以此是10个判断题（每题2分）、10个单选题（每题4分）和5个多选题（每题8分），总分100分。考题只能顺序作答，答对题目获得相应分数，答错题目获得0分，考试系统不提示作答是否正确，答题过程中如果累积有3题答错，直接中止考试并计算考试分数。小聪考试结果是N分（0<=N<=100），请根据小聪的分数，算出所有可能的答题情况的个数

2022-05-03 18:57:11 3370 1

原创腾讯笔试04-24 题目三

有n个战士站在一排，分别编号1,2,3，...n，战士的战斗力等于他的编号，有一些战士只会进攻，有一些战士只会防守。现在我们要将他们从某个点开始分为两个阵营，假设这个点为pos(0<=pos<=n)，则编号1,2,3，...pos的战士为第一个阵营，pos+1,pos+2,...n的战士为第二阵营。假设pos为0时，说明第一阵营没有战士，所有的战士都在第二阵营。我们令第一战士为进攻方，第二战士为防守方，假设第一个阵营中能够进攻的战士战斗力总和为w，第二个阵营中能够防守的战士战斗力总和为v，我们希

2022-04-25 15:02:22 1434

原创腾讯笔试04-24 题目二

牛牛有一个长度为n的数组a，数组下标从1~n。牛牛每一次会将a中所有下标为非质数的元素进行删除，即aj且j不为质数。在删除完成之后，牛牛会将数组a重新按顺序拼接起来。牛牛不断循环和这个过程，直到数组a的大小为1。牛牛现在给你这个数组，他想知道这个数组最后剩下的那个元素值是多少呢，请告诉牛牛。注：1不是质数（本题是核心模式，不需要自己处理输入输出，完成函数即可）示例1[1,2,3,4]输出3说明第一次数组会变成[2,3]。第二次数组会变成[3]。示例2

2022-04-25 13:18:10 2099

原创腾讯笔试04-24 题目一

后台Java开发岗位，实习机试。5道题一共，一题20分，满分100分。第一题：牛牛有n个长度相等由数字组成的字符串，牛牛将他们一行一行排列在一起。牛牛喜欢从上到下读数，可以将n个字符串读出了一些数字字符串。牛牛想帮这些数字字符串记录下来，并将他们进行排序。希望你能帮牛牛将从小到大排序后的数字字符串输出出来，输出的这个数字字符串要去掉前导0。输入描述：第一行为n，表示有n个字符串。接下来有n行，每行有一个字符串str。1<=n<=91<=str.length

2022-04-25 12:29:14 1825

原创 Python OJ输入输出

1.OJ环境，以Python3为例if __name__ == "__main__": inputStr=input() print(inputStr)输入12 23 45输出12 23 45即input()相当于读取一行内容，并且类型为string类型。注意需要将str转为你需要的类型2.Python3常用的，字符串转为数字，存到list中if __name__ == "__main__": inputStr=input()

2022-04-24 22:23:03 2551

原创 Python深拷贝浅拷贝

最近博主在拷贝list以及dict时候遇到一些坑，后来明白python深拷贝以及浅拷贝的区别浅拷贝，指的是重新分配一块内存，创建一个新的对象，但里面的元素是原对象中各个子对象的引用。对数据采用浅拷贝的方式时，如果原对象中的元素不可变，那倒无所谓；但如果元素可变，浅拷贝通常会出现一些问题，例如list=[1,2,3]copylist=listlist.pop(-1)print(copylist)输出[1, 2]同时对于字典来说，也有这样的情况，如下：dict={"k":"v1"}

2022-04-11 11:28:51 880

原创 Python ASCII与数字的相互转换

当我们用python处理字符串时候，会遇到这样的情况，比如将'a'转化为数字，与c不同的是，转化为数字的用法是，结果输出97.num=ord('a')print(num)ord函数即可，它的解释为，即获取单个字符的ASCIIReturn the Unicode code point for a one-character string.常见字符的ASCII如下所示：48-57 数字0-9 97-122 小写字母a-z反之，使用chr函数，进行数...

2022-04-06 17:32:16 9795

原创 Python字符串转数字

默认转换方式：num = int(string)把二进制，八进制，十六进制转化为数字，python也提供了内置函数，非常方便，用法分别如下：num1 = int(binaryString,2)num2 = int(octonaryString,8)num3 = int(hexadecimalString,16)...

2022-04-06 10:03:48 46418

原创 Java PriorityQueue实现大顶堆

Java中PriorityQueue通过二叉小顶堆实现，可以用一棵完全二叉树表示。PriorityQueue位于Java util包中，实际上这个队列就是具有“优先级”。既然具有优先级的特性，那么就得有个前后排序的“规则”。所以其接受的类需要实现Comparable 接口。该队列线程安全，不允许null值，入队和出队的时间复杂度是O（log(n)）。PriorityQueue 默认是小根堆，大根堆需要重写比较器。对与大根堆，就要借助于comparator比较器，来实现大根堆。实现方法有两种第一种

2022-03-11 16:12:53 7044

原创 Java Arrays.Sort方法重写

当原始的java sort方法无法满足我们的需求时候，我们需要自定义一些排序方法，此时需要重写Array.sort方法重写。模板代码如下，默认是从小到大排序的，如果想从大到小，把a-b换为b-a即可。//templateArrays.sort(T[], new Comparator<T>() { public int compare(T a, T b){ return a - b; }});示例代码如下，我的排序数组numStringArray类

2022-03-01 11:02:00 4631

原创 Error: INFO ipc.Client: Retrying connect to server: Already tried XXX time(s).

首先，这个坑逼错误可能是由于端口号没有开启导致的（比如9000端口），使用命令查看一下相应端口号是否存在。sudo netstat -tpnl若看到9000端口，则说明端口号正常开启，导致报错的原因是主节点9000端口打开了，但是不允许远程访问。若未看到9000端口，说明datanode以及namenode没有成功启动，此时可以看一下配置文件（core-site.xml以及hdfs-site.xml）是否出现问题，真不行的话格式化namenode，命令如下。之后重启hdfs。hdf.

2022-02-13 00:46:32 8751 1

原创 Flink状态后端配置（设置State Backend）

Flink提供不同的状态后端（state backends）来区分状态的存储方式和存储位置。flink状态可以存储在java堆内存内或者内存之外。通过状态后端的设置，flink允许应用保持大容量的状态。开发者可以在不改变应用逻辑的情况下设置状态后端。默认情况下，flink的状态会保存在taskmanager的内存中，而checkpoint会保存在jobManager的内存中。flink提供三种开箱即用的State Backend：MemoryStateBackend FsStateBacken

2021-12-05 21:43:21 4550

原创 git设置单个仓库用户名以及密码

有些时候我们的服务器可能要部署多个git仓库，不同git仓库的用户名以及密码都是不一样的，此时需要我们设置单个仓库的用户名以及密码。1.git设置用户名以及邮箱命令如下：git config user.name "userName" //你的用户名git config user.email "email address" //你的邮箱地址而设置全局仓库的用户名的命令如下：git config --global user.name "userName" //你的用户名

2021-12-03 15:53:27 32699

原创 train loss与test loss结果分析

在我们进行神经网络的超参数调优时，需要分析参数设置的是否合理以及网络结构是否设置的合适。对于train loss与test loss，进行分析，可以得出以下结果，一般有以下几种情况：1.train loss 不断下降，test loss不断下降，说明网络仍在学习;2.train loss 不断下降，test loss趋于不变或者上升，说明网络过拟合;3.train loss 趋于不变，test loss不断下降，说明数据集异常;4.train loss 趋于不变，test loss趋于

2021-12-01 18:28:33 3886

原创 sklearn与pytorch模型的保存与读取

当我们花了很长时间训练了一个模型，需要用该模型做其他事情（比如迁移学习），或者我们想把自己的机器学习模型分享出去的时候，我们这时候需要将我们的ML模型持久化到硬盘中去。1.sklearn中模型的保存与读取sklearn模型的保存有两种方法。pickle与joblib。第一种方法，使用pickle方法保存。import pickle #pickle模块#保存模型with open('model.pickle', 'wb') as f: pickle.dump(clf, f)

2021-11-29 17:03:50 3022

原创 numpy list df tensor的相互转换

每次用python处理数据时候，都要特码的搜这些数据类型之间是怎么转换的，这里我直接总结一下。1.numpy与list之间numpy转listlistData=numpyData.tolist()list转numpynumpyData=numpy.array(listData)2.df与list之间df转list#一维的dataFramelistData=dfData.values.tolist()#某列dataFramelistData=df['columnNa

2021-11-29 16:18:39 2896

原创 python tqdm添加进度条

用神经网络做迭代的时候，有些时候迭代次数比较多，等待的时候想看究竟迭代到了哪一次，虽然普通的print输出可以满足我们的需求，但是比较low，这里介绍一种超级简单的进度条安装包tqdm。导入包from tqdm import tqdmfrom colorama import Forefor epoch in tqdm(range(1000),bar_format='{l_bar}%s{bar}%s{r_bar}' % (Fore.CYAN, Fore.RESET)): time.sl

2021-11-19 15:28:02 1492

空空如也

空空如也