Scathon-优快云博客

原创 Golang常用工具类库

Go语言常用功能类库Welcome! github地址如下，欢迎star fork commit.代码传送门，快点击我功能列表：数据结构(collections/***)map链式map(linkedhashmap: collections/map2/linkedhashmap.go)queue优先级队列(collections/queue/priority_queue.go)setset(collections/set/set.go)文件操作(utils/f

2020-12-12 20:30:07 2283

原创 Golang解决TCP粘包拆包问题

协议定义报文长度（4字节）报文内容[]byte服务端代码package mainimport ( "encoding/binary" "fmt" "net")func main() { fmt.Println("Starting the server ...") // 创建 listener listener, err := net.Listen("tcp", "localhost:50000") if err != nil { fmt.Println("E

2020-08-09 16:23:57 1180 6

原创 centos7安装docker和k8s

centos6 现在安装docker比较困难，很多依赖不满足，所以换用centos7安装参考：https://www.cnblogs.com/763977251-sg/p/11837130.htmldocker安装yum remove docker \ docker-client \ docker-client-latest \ docker-common \

2020-08-08 12:02:07 1781 2

原创技术杂记

本博客记录一些在开发和学习过程中一些技术点的备忘。============================================================wget使用代理加快下载速度如果下载的资源是http协议的，执行如下命令： wget 资源地址-e use_proxy=yes -e http_proxy=127.0.0.1:1088 如果下载的资源是https协议的，命令要稍微麻烦一些，执行以下命令： wget https://github.com/redis/red.

2020-07-22 21:58:02 202

原创 Scala程序设计--名称调用和值调用

package com.scathon.tech.basic.callbynameimport java.io.Fileimport scala.io.Sourceimport scala.util.control.NonFatalobject ByNameParameter { def main(args: Array[String]): Unit = { val p...

2020-04-06 11:34:59 337

原创 golang杂记

对于golang，我是拾起来，又放下，拾起来，又放下。。。。。。字符串部分字符串中含有中文的时候，遍历乱码解决办法： func TestStringWithChinese(t *testing.T) { s := "hello,林某人" bytes := []byte(s) fmt.Println(string(bytes)) for _, ch := range s { ...

2019-12-08 22:37:16 196

原创 KD_Tree算法Scala实现

package com.scathon.tech.scala.mlimport com.scathon.tech.scala.utils.AutoResManagerimport scala.beans.BeanPropertyimport scala.collection.mutableimport scala.io.Source/** * KD树算法. */object...

2019-11-06 19:36:09 488

原创 Mac下面idea debug很卡的解决方法

最新发现mac 使用idea的debug功能很卡，上网查阅资料发现是jdk8的bug解决办法：sudo vim /private/etc/hosts127.0.0.1 localhost 改成127.0.0.1 localhost 【hostname】.localhostname使用hostname命令查看即可。...

2019-11-02 21:53:28 815

原创图数据库学习记录：load命令导入节点以及关系

背景：项目运用了知识图谱，要从关系型数据库切换为图数据库一、数据准备：╰─➤ strings entity.csv entityId,entityName,entityType111,flowPktLossQuality,eventType222,flowDelayQuality,eventType333,flowShutdownQuality,eventType1111,...

2019-10-23 21:51:55 918

原创 DaoCloud docker加速器地址获取以及mac系统如何配置镜像加速

一、注册账号，可以使用github账号关联登录二、注册之后进入个人中心，这个加速器的图标真的是不好找。。点击这个火箭的图标，然后进入到一个界面：往下翻：就可以看见这个URL了。可以根据不同的操作系统进行配置：以mac为例：配置完了以后，点击Apply & Restart重启生效。其实也可以手动配置：cd ~/.dockervim daemon....

2019-10-18 22:34:26 1044

原创 spark源码学习一__spark-shell启动过程源码学习

一、配置spark-shell远程调试spark-shell --driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888"二、IDEA本地连接远程JVM三、spark-shell启动脚本一共涉及三个脚本：spark-shell脚本：funct...

2019-09-13 22:02:32 482

原创 spark远程debug

以spark-shell 启动过程调试为例：spark-shell --driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888"出现了监听8888端口的这个日志就说明服务端配置成功。...

2019-09-11 22:44:29 253

原创 git clone 很慢的解决办法

1. 开启FQ工具2.查看sock5 地址,不通的fq工具不一样，有1080 有的是1086等等，具体的得上fq工具查看3. 配置如下配置：scathon@HuadongdeMBP.lan ~/projects/opensource/sourcecode ╰─➤ git config --global http.proxy socks5://127.0.0.1:1086 ...

2019-09-11 22:41:09 770

原创 Tomcat 远程DEBUG调试

catalina.sh中配置CATALINA_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,address=9998,server=y,suspend=n"

2018-10-22 14:53:37 155

原创 ML-01-线性回归以及代码实现

一、表示方式以及数学符号解释准备工作：训练数据集 attr1 attr2 value 1.3 1.9 3.2 1.1 1.5 2.5 1.5 2.3 3.9 1.7 2.7 4.6 1.9 3.1 5.3 2.1 3.5 6 3.2 5.1 10 2.3...

2018-10-21 21:01:31 603

原创 Python提高运行速度的方法

print("定义一个装饰器计算每个函数的执行时间")import timedef time_cal(func): @functools.wraps(func) def cal(*args,**kw): start=time.time() func(*args,**kw) end=time.time() prin...

2018-10-11 09:45:24 7819

原创 Spark技术体系与MapReduce，Hive，Storm几种技术的关系与区别

大数据体系架构：Spark内存计算与传统MapReduce区别：SparkSQL与Hive的区别:SparkSQL替换的是Hive的查询引擎，Hive是一种基于HDFS的数据仓库，并且提供了基于SQL模型的，针对存了大数据的数据仓库，进行分布式交互查询的查询引擎，所以SparkSQL暂时并不能完全替代Hive，实际上，在生产环境中，SparkSQL也是针对Hive数据仓库中...

2018-09-22 17:15:30 6421

原创 Druid关闭自动重试

设置两个属性就可以了，来自druid GitHubconnectionErrorRetryAttempts = 0breakAfterAcquireFailure = true

2018-09-19 11:33:01 6511 2

原创特征缩放（feature scaling）

机会永远留给有准备的人，不积跬步，无以至千里，厚积而薄发，与大家共勉！加油！博主最近在学习吴恩达的机器学习课程，将一些日常学习本人认为重要的地方在此记录，与大家分享，如有错误，请大家不吝赐教！ github:https://github.com/ScathonLin在梯度下降算法运用中，如果能保证不同特征的取值在相同或者相近的范围内，比如都处于0-1之间，那么梯度下降算法将会能很很快的收敛...

2018-09-16 19:07:18 6575 1

原创 SparkRDD

package com.scathon.spark.rddimport org.apache.spark.{SparkConf, SparkContext}import org.junit.Testclass RddDemo { val conf = new SparkConf().setAppName("rdd").setMaster("local[*]") val sc...

2018-09-08 12:06:13 213

原创 kafka消费者配置参数

kafka-consumer配置参数（大部分默认值均可，但是下面这些参数对性能以及可用性影响较大）参数名称参数含义 fetch.min.bytes 消费者从服务器获取记录的最小字节数，broker收到消费者拉取数据的请求的时候，如果可用数据量小于设置的值，那么broker将会等待有足够可用的数据的时候才返回给消费者，这样可以降低消费者和broker的工作负载，因为当主题不是很...

2018-09-02 17:33:28 23599

原创 kafka消费者核心之轮询

参考资料：《kafka权威指南》消息轮询是消费者API 的核心，通过一个简单的轮询向服务器请求数据。一旦消费者订阅了主题，轮询就会处理所有的细节，包括群组协调、分区再均衡、发送心跳和获取数据，开发者只需要使用一组简单的API 来处理从分区返回的数据。从上面可以看出，轮询不仅仅是简单的获取数据。第一次调用消费者Api的Poll方法进行轮询的时候，它会负责查找CroupCoordinator（...

2018-09-02 17:29:36 7407

原创 kafka生产者API入门-01

废话不多说，直接上代码：package com.scathon.kafka;import kafka.consumer.ConsumerIterator;import kafka.consumer.KafkaStream;import kafka.javaapi.consumer.ConsumerConnector;import org.apache.kafka.clients.c...

2018-09-02 15:20:14 459

原创 kafka-producer配置参数

kafka配置参数详解参数名称参数解释 acks acks指定了必须有多少个分区副本接收到了消息，生产者才会认为消息是发送成功的。 acks=0，生产者成功写入消息之前不会等待来自任何服务器的响应，这种配置，提高吞吐量，但是消息存在丢失风险。 acks=1，只要集群的leader（master）收到了消息，生产者将会受到发送成功的一个响应，如果消息无撞...

2018-09-02 15:12:52 12740 1

原创 Spark基础-SparkStreaming-官方文档学习-01

SparkStreaming 官方文档学习-01sparkstreamming基础部门学习--主要依赖于spark官方文档（翻译+实践），版本是2.2.2，如有错误，希望大家不吝赐教~一、入门例子：package com.scathon.spark.example.spark_streamingimport org.apache.spark.{SparkConf, Spar...

2018-08-31 14:31:18 235

原创本地仓库关联远程仓库有关问题解决

web操作：首先去网站新建GitHub仓库。本地操作：进入到要建仓库的目录 git init。 it remote add origin git@github.com:RayHauton/***.git git push -u origin master ------><font color='red'>此时可能会有问题</font>如果在网站中新建...

2018-08-26 23:11:42 5573

原创一台机器同时关联两个git仓库

在.ssh目录下面重新生成新的私钥和公钥。名称不要重复在.ssh目录下面新建config文件，其配置如下：Host github.com #default set HostName github.com IdentityFile ~/.ssh/id_rsaHost github_second #custom set HostName github.co...

2018-08-26 23:07:11 910

原创 github 利用.gitignore文件忽略指定文件

.gitignore的操作：目的是忽略指定类型的文件或者某个文件夹a、新建.gitignore文件： b、输入要忽略的文件（可用通配符）详细教程：github上ignore文件集合网站：https://github.com/github/gitignore/.gitignore文件实例：*.a # 忽略所有 .a 结尾的文件 !lib.a # 但 lib.a...

2018-08-26 23:05:30 7608

原创 kafka-broker配置参数详解

1. num.partitions 含义：指明了新创建的主题将会有多少个分区数量。 **如何选择分区数量？ 1)：考虑主题吞吐量，100k or 1G？ 2)：单个分区读取数据的最大吞吐量是多少，例如，每个分区一般都会有一个消费者，该消费者写入数据库的速度是每秒50M，那么以为这从一个分区读取数据的速度不需要超过50M/s ...

2018-08-19 12:04:35 2509

原创 hive笔记

hive安装：================================================1、解压安装包到指定目录2、进行配置：进入到hive安装目录中的conf文件夹，vi hive-site.xml输入如下配置：javax.jdo.option.ConnectionURLjdbc:mysql://localhost:3306/hive?c

2017-04-25 16:57:14 307

原创 Hadoop初学之mapreduce（1）-wordcount实例

一、mapper编写package com.hadoop.mapreduce.wordcount;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;imp

2017-04-09 22:22:46 254

原创 hadoop基础学习（一）之hadoop集群搭建

现在正在学习hadoop，想通过写一点技术博客来讲一些知识积累下来用来备忘。本人是刚踏进hadoop生态圈的菜鸟，很多东西也是一知半解，如果博客中有啥错误或者不严谨的地方，烦请各位大神指正，我会虚心学习。谢谢大家。一：准备工作：我用了四台虚拟机构建hadoop集群，系统是centos6.8；已经安装jdk，虚拟机软件是VMWare；二：免密登录，大家可以百度一下哈哈哈，教程很多；三...

2017-03-23 23:30:16 219

RayHauton的博客