- 博客(11)
- 收藏
- 关注
原创 Real-time ML with Spark
什么是 Spark? Apache Spark™ is a unified analytics engine for large-scale data processing. – Official website为什么要有 Spark?分布式 具备经济、快速、可靠、易扩充、数据共享、设备共享、通讯方便、灵活等分布式所具备的特性高层次抽象 RDD(**R**es...
2018-06-01 01:06:22
625
原创 Apache HBase 全攻略
基础概念Coprocessor Coprocessor 其实是一个类似 MapReduce 的分析组件,不过它极大简化了 MapReduce 模型。将请求独立地在各个 Region 中并行地运行,并提供了一套框架让用户灵活地自定义 Coprocessor编程技巧充分利用好 CellUtil// 直接使用 byte[] 进行匹配,效率会更高// Bad: cf....
2018-05-31 19:16:48
1037
原创 Linux 实战技巧
常用命令adduser# 以创建 Apache Eagle 用户为例$ adduser eagle$ passwd eagle # ur password for eagle user# 赋予用户可以 sudo 的权限$ chmod u+w /etc/sudoers$ vim /etc/sudoers # 找到 `root ALL=(ALL) A...
2018-05-31 18:55:19
4039
原创 Git 高级玩法
SSH 免密# 如果没有 .ssh 隐藏文件,则需要先打开 `git bash`,并执行$ mkdir ~/.ssh$ chmod +700 ~/.ssh$ cd ~/.ssh$ ssh-keygen -t rsa -C "yuzhouwan@email.com"# 将 ~/.ssh/id_rsa.pub 中的公钥加入 github/gitlab$ ssh -T git@g...
2018-05-31 18:53:22
1231
原创 Maven 高级玩法
实用技巧Maven 提速多线程# 用 4 个线程构建,以及根据 CPU 核数每个核分配 1 个线程进行构建$ mvn -T 4 clean install$ mvn -T 1C clean install跳过测试-DskipTests # 不执行测试用例,但编译测试用例类生成相应的 class 文件至 target/test-...
2018-05-31 18:47:33
8938
原创 Zookeeper 原理与优化
Zookeeper 是什么 Zookeeper 是一个基于 Google Chubby 论文实现的一款解决分布式数据一致性问题的开源实现,方便了依赖 Zookeeper 的应用实现 数据发布 / 订阅、负载均衡、服务注册与发现、分布式协调、事件通知、集群管理、Leader 选举、 分布式锁和队列 等功能基本概念集群角色 一般的,在分布式系统中,构成集群的每一台机器都有自己的...
2018-05-31 16:07:13
10851
原创 Apache Superset 二次开发
基本概念 Superset 是 Airbnb 开源的一个旨在视觉,直观和交互式的数据探索平台(曾用名 Panoramix、Caravel,现已进入 Apache 孵化器)基础组件Flask Python 几大著名 Web 框架之一,以其轻量级, 高可扩展性而著名Jinja2 模板引擎 Werkzeug WSGI 工具集Gunicorn Gunico...
2018-05-31 15:56:19
18988
1
原创 大数据生态圈里的一致性算法
大数据生态圈中,保证一致性的方式举不胜举Hadoop 用 Zookeeper(Zab,Paxos + 事务顺序)ElasticSearch 用 Hash 路由算法(非 一致性 Hash)Cassandra 用 Gossip 闲话算法 Redis 用 Raft 选举算法他们各有什么区别,为什么会如此选型?Paxos 选举算法 Paxos 是最先解决拜占庭将军问题的算法,...
2018-05-31 15:41:42
847
原创 如何运用 JVM 知识提高编程水平
什么是 JVM? A **J**ava **V**irtual **M**achine(JVM)is an abstract computing machine that enables a computer to run a Java program – wikipedia.org JVM 是 Java Virtual Machine(Java 虚拟机)的缩写,JVM 是一种用于计算设...
2018-05-31 15:34:58
789
原创 如何成为一名优质的 Contributor
关于本文 本文主要是为了,记录给 Druid-io / Apache Eagle / Apache Flink / Apache HBase / Apache Kafka / Apache Superset / Apache Zookeeper / TensorFlow 开源社区贡献代码,尽自己一点绵薄之力的过程 文章最后一节,是一些经验之谈,期冀能帮助到 同样热爱开源、也想成为 Cont...
2018-05-31 15:20:51
3182
原创 Benedict Jin's Blog
Welcome Welcome to My Blog!博客介绍 吾生有涯而学无涯,以有涯而逐无涯(有点断章取义,不过追寻知识的热情是必要的)大事件纪实 标题 内容 日期 混沌初开 建站第一天 2014-11-01 模糊的记忆 Hexo 框架 / next 主题 / 七牛图床 / Gulp 压缩 / 静态资源 CDN /...
2018-05-31 15:09:30
432
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人