
大数据和云计算
文章平均质量分 61
happyredstar
这个作者很懒,什么都没留下…
展开
-
Apache-Arrow是什么?
Arrow是一种数据存储格式,以及对这个格式的一系列API及多语言的SDK。当上层应用使用这个接口访问这些数据的时候,大家就不用在不同的私有格式之间转换。从而省去了大量的序列化和反序列化的计算资源。...原创 2022-07-17 23:52:12 · 1391 阅读 · 0 评论 -
你真的会用read()读【普通文件】吗?
原型如下:如果是读【普通文件】,可能的返回是:注意,-1出错的时候,errno会返回错误码。其中有一个errno需要引起我们注意,就是EINTR。手册里面是这么解释的:当任何数据没有读到的时候,如果调用被中断,返回-1且errno设置为EINTR。言外之意是如果读到了,会返回读了多少,这种有数据的不会返回-1。看起来这个异常情况需要处理,避免真的不凑巧刚调用,被信号中断了,那其不是被误认为出错了吗?可是真的是这种情况要处理吗?还真有人说需要处理(见https://blog.youkuaiyun.com/feit241原创 2022-07-12 22:29:31 · 432 阅读 · 0 评论 -
数据湖 Data Lake
# 企业的挑战1. 数据量增长迅速2. 数据源非常多样3. 数据获取的有效性4. 数据的可访问性5. 数据的质量和实效性6. 跨业务单元的数据分享7. 有效的决策原创 2022-07-11 22:51:21 · 296 阅读 · 0 评论 -
HDFS-Spark-Hudi环境的搭建及测试
由于需要进行Hudi的详细选型,本文从0开始搭建一个Spark+Hudi的环境,并进行简单使用。1)假设在Linux进行环境安装,操作系统选择Ubuntu 22.04 LTS版本。2)Ubuntu的源配置清华源。3)JDK安装完毕(当前是1.8版本,1.8.0_333)。2.2 localhost免密登录3. Hadoop安装Hadoop安装的是单节点伪分布式环境,版本选择和后继的Spark选择有关联。例如:Hadoop 3.2.3Hudi当前支持的是Spark3.2,对应的Spark也是3.2。1原创 2022-07-10 23:21:12 · 1251 阅读 · 0 评论 -
配置【文件】处理
配置[文件]处理 什么是配置或配置文件 配置文件就是程序的相对固定参数,让程序能够在一定程度上有运行的灵活性。文件只是配置一种形式,例如存在某个外部的地方,能在运行的时候加载的都算配置。所以我们关注的是配置,文件只是一种形式。 配置[文件]格式 文件文本格式常见:传统的properties文件、ini文件。相对较新的json文件、xml文件、Yaml文件、hocon(没用过)、TOML(其他同事用过,据他说是非常适合,网上也有人说可能是最好的配置格式)...原创 2021-05-04 20:37:18 · 327 阅读 · 0 评论 -
通过minikube部署kubernetes
通过minikube部署kubernetes需要本地验证部署一下knative,需要一个集群,所以先部署一个minikube。记录如下:0.环境准备安装一个VM VirtualBox 6.0.4版本。1.安装Docker自己的机器安装的是Linux Mint 18.3(ubuntu1604)。直接检查一下Docker等的安装情况。$ dock...原创 2019-04-09 18:36:11 · 1524 阅读 · 1 评论 -
跟踪大咖
跟踪大咖这些大咖都是业界的知名人物,经验丰富,且写了很多很好的博客,值得跟踪学习:1. Christian Posta微服务方面的专家,最近在搞Istio。关注他https://blog.christianposta.com/posts/2. Martin Kleppmann3. Martin Fowler关注他https://martin...原创 2019-04-09 09:14:12 · 370 阅读 · 0 评论 -
并发编程的模型
并发编程的模型并发是多核编程中非常困难的部分,主要原因是多个CPU,但是共享一个内存,所以必须有一套机制保证这些CPU不会冲突。理论上一个应用程序绑定一个CPU,然后从头执行到尾是最高效的方式,然而实际中的应用,总是会相互依赖,或者依赖某个低速的IO操作,这时候这些应用就会等待。等待的时候能高效的将CPU出让给别人是很重要的。为了并发且保护共享的数据结构,很多的方式被...原创 2019-04-09 00:31:50 · 245 阅读 · 0 评论 -
迁移Linode服务器
迁移Linode服务器从美国将Linode的一个服务器迁移到日本的机房:1. 首先为了保证数据的完整性,把两台VPS主机都关机2. 到新的VPS主机控制面板那样把Disk Image和Swap Image给删除了,否则在下面的迁移中会提示你硬盘空间不足3. 选择Clone中的Configuration Profile4. 选择...原创 2019-04-08 16:17:02 · 10869 阅读 · 0 评论 -
信息模型驱动的微服务拆分设计思考
信息模型驱动的微服务拆分设计思考微服务倾向于分离的数据库。我们将数据分离的时候一定会有这些疑问:如何将数据拆分开来;遵循什么原则; 拆分的数据如何组合组织起来进行访问;其实拆分数据本事也是微服务划分的一个影响因素。尼古拉斯·沃斯(Niklaus Wirth)曾经说过“算法+数据结构=程序”。狭义一点来说,很多公司的系统中,数据本身就是业务价值的载体,经年积累的业务价值都存储...原创 2019-04-08 16:00:03 · 450 阅读 · 0 评论 -
Confluo对比Kafka
Confluo对比Kafka 最近几天老是看到一篇“伯克利开源 Confluo:吞吐量比 Kafka 高 4 到 10 倍”的文章,到底什么是Confluo,看了一下它的论文和代码,简单分析了一下:初步分析完感觉这个东东为啥要和Kafka比呢?又没有啥可比性,就像Kafka从来不会和Redis比Pub-Sub时延一样。而且这一篇文章感觉比Kafka高大上好多似的,非常容...原创 2018-12-20 22:38:00 · 1929 阅读 · 0 评论 -
LevelDB源码阅读(2)
LevelDB源码阅读(2) C语言用的比较多一些,后面再阅读LevelDB源码的时候,同步做个C语言版本的如何?顺便看看和C++的版本性能比较。说干就干J 还有几个事情在思考:1. C语言版本和C++版本到底性能有没有区别,有多大?2. 复杂的一些数据库模式,例如ER风格的库,能用KV高效的模拟吗?3. 如果添加一个SQL的接口,是不是有原创 2017-01-01 15:51:05 · 703 阅读 · 0 评论 -
微服务的IDL
微服务的IDL 微服务的消费者和提供者之间总要有个约定。不跨语言的话,这种语言本身的定义就可以在不同的组件之间直接共享。一旦支持多语言,用一种公共的接口定义语言来定义他们之间的接口能力就是有必要的了,当然这个IDL可以是自动生成出来的。对于这种IDL,需要如下特性:1. 人要易读2. 机器能校验IDL作为一种描述语言,很多RPC框架都提供自己的定义格式原创 2016-12-04 12:59:43 · 1164 阅读 · 0 评论 -
etcd的单节点手工安装
etcd的单节点手工安装 etcd就两个可执行文件(截至到3.0.15前)。下载地址:https://github.com/coreos/etcd/releases 注:etcd可以集群安装,在这里只想做一个单机测试,所以只是启动一个节点就可以。 1. 解压,并将文件放入系统路径中:tar zxvf etcd-v3.0.15-linux-amd64.tar.gz原创 2016-11-17 09:08:38 · 10963 阅读 · 1 评论