- 博客(538)
- 资源 (11)
- 收藏
- 关注
原创 面对百亿数据,Hbase为什么查询速度依然非常快?
HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。那么Hbase是如何做到的呢?接下来,介绍一下数据的查询思路和过程。查询过程:第1步:项目有100亿业务数据,存储在一个Hbase集群上(由多个服务器数据节点构成),每个数据节点上有若干个Region(区域),每个Region实际上就是Hbase中一批数据的集合(比如20万条数据)。我们现在开始根据主键RowKey来查询对应的记录,Hbase的Master帮我们迅速定位到该
2021-03-01 23:11:37
2224
4
原创 架构视角:什么业务场景用Hbase?
要想非常明确什么场景下用Hbase,那么我们来先了解下Hbase的主要核心特性,那么在什么业务场景下用Hbase,就比较清晰了!Hbase是一种在Hadoop之上的NoSQL的Key/vale数据库,底层依靠HDFS进行数据存储。一、Hbase核心特性海量数据存储面对互联网应用的海量数据,传统关系型数据库比如mysql,一般单表不会超过一千万,并且单表字段数量也一般不会超过100个,否则性能急剧下降。但基于Hbase的设计理念与存储原理,Hbase单表可以有百亿行、百万列,在横向和纵向两个维度所支
2021-02-20 12:08:03
906
2
原创 Centos7环境Hbase集群搭建
Hbase集群搭建基于上一篇Hadoop集群已经搭建完成基础上(需要的朋友可以翻看我的上一篇博文),我们来完成Hbase的搭建工作。一、节点规划服务/机器node21(10.10.26.21)node245(10.10.26.245)node255(10.10.26.255)NameNodeYDataNodeYYYZookeeperYYYRegionServerYYYHBase MasterY二、Zookeeper集群
2021-02-19 12:10:43
539
原创 Centos7环境Hadoop3集群搭建
Centos 7 环境 hadoop 3.2.1分布式集群搭建由于项目需要存储历史业务数据,经过评估数据量会达到100亿以上,在原有mongodb集群和ES集群基础上,需要搭建Hbase集群进行调研,所以首先总结一下Hadoop集群的搭建过程。一、三个节点的集群规划:hostname(IP)node21(10.10.26.21)node245(10.10.26.245)node255(10.10.26.255)HDFSNameNode、DataNodeDataNodeDa
2021-02-19 11:33:10
454
原创 10亿数据要存要查,选Mongodb还是Elalsticsearch?
项目启动,预估超过10亿的文档数据要存储,那么我们选择Elasticsearch or Mongodb?明确两者定位MongoDB和Elasticsearch都属于NoSQL范畴的数据库,且都属于文档型数据存储数据库。所以这两者的众多功能和特性高度重合, 但其实两者定位还是有所不同。MongoDB是文档型数据库, 提供数据存储和管理服务。Elasticsearch作为一个搜索引擎,定位是提供数据检索服务,也就是说重点是全文索引,即模糊匹配。因此,Elasticsearch的设计会有所偏重,比如M
2021-02-02 23:28:51
3183
原创 磁盘IO监测方法,了解一下?
一、磁盘IO核心指标在磁盘测试中最关心的几个指标分别为:iops(每秒执行的IO次数)、bw(带宽,每秒的吞吐量)、lat(每次IO操作的延迟)。磁盘的 IOPS,也就是在一秒内,磁盘进行多少次 I/O 读写。磁盘的吞吐量,也就是每秒磁盘 I/O 的流量,即磁盘写入加上读出的数据的大小。当每次IO操作的block较小时,如512bytes/4k/8k等,此时更能体现的是磁盘读写的频率特性,即磁盘的IOPS,所以这时测试的是性能指标IOPS。当每次IO操作的bloc...
2021-01-31 21:22:54
2579
原创 RocketMQ架构与工作流程
RocketMQ是阿里开源的消息中间件,它是纯Java开发,具有高吞吐量、高可用性、适合大规模分布式系统应用的特点。一、RocketMQ集群架构与角色分工以上RocketMq的集群架构图,里面包含四个主要部分:NameServer集群、Producer集群、Cosumer集群以及Broker集群。1、NameServer 担任路由消息的提供者。生产者或消费者能够通过NameServer查找各Topic相应的Broker IP列表分别进行发送消息和消费消息。nameServer..
2021-01-30 22:58:34
689
原创 大厂必须中间件Kafka介绍!
Apache Kafka是一个开放源代码的分布式事件流平台,成千上万的公司使用它来实现高性能数据管道,流分析,数据集成和关键任务应用程序。在《财富》 100强公司中 , 超过 80%的公司信任并使用Kafka。由此可以看到Kafka的流行程度。接下来介绍一下Kafka的核心能力、生态和流行程度:一、核心能力:高吞吐量:使用延迟低至2ms的计算机集群以网络受限的吞吐量传递消息。可扩展性:可以将生产集群扩展到多达一千个经纪人,每天数万亿条消息,PB级数据和数十...
2021-01-30 21:58:03
679
转载 服务端高并发分布式架构演进之路
转自:https://segmentfault.com/a/1190000018626163 【向作者致敬】1. 概述本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。2. 基本概念在介绍架构之前,为了避免部分读者对架构设计中的一些概念不...
2019-11-03 21:07:13
386
转载 LDA模型,主题聚类模型
自然语言处理--LDA主题聚类模型LDA模型算法简介: 算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要聚类的类别数量m;然后会算法会将每一篇文档 di 在 所有Topic上的一个概率值p;这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm);同样的文档中的所有词也会求出 它对应每个Topic的概率,wi = (wp...
2019-10-30 17:12:16
3108
转载 知识图谱技术综述
引用本文徐增林, 盛泳潘, 贺丽荣, 王雅芳. 知识图谱技术综述[J]. 电子科技大学学报自然版, 2016, 45(4): 589-606.XU Zeng-lin, SHENG Yong-pan, HE Li-rong, WANG Ya-fang. Review on Knowledge Graph Techniques[J]. Journal of University of Elec...
2019-09-06 10:05:22
8767
转载 自然语言处理,NLP,科普与详解
什么是自然语言处理简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算...
2019-09-05 15:50:25
2023
转载 太多选择——如何挑选合适的大数据或 Hadoop 平台? CDH与原生Hadoop区别?
今年,大数据在很多公司都成为相关话题。虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop 已经成为事实上的标准。IBM、Oracle、SAP、甚至 Microsoft 等几乎所有的大型软件提供商都采用了 Hadoop。然而,当你已经决定要使用 Hadoop 来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。你有多种选择来安装 Hadoop 的一个版本并实现大数...
2019-08-28 17:33:23
1946
转载 Traceroute/tracert原理和实践
*本文原创作者:ArkTeam/YSYY,转载须注明来自FreeBuf.COM一、路由追踪程序traceroute/tracertTraceroute是Linux和Mac OS等系统默认提供的路由追踪小程序,Tracert是Windows系统默认提供的路由追踪小程序。二者的功能相同,都能探测数据包从源地址到目的地址经过的路由器的IP地址。Traceroute/Tracert的实现都借助了T...
2019-08-27 11:50:25
1721
转载 5年时间服务器从0到200,一个创业公司的架构野蛮生长史
本文首发于InfoQ垂直公众号:聊聊架构,5年时间服务器从0到200,一个创业公司的架构野蛮生长史,转发于InfoQ公众号:一家创业公司的5年架构变迁史。贝聊成立于2013年,是中国幼儿园家长工作平台,致力于通过互联网产品及定制化解决方案,帮助幼儿园解决展示、通知、沟通等家长工作中的痛点,促进家园关系和谐。贝聊是威创股份(A股幼教第一股)、清华启迪、网易联手投资的唯一品牌。在短短几年内,用户规...
2019-08-26 18:15:22
444
转载 autossh反向代理实现内网穿透
有时候需要在公司使用家里个人PC的一些资源,此时可以选择Teamvieawer进行远程,但是略微麻烦而且访问速率较慢,此时通过vps实现内网穿透就是个不错的想法。本文讲述的内网穿透方法是通过autossh实现vps对内网的反向代理,在vps与内网之间建立一条长连接,使得外网PC通过vps的反向代理访问内网PC。整个实现所需的条件如下:带有公网IP(222.222.222.222)的v...
2019-08-24 10:13:22
1307
转载 接入层架构设计,解决ngxin单点故障
一、问题域nginx、lvs、keepalived、f5、DNS轮询,每每提到这些技术,往往讨论的是接入层的这样几个问题:1)可用性:任何一台机器挂了,服务受不受影响2)扩展性:能否通过增加机器,扩充系统的性能3)反向代理+负载均衡:请求是否均匀分摊到后端的操作单元执行二、上面那些名词都是干嘛的由于每个技术人的背景和知识域不同,上面那些名词缩写(运维的同学再熟悉不过了...
2019-08-23 11:17:10
455
转载 文件系统缓存,filesystem cache
文件系统缓存filesystem cache许多人没有意识到。文件系统缓存对于性能的影响。Linux系统默认的设置倾向于把内存尽可能的用于文件cache,所以在一台大内存机器上,往往我们可能发现没有多少剩余内存。(free命令显示的第二行输出,如下)。文件系统cache可以加速磁盘操作,使系统有更好的IO性能,代价只是把一些空闲的内存利用起来了。我们需要预留多少内存做文件系统cache...
2019-08-16 17:05:58
14086
1
转载 Elasticsearch如何做到亿级数据查询毫秒级返回?
如果面试的时候碰到这样一个面试题:ES 在数据量很大的情况下(数十亿级别)如何提高查询效率?这个问题说白了,就是看你有没有实际用过 ES,因为啥?其实 ES 性能并没有你想象中那么好的。很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下 5~10s,坑爹了。第一次搜索的时候,是 5~10s,后面反而就快了,可能就几百毫秒。你就...
2019-08-15 17:38:40
373
转载 从开源小白到 Apache Member,我的成长之路【转载】
我们走过的每一步路,都会留下印记,越坚实,越清晰。近日,Apache 软件基金会(ASF)官方 Blog宣布全球新增 40 位 Apache Member,张乎兴有幸成为其中一位。目前,全球共有771位 ASF Member,中国仅13位。本文将分享作者从0基础的开源小白,一路走来的感触,希望把期间的经历分享出来,让更多的人看到,世界开源舞台的中国力量。只要有持续的付出,总会...
2019-08-15 16:14:52
349
转载 面试感悟----一名3年工作经验的程序员应该具备的技能
前言因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章。这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发的,因此有一部分内容也是专门面向咱们Java程序员的。简单先说一下,LZ坐标杭州,13届本科毕业,算上年前在阿里巴巴B2B事业部的面试,一共有面试了有6家公司(因为LZ不想请假,因此只是每个晚上去其他公司面试,所以面试的公司比较少),...
2019-08-13 18:05:13
233
转载 什么是架构师?
什么是架构师?架构师英文architect,这个词源于建筑学。软件工程当中的架构师和建筑工程当中建筑师有许多相通之处,都是负责“产品”宏观的架构设计。在一个团队里,架构师充当了技术Leader的角色,不仅要完成项目的整体设计和规划,还要带领技术团队一起解决实际问题,攻克技术难点,使得软件的设计、开发、测试、发布流程得以顺利完成。架构师都做些什么?1.架构设计...
2019-08-09 15:11:00
424
转载 Elasticsearch 数据搜索条件字段参数详解
ES即简单又复杂,你可以快速的实现全文检索,又需要了解复杂的REST API。本篇就通过一些简单的搜索命令,帮助你理解ES的相关应用。虽然不能让你理解ES的原理设计,但是可以帮助你理解ES,探寻更多的特性。其他相关的内容参考:Elasticsearch官方文档翻译样例数据为了更好的使用和理解ES,没有点样例数据还是不好模拟的。这里提供了一份官网上的数据,accounts.js...
2019-07-22 17:33:23
1434
转载 原 openstack Linux bridge实现neutron网络
转自:https://blog.youkuaiyun.com/li_101357/article/details/78711834Linux bridge实现虚拟交换机的基本原理br0是linux bridge,br0充当虚拟交换机的作用,负责将物理网卡eth0和虚拟机网卡tap设备vnet0/vnet1连接到同一个二层网络,实现虚拟机VM1和VM2,以及虚拟机与外网之间的通信。 Linux-...
2018-10-12 14:23:40
925
转载 VPC是什么,VPC详解
转自:https://blog.youkuaiyun.com/zzq900503/article/details/80252184简介私有网络(VPC) 私有网络是针对公有云的基础网络(经典网络)来定义的一种概念。VPC(Virtual Private Cloud)是公有云上自定义的逻辑隔离网络空间,是一块可我们自定义的网络空间,与我们在数据中心运行的传统网络相似,托管在VPC内的是我们在私有云...
2018-09-13 14:09:01
103907
转载 Dubbo使用原因和科普
一、基础篇1.1 开篇说明dubbo是一个分布式服务框架,致力于提供高性能透明化RPC远程调用方案,提供SOA服务治理解决方案。本文旨在将对dubbo的使用和学习总结起来,深入源码探究原理,以备今后可以作为借鉴用于工作之中。由于dubbo各个分层都是很多扩展,比如注册中心有redis、zookeeper选项,通信模块有netty、mina,序列化有hession、hession2、
2018-01-31 12:22:16
6679
转载 spring boot spring cloud 科普和使用情况
作者:纯洁的微笑链接:https://www.zhihu.com/question/61403505/answer/228416193来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。想要明白这个问题,首先需要知道什么是Spring Boot,什么是Spring Cloud,以及两者之间有什么关系?什么是Spring BootSpring
2018-01-30 14:16:30
2201
转载 消息中间件的理解和学习
消息中间件博客分类: activemq消息中间件activemqjavajms1、消息中间件是什麽 消息中间件是指利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型,它可以在分布式环境下扩展进程间的通信。 消息中间件可以即支持同步方式,又支持异步方式。异步中间件比同步中间件具有更强
2017-11-24 16:26:29
2705
转载 机器学习最好的科普文章
转自 飞鸟各投林史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷让我们从机器学习谈起导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一
2017-10-20 16:01:56
3443
转载 Lucene:基于Java的全文检索引擎简介
Lucene:基于Java的全文检索引擎简介Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示Hacking Lucene:简化的查询分析器,删除的实现,定制的
2017-09-08 14:44:56
739
转载 数据库分区分表和提升性能
http://my.oschina.NET/tinyframework/blog/186583序言一直在做企业应用,目前要做一些互联网应用,当然只是应用是放在互联网的,数据量距离真正的互联网应用还是有相当大的差距的。但是不可避免的,在数据库出现瓶颈的情况还是有的,现在做互联网上的应用,当然也要未雨绸缪,要考虑数据量大的时候的解决方案。这个目前开源的商用的也都有不少解
2017-08-24 11:53:37
2268
转载 全文索引原理详解
一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具
2017-08-22 12:44:40
7130
6
转载 为什么越来越多的公司在使用Spark Streaming
为什么越来越多的公司在使用Spark Streaming1,122 次阅读 - 基础架构作者:孙镜涛Databricks最近对1400多家Spark用户进行了一次调查,结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%,另外,有48%的受访者将Spark Streaming标记为最常用的Spark组件。在Spark Stre
2017-08-16 11:49:00
2051
转载 阿里内部分享:大数据业务平台两年发展历程-pefect,大数据的一些经验
摘要: 这篇文章来自一个公司内部的分享,是自己所服务的业务中数据平台的发展历程,已经讲了有几个月了,最近打算挑几个点拿出来用文章的形式写出来。是自己进入公司以来参与过或者接触过的数据型项目的情况。 这篇文章来自一个公司内部的分享,是自己所服务的业务中数据平台的发展历程,已经讲了有几个月了,最近打算挑几个点拿出来用文章的形式写出来。是自己进入公司以来参与过或
2017-08-16 11:22:37
841
转载 如何准备转型为项目经理
程序员(码农)的转身之道:如何准备转型为项目经理风之家2016年4月12日有备而无患做了几年的开发之后,随着年龄的增长和经验的积累,,转型做项目管理是一个很多人多会选择的道路。甚至进而,随着技术和管理经验的提升,可能会在一个公司内担当一些总监、部门经理等职务。这种转型的要点在于,coder所需的技能和项目经理所需要的技能是不同的,需要在做码农
2017-08-14 14:25:06
958
转载 史上最强----机器学习详解-科普-经典总结---入门必读----心血总结-----回味无穷
转自 飞鸟各投林史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷让我们从机器学习谈起导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一
2017-08-08 15:09:31
1745
2
转载 中科院大牛博士是如何进行文献检索和阅读(好习惯受益终生)
转载的,是以前收藏的,自己觉得很好,今天拿出来给大家分享。原作者有多个,但是具体名字不知道。向所有作者致敬!1.如何进行文献检索 我是学自然科学的,平时确实需要不少外文文献,对于自然科学来讲英文文献检索首推Elsevier,Springer等。虽然这些数据库里面文献已经不算少了。但是有时还会碰到查不到的文献,而这些文献的数据库我们所在研究所或大学又没有买,怎么办?我基本通过以下向个途
2017-04-19 17:27:31
1178
转载 MySQL索引原理及慢查询优化MySQL索引原理及慢查询优化
转自:http://tech.meituan.com/mysql-index.htmlMySQL凭借着出色的性能、低廉的成本、丰富的资源,已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色,但所谓“好马配好鞍”,如何能够更好的使用它,已经成为开发工程师的必修课,我们经常会从职位描述上看到诸如“精通MySQL”、“SQL语句优化”、“了解数据库原理”等要求。我们知道一般的应用系统,读
2016-11-28 15:43:15
543
转载 静态方法和实例化方法的区别,很透彻
今天看书时一直没真正弄明白静态方法和实例方法的区别,就在网上搜索,找到一篇很好的文章,和大家分享一下:这是一个经常被时时提出来的问题,很多时候我们以为理解了、懂了,但深究一下,我们却发现并不懂。方法是我们每天都在写得,很多程序员大多都使用实例化方法,而很少使用静态方法,问原因也说不出来所以然,或者简单的回答两者定义的区别,静态方法不需要new就可以使用 实例化方法需要new了以后才可以使用
2015-11-02 11:30:13
1627
转载 C语言关于socket编程解释比较清楚的一个博文
本文摘录自《UNIX网络编程 卷1》。基本套接字函数 socket函数 为了执行网络I/O,一个进程必须做的第一件事就是调用socket函数,指定期望的通信协议类型。其定义如下:#include int socket(int family, int type, int protocol);// 返回:若成功则返回非负描述符,若失败则返回-1
2015-08-26 12:41:56
2326
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人