
大数据
点火三周
热爱编程,老码团队成员,《老码说编程之玩转Swift江湖》作者。elasitcsearch认证工程师,elasitcsearch中文社区成都负责人
展开
-
什么是大数据
大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数转载 2016-07-20 09:36:36 · 3099 阅读 · 0 评论 -
如何用elastic APM实现用户行为轨迹监控(User Journey Monitoring)
对于各大APM厂商来说,通过用户轨迹监控(User Journey Monitoring)来获取用户访问网站或者APP时的轨迹已经成为了标配,通过该功能,我们可以了解用户的轨迹信息,比如:哪个页面最吸引用户访问,用户在哪个页面上停留的时间最长,哪个页面客户点击最少,停留的时间最少,一般是从哪个页面到哪个页面等等。elastic APM 目前只提供了一个RUM功能(Real User Monito...原创 2019-03-06 10:59:03 · 8802 阅读 · 2 评论 -
elastic stack 6.6尝鲜体验(云服务以及GA版 APM distributed tracing)
今天收到一封邮件,elastic stack 发布了6.6版本,其中一个重要升级就包括了最近在关注的APM distributed tracing功能,之前的6.5版本中还属于beta版本,有一些坑,现在是GA版本了,必须试一下。顺便的,必须试一下ES传说中的cloud service。在ES cloud上使用部署最新的6.6套件申请整个步骤非常简单,点击邮件里面的连接,跳转到ES的云服务...原创 2019-01-30 11:35:30 · 1582 阅读 · 0 评论 -
在app上签到,打开,做任务的爬虫
研究这个,主要是很多app上提供的类似会员积分的东西就可以抵换实物,虽然不多,但是我有云啊,几个爬虫机器人刷刷就每天扫一遍,反正资源不用白不用。虽然大部分的app应用都有pc版,可以直接才浏览器中获取对应的api,但毕竟很多活动是app里面才有的。其实,app版和pc版也没有本质的区别,除非app是用的类似websocket的接口,否则从底层上来说,所有的动作对应的都是HTTP的动作,app版和p...原创 2018-07-30 09:12:48 · 5413 阅读 · 4 评论 -
fold函数和reduce函数的区别(不特指spark)
In a fold over a collection, the accumulator type may be different than the type of the collection, and a zero element is usually given. In a reduce, you don't give a zero element and the accumulato原创 2017-09-15 10:47:16 · 3859 阅读 · 0 评论 -
Hadoop streaming详解
Hadoop streamingHadoop为MapReduce提供了不同的API,可以方便我们使用不同的编程语言来使用MapReduce框架,而不是只局限于Java。这里要介绍的就是Hadoop streaming API。Hadoop streaming 使用Unix的standard streams作为我们mapreduce程序和MapReduce框架之间的接口。所以你可以用任何语言来编写MR原创 2017-03-14 17:20:17 · 10493 阅读 · 0 评论 -
MapReduce基础
这篇文章翻译自Yahoo的Hadoop教程,很久之前就看过了,感觉还不错。最近想总结一下以前学的东西,看到现在关于Hadoop的中文资料还比较少,就有了把它翻译出来的想法,希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分,我下去还会选一些来翻译,一般来说只翻译讲原理的,操作类的就不翻译了。水平有限,不妥之处,请指正(感觉翻译过来后,读起来倒是没英文的顺畅:)。废话说完,正文开始转载 2017-03-08 07:33:08 · 965 阅读 · 0 评论 -
Elasticsearch之基本操作
摘要:本文简单介绍了elasticsearch的HTTP API中的插入、删除、更新、查找、搜索功能。elasticsearch是一个是开源的(Apache2协议),分布式的,RESTful的,构建在Apache Lucene之上的的搜索引擎。它有很多特点例如Schema Free,Document Oriented。它是#nosql的,基于JSON,同转载 2017-02-22 14:33:10 · 2268 阅读 · 0 评论 -
用postman快速学习ElasticSearch的搜索功能
在初步学习ElasticSearch的时候,我们大部分的时候需要通过其REST API去熟悉ES的功能,但如果只是用curl命令,不免麻烦而不直观,如果使用postman, 我们就可更好的归纳,分类和复用各种API原创 2017-02-22 14:21:58 · 35774 阅读 · 6 评论 -
Amazon Dynamo论文中文版
原著: Werner Vogels 翻译: quest.run (翻译本文,旨在讨论NoSQL时会有一个共同的Terminology,对于要实现NoSQL方案的同学,建议啃啃原文,因为很多术语在翻译成中文后语义差异很大,如quorum, replica/replication, read-repair, anti-entropy, partition/partitionin转载 2017-03-02 11:15:37 · 7893 阅读 · 0 评论 -
ELASTICSEARCH集群部署
ELASTICSEARCH集群部署文档ElasticSearch集群部署文档版本及连接系统要求部署1. 确认JDK版本及安装2. 下载es3. 用户/目录/权限设置5. 切换用户6. 修改配置文件7. 设置es占用内存8. 启动测试9. 正式启动10. 脑裂官方es搭建步骤写的很简略, 但是实际搭建过程中, 会涉及一系列环境配置. 以下的流程, 是在转载 2017-02-21 12:31:26 · 2361 阅读 · 1 评论 -
详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足,后续及时修改转载 2017-02-21 10:55:07 · 4998 阅读 · 0 评论 -
使用sqoop导入postgresql数据到Hbase
随着业务和大数据技术的发展,越来越多的公司需要在后端架设Hbase数据库,而原有的业务则需要从各种RDBMS数据库中迁移到Hbase当中。Appach的sqoop(发音:[skup])就是基于这样的需求而诞生的,本文详细记录了一个通过sqoop将数据从postgresql迁移到Hbase,并定制row key的例子。原创 2017-02-28 15:47:04 · 7372 阅读 · 2 评论 -
CAP, BASE, 最终一致性和五分钟原则
CAP,BASE和最终一致性是NoSQL数据库存在的三大基石。而五分钟法则是内存数据存储的理论依据。这个是一切的源头。CAP C: Consistency 一致性A: Availability 可用性(指的是快速获取数据)P: Tolerance of network Partition 分区容忍性(分布式) 10年前,Eric Bre转载 2017-02-16 16:30:34 · 16648 阅读 · 2 评论 -
NoSQL生态系统
何为 NoSQL?NoSQL 不是一个工具,而是由一些具有互补性和竞争性的工具组成的一个概念,是一个生态圈。这些被称为 NoSQL 的工具,在存储数据的方式上,提供了一种与(基于 SQL 语言的)关系型数据库截然不同的思路。要想了解 NoSQL,必须先了解现有的这些工具,去理解那些引导它们开拓出新的存储领域的设计思路。NoSQL 其名在给 NoSQL 下定义之前,我们先来试着从它的转载 2017-02-07 11:16:46 · 943 阅读 · 0 评论 -
基于redis构建消息队列
一般来说,消息队列有两种场景:一种是发布者订阅者模式;一种是生产者消费者模式。利用redis这两种场景的消息队列都能够实现。定义:生产者消费者模式:生产者生产消息放到队列里,多个消费者同时监听队列,谁先抢到消息谁就会从队列中取走消息;即对于每个消息只能被最多一个消费者拥有。(常用于处理高并发写操作)发布者订阅者模式:发布者生产消息放到队列里,多个监听队列的消费者都会收到同一份消息;即正常情转载 2016-11-11 14:23:31 · 4199 阅读 · 0 评论 -
用 Redis 轻松实现秒杀系统
导论曾经被问过好多次怎样实现秒杀系统的问题。昨天又在优快云架构师微信群被问到了。因此这里把我设想的实现秒杀系统的价格设计分享出来。供大家参考。秒杀系统的架构设计秒杀系统,是典型的短时大量突发访问类问题。对这类问题,有三种优化性能的思路:写入内存而不是写入硬盘、异步处理而不是同步处理、分布式处理用上这三招,不论秒杀时负载多大,都能轻松应对。更好的是,Redi转载 2016-11-11 14:12:14 · 1911 阅读 · 0 评论