
big data
文章平均质量分 55
CCJHDOPC
这个作者很懒,什么都没留下…
展开
-
大数据系列之(一) Streaming模式基础知识
大数据系列之(一) Streaming模式基础知识大数据 分布式系统 2016-01-07 20:18:23 发布您的评价: 0.0收藏 0收藏作者:Tyler Akidau译者:张磊原文: http://radar.oreilly.com/2015/08/t转载 2016-04-11 14:36:09 · 6103 阅读 · 0 评论 -
用通俗易懂的大白话讲解Map/Reduce原理
用通俗易懂的大白话讲解Map/Reduce原理2014-03-31 16:20 23040人阅读 评论(4) 收藏 举报 分类: 自己记录(27) 版权声明:本文为博主原创文章,未经博主允许不得转载。Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件转载 2016-05-07 14:56:18 · 512 阅读 · 0 评论 -
Machine Learning 扫盲
从人类学习到机器学习 - 机器学习模型人类通过【观察】积累知识,如果运用所掌握的知识完成一个目标,就是【技能】,一个小白从观察开始到获取技能的过程,就是【学习(Learning)】:同理,机器通过【数据】输入积累知识,如果运用其学到的知识完成指定的目标,并且在一定的标准下完成的更好(例如精确度更高、速度更快等),就是【技能】,一个初始程序从大量数据中获得技能的过程就是【机器转载 2016-05-18 13:38:48 · 593 阅读 · 0 评论 -
RCFile 和 ORCFile
RCFile 和 ORCFile发表于2年前(2014-08-22 22:10) 阅读(3283) | 评论(0) 6人收藏此文章, 我要收藏赞1上海源创会5月15日与你相约【玫瑰里】,赶快来约哦~!>>> 大数据 RCFile 读论文目录[-]RCFileRCFile 的设计和实现ORC File文件结构转载 2016-05-07 11:11:46 · 789 阅读 · 0 评论 -
RCFile 简介及其应用
基于 Hive 的文件格式:RCFile 简介及其应用时间 2014-06-18 02:54:04 xrzs原文 http://my.oschina.net/leejun2005/blog/280896主题 RCFile HiveHadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区转载 2016-05-07 11:07:04 · 1530 阅读 · 0 评论 -
规则引擎简介
规则引擎简介规则引擎 2014-12-03 09:23:49 发布您的评价: 0.0收藏 2收藏现实生活中,规则无处不在。法律、法规和各种制度均是;对于企业级应用来说,在IT技术领域,很多地方也应用了规则,比如路由表,防火墙策略,乃至角色权限控制(RBAC),或者转载 2016-04-22 11:43:00 · 3041 阅读 · 0 评论 -
复杂事件处理(Complex Event Processing)入门1
复杂事件处理(Complex Event Processing)入门1字数967 阅读12 评论0 喜欢0一个新产品需要重点考虑业务风险控制。关于风险控制系统整体的技术方案可以参考支付系统风控系统建设思考。此方案尽管能够满足业务需求,但对于海量交易数据分析、风险事件的实时处理、大量的风险规则处理上,在实时性、性能、架构的可扩展性上都不是很理想,有必要重新从架构上考虑一下实现方案转载 2016-04-20 20:05:32 · 3982 阅读 · 0 评论 -
CEP的一个简单理解
原则二:将简单事件转化成有价值的事件复杂事件处理(CEP)是一个新兴的技术领域,用于处理大量的简单事件,并从其中整理出有价值的事件。举几个例子:教堂的钟声、穿礼服的男士,以及抛洒在空中的米粒,这些都是简单事件。而从这些简单事件中得出的推断或结论——一场正在举行的婚礼,即为复杂事件。CEP就是帮助人们通过分析诸如此类的简单事件,并通过推断得出复杂事件。CEP技术的先驱斯坦福大转载 2016-04-20 20:01:35 · 3517 阅读 · 0 评论 -
Palantir如何通过技术协助客户作业的,也是我看到过的讲大数据故事最精彩的一篇。
这一篇文章比较生动地介绍了Palantir如何通过技术协助客户作业的,也是我看到过的讲大数据故事最精彩的一篇。像CIA(美国中情局)或FBI(美国联邦调查局)这样的组织拥有成千上万的不同的数据库、财政记录、DNA样本、声音样本、视频剪辑、地图、平面图、来自世界各地的人的情报报告。即使他们都是同一个系统的,也很难处理这些不同类型的数据——比方说,电子表格上的销售记录,还有视频监控图像。Palan转载 2016-05-13 13:57:32 · 1621 阅读 · 0 评论 -
大数据(Big Data)扫盲
大数据(Big Data)大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化转载 2016-05-07 15:10:51 · 5103 阅读 · 0 评论 -
机器学习各类工具weka、scikit-learn等各项指标的对比
以下表格摘自:http://www.shogun-toolbox.org/另推荐机器学习软件汇总网站 http://mloss.org/software/featureshogunwekakernlabdlibniemeorangejava-mlpyMLmlpypybraintorch3scikit-learn转载 2016-05-19 09:42:58 · 1176 阅读 · 0 评论 -
2015年中国大数据公司年度排行榜
您现在的位置: 天极网 > IT新闻 > 业内快讯;2015年中国大数据公司年度排行榜Yesky天极新闻2015-11-10 10:04分享到:我要吐槽 【天极网IT新闻频道】中国CDO精英俱乐部在2015年11月汇集上百余大数据专家针对中国近大数据全产业链近400家公司联合推出 《2015年中国大数据公司年度排行榜》 ,这是中国大数据行业首次转载 2016-05-09 11:07:27 · 2491 阅读 · 0 评论 -
big data Index
全景图http://mattturck.com/wp-content/uploads/2017/04/Big-Data-Landscape-2017-Matt-Turck-FirstMark.pngInfrastructure原创 2017-08-04 10:57:35 · 1823 阅读 · 0 评论 -
37 sensor kit. Arduino
https://www.youtube.com/watch?v=sBIXxS4xTao&list=PLwnMi_b_qu7vx6f608858Q0LxaSahfXau原创 2016-01-27 18:19:33 · 1058 阅读 · 0 评论 -
IoT.js VS Node.js
IoT.js 旨在为物联网提供一个基于 Web 技术的可相互操作的服务平台。IoT.js 的目标是要在资源受限的设备上良好运行,例如只有几 KB 的 RAM。所以它支持广泛的物联。IoT.js 只是迈出了一小步,今后它会和对物联网感兴趣的开发者共同实现目标。转载 2016-05-20 14:31:21 · 1176 阅读 · 0 评论 -
用实例讲解Spark Sreaming
用实例讲解Spark Sreaming数控小V2016-05-30 12:02:08Spark评论(0)作者: 侠天本篇文章用Spark Streaming +Hbase为列,Spark Streaming专为流式数据处理,对Spark核心API进行了相应的扩展。什么是Spark Streaming?首先,什么是流式处理呢?数据流是一个数据持续不断到达的无边界序列集。流转载 2016-05-31 09:12:03 · 1067 阅读 · 0 评论 -
去哪儿网大数据流处理系统:如何使用Alluxio(前 Tachyon)实现10倍性能提升
互联网公司同质应用服务竞争日益激烈,业务部门亟需利用线上实时反馈数据辅助决策支持以提高服务水平。Alluxio(前Tachyon)作为一个以内存为中心的虚拟分布式存储系统,在大数据系统性能提升以及生态系统多组件整合的进程中扮演着重要角色。本文将介绍去哪儿网(Qunar)的一个基于Alluxio的实时日志流的处理系统,Alluxio在此系统中重点解决了异地数据存储和访问慢的问题,从而将生产环境中整个转载 2016-05-31 09:16:43 · 2272 阅读 · 0 评论 -
Cloudera
大数据巨头Cloudera入驻中国领跑标准化0条评论2014-12-15 13:06 it168网站原创 作者: 厂商投稿 编辑: 陶然 【IT168 评论】近年来,随着云计算、移动互联网、物联网等技术的快速发展,数据正呈爆炸式增长,大数据时代已经来临。面对中国市场对大数据解决方案的强劲需求,国际领先的大数据巨头Cloudera公司于12月10日正式宣布在中国设立转载 2016-05-09 15:51:39 · 502 阅读 · 0 评论 -
big data landscape
http://www.raincent.com/uploadfile/2016/0217/20160217043600571.png 2016大数据版图深度解读(Part1)本文为数盟原创文章,转载时请注明出处为“数盟社区”。http://dataunion.org/wp-content/uploads/2016/02/2016BigDa转载 2016-05-09 15:08:38 · 2489 阅读 · 0 评论 -
数据库理论基础
数据库理论基础理论基础 – 服务器系统架构●SMP(Symmetric Multi-Processor)SMP是对称多处理器结构的简称,指代多个CPU对称工作,无主次或从属关系。各个CPU共享相同的物理内存,每个CPU访问内存中的任何地址的路径是相同的(访问的时间是相同的),因此SMP也被称为一致存储器访问结构(UMA: Uniform Memory Access)。●NUMA(N转载 2016-05-09 14:05:02 · 740 阅读 · 0 评论 -
数据库中Schema和Database有什么区别
首先我来做一个比喻,什么是Database,什么是Schema,什么是Table,什么是列,什么是行,什么是User?我们可以可以把Database看作是一个大仓库,仓库分了很多很多的房间,Schema就是其中的房间,一个Schema代表一个房间,Table可以看作是每个Schema中的床,Table(床)就被放入每个房间中,不能放置在房间之外,那岂不是晚上睡觉无家可归了J。,然后床上可以放置很多原创 2016-04-29 17:19:33 · 1707 阅读 · 0 评论 -
Open source (kernel, big data, etc) + ACM (对应起来,才能相互促进)
1. 设计模式,与Open source2. ACM算法,与open source3. 努力成为open source contributor, or maintainer.4. 建立自己的长期研究方向,结合企业的实际需求; 要吻合。单独去练习ACM, poj等,有点枯燥。原创 2016-04-29 16:27:12 · 424 阅读 · 0 评论 -
基于Spark的异构分布式深度学习平台
文/张伟德,曲宁,刘少山导读:本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题,在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力,使用YARN对异构资源做分配,支持Multi-Tenancy,让资源的使用更有效。深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别应用上有质转载 2016-03-05 09:17:21 · 896 阅读 · 0 评论 -
读懂这100篇论文,你也能成为大数据专家
读懂这100篇论文,你也能成为大数据专家快课网 2015-08-14 492 阅读flume 大数据 hadoop kafka storm 机器学习 spark今天在网上闲逛,无意间发现了这一篇好文,原文作者是PayPal高级工程总监Anil Madan,文章对当前大数据领域用到的一些技术、框架等都做了一遍梳理。本文由 优快云翻译 。通过阅读本文,可以对当前大数据领域有一转载 2016-03-29 14:39:35 · 2450 阅读 · 0 评论 -
高德运维基于阿里云的最佳实践
高德运维基于阿里云的最佳实践 云计算阿里云 高德 运维 大数据转载 2016-01-28 10:36:32 · 488 阅读 · 0 评论 -
splunk functions
http://10data.com/splunk/functions/ Splunk 通过快速、灵活的IT搜索,实现企业IT管理、安全以及审计的根本性变革。Splunk将出色地为您挖掘IT数据中的所有潜在价值!索引全部IT数据索引范围涵盖应用、服务器、网络设备中的所有日志、配置、信息、trap、告警、度量以及其他系统性能数据。可灵活地从文转载 2016-01-27 14:23:10 · 581 阅读 · 0 评论 -
谁用splunk?
摘要:如果管理着几百台机器,一天老板问:今天哪台机器宕机了?影响了多少个用户订单请求?是谁的代码?可能你需要使用splunk了。1 SPLUNK简介1.1 什么是splunkSplunk is software that indexes IT data from any application, server or network device that make转载 2016-01-27 13:48:48 · 611 阅读 · 0 评论 -
Kafka+Storm+ElasticSearch
Infrastructure at Scale: Apache Kafka, Twitter Storm & Elastic SearchPublished on Nov 29, 2013This is a technical architect's case study of how Loggly has employed the latest social-media-scale转载 2016-01-26 11:29:02 · 2012 阅读 · 0 评论 -
sensor --> Kafka --> Storm
P. Taylor Goetz - Beyond the Tweeting ToasterPublished on Sep 1, 2015In this session we will look at how streaming sensor data fits into a variety of (I)IoT analytics use cases, and how Apache S转载 2016-01-26 11:11:35 · 453 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
流式大数据处理的三种框架:Storm,Spark和Samza发表于2015-03-09 09:47| 50808次阅读| 来源javacodegeeks| 7 条评论| 作者Tony SicilianStormSamzaSpark流计算大数据摘要:许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框转载 2016-01-26 10:07:05 · 750 阅读 · 0 评论 -
Hadoop 结构图
www.jiuqi.com.cn/bdfa原创 2016-03-29 17:25:16 · 1477 阅读 · 0 评论 -
owl, ontology
owl, ontology原创 2016-03-18 15:11:34 · 533 阅读 · 0 评论 -
reasoner
reasoner原创 2016-03-18 15:12:14 · 579 阅读 · 0 评论 -
Layer 1: 深入分析Parquet列式存储格式
深入分析Parquet列式存储格式作者 梁堰波 发布于 2015年8月7日 | 讨论分享到:微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本转载 2016-04-16 11:26:13 · 915 阅读 · 0 评论 -
数据库理论之ACID和BASE的比较
数据库理论之ACID和BASE的比较2011年6月17日sigma发表评论阅读评论传统关系型数据库系统的事务都有ACID的属性,即原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation,又称独立性)、持久性(Durability)。英文为:Atomic: Everything in a transaction succeeds转载 2016-04-16 11:25:27 · 4049 阅读 · 0 评论 -
数据治理:让数据质量更好(data governance)
数据治理:让数据质量更好http://www.ceiea.com 2015年02月03日 11:10 中国教育装备网分享到:更多 核心提示:大数据时代数据产生的价值越来越大,基于数据的相关技术、应用形式也在快速发展,开发基于数据的新型应用已经成为高校信息转载 2016-04-16 09:34:57 · 14564 阅读 · 0 评论 -
reasoning
reasoning原创 2016-04-16 09:03:25 · 562 阅读 · 0 评论 -
knowledge base, knowledge graph
knowledge base, knowledge graph原创 2016-04-16 09:03:06 · 1110 阅读 · 0 评论 -
semantic web
semantic web原创 2016-04-16 09:02:39 · 372 阅读 · 0 评论 -
splunk (spelunking)
Splunk成立于2003年,联合创始人包括埃里克·斯万(Erik Swan)、罗布·达斯(Rob Das)和迈克尔·巴姆(Michael Baum)。Splunk源自词语“spelunking”(意思是洞穴探察),意指Splunk旗下Machine Data软件的搜索功能非常强大。Splunk专有的Machine Data引擎技术是平台服务的核心,可将Machine Data转变成包含消费者购买转载 2016-03-24 17:50:55 · 993 阅读 · 0 评论