
其他
文章平均质量分 64
其他暂时未分类的历史文章
数据文字工作者
ToB行业大数据老兵一枚,专注数据中台与行业数据应用建设,熟悉数据开发、数据治理、数据资产管理、数据仓库相关技术体系和方法论,对国内大数据市场划分、产品需求及项目售前与交付流程有一定认知,希望通过文字总结、记录下自己的所见、所想,为大数据行业优秀的理念、方法论与技术体系传播与分享贡献自己的力量
展开
-
大数据现阶段发展情况认知
产业链:2017年产业链发展:1. 数据服务平台提供商:直接面对行业客户,向他们提供其所拥有的外部数据(往往本身就拥有海量的2C数据入口,可以源源不断地生产2C数据)的粗加工产品(如用户的标签数据等);2. 数据解决方案提供商:基本使用用户自身的数据,通过数据处理服务,为行业客户提供某个方向的解决方案;以上两个角色之间基本没有合作、没有交集,很少在市场上直接竞争,原因:1. 市场成熟度:目前行业应...原创 2018-03-19 13:54:24 · 1273 阅读 · 0 评论 -
大数据架构师必读:常见的七种Hadoop和Spark项目案例
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它转载 2015-09-10 10:22:56 · 3171 阅读 · 1 评论 -
如何学习大数据技术?
前段时间做了一个小小的调查,想知道热爱大数据的人们都想了解哪些有关的知识,其中一位热爱者回复说:“他想了解大数据实际的案例应用,和如何正确学习大数据。”今天小编就简单的说一下如何学习大数据技术。 我们都知道想要学习做好一件事情,首先你得了解它,学习大数据也不例外,想要学习大数据技术,首先要明确大数据的概念。对于大数据概念小编认为有如下几点: 1、数据的来转载 2015-08-11 09:41:17 · 950 阅读 · 0 评论 -
大数据的痛点
大数据分析仍处于初级阶段,我们还没有深入应用数据驱动决策。在这里,我们讲讨论当前的痛点以及如何用更好的方式应用大数据。大数据为企业提供了一个更好的提高生产力和收入的机会。然而,企业在大数据收集上就遇到了麻烦。2012年,通过对300位高管和经理们的调查,清楚的展示了企业在管理大数据过程中的挑战和困难。下面是调查的要点:66%的受访者希望企业里可以有更多的人使用分析工转载 2015-08-10 21:16:18 · 2824 阅读 · 0 评论 -
中国大数据综合服务提供商Top100排行榜
随着移动互联网的飞速发展,信息的传输日益方便快捷,端到端的需求也日益突出,纵观整个移动互联网领域,数据已被认为是继云计算、物联网之后的又一大颠覆性的技术性革命,毋庸置疑,大数据市场是待挖掘的金矿,其价值不言而喻。可以说谁能掌握和合理运用用户大数据的核心资源,谁就能在接下来的技术变革中进一步发展壮大。大数据,可以说是史上第一次将各行各业的用户、方案提供商、服务商、运营商以及整个生转载 2015-04-09 17:14:02 · 3999 阅读 · 0 评论 -
“医学数据银行”——临床大数据科研协作平台
自上世纪九十年代以来,我国医疗信息化开始萌芽并迅速发展,目前医院的自身业务管理层面的信息化已经基本趋于成熟。然而由于医院侧重经营和管理层面、科室和医生之间竞争侧重经济收入,以及临床科研投入产出相对滞后等原因,临床科研层面的信息化建设相对滞后,甚至很多单位基本上处于空白状态。这不利于我国医学的临床、科研和教学工作的健康发展,不利于医疗健康产业的整体性的持续性的均衡发展。上海纳呈网络科技有转载 2015-04-01 15:57:50 · 3012 阅读 · 0 评论 -
大数据的特点及作用
什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。 大数据的特点具体来说,大数据具有4个基本特征:一是数据体量转载 2015-03-31 10:41:55 · 6134 阅读 · 0 评论 -
浅谈医学大数据(中)
本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授(交流微信号:2823095726)。数据分析框架(传统数据分析框架,大数据分析框架)医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时,大数据随之带来的各种特性使得传统的数据处理转载 2015-03-24 09:05:14 · 1435 阅读 · 0 评论 -
浅谈医学大数据(上)
本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授(交流微信号:2823095726)。现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90% 以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲转载 2015-03-24 09:04:25 · 1614 阅读 · 0 评论 -
漫画:应对海量数据 实现灵活拓展云存储
随着互联网应用日益深入,我们正在产生无穷无尽的数据,这些数据类型不一致,而且规模庞大,往往给传统的存储架构带来极大的困扰。 我们知道传统的存储系统往往采用了嵌入式系统架构,实际上都基于纵向扩展(Scale-up)的设计模式,也就是说,我们都是在一个既定的存储架构下去扩展与升级。当纵向扩展到一定程度时,系统就不可避免的遭遇性能瓶颈。这时候,我们就需要采购更多的存储系统或者更大的转载 2015-03-20 18:06:22 · 617 阅读 · 0 评论 -
使用Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【公安大数据】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20705公安行业存在数以万计的前后端设备,前端设备包括相机、检测器及感应器,后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统,数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析转载 2017-01-11 12:43:09 · 11193 阅读 · 3 评论 -
日志数据从kafka到hive是如何实现的
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20701背景公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一转载 2017-01-11 12:28:39 · 9019 阅读 · 0 评论 -
大数据架构师必读:医药企业大数据应用案例
问题导读:1、IT系统信息化平台涉及内容有什么?2、数据集成架构模型包括哪些部分?3、业务系统部署实现功能有什么?4、数据仓库建设应考虑的内容有哪些?5、未来大数据应用如何扩展?随着技术的发展,IT逐渐面临越来越多的挑战,尤其是数据治理方面。而九州通医药集团在IT建设方面不畏艰险,自主研发ERP系统、物流系统,在解决企业自身问题的同时还创新投入商业化,为同行业提转载 2017-01-11 11:11:47 · 5301 阅读 · 1 评论 -
大数据从雏形到发展,详述传统数据仓库到大数据平台的转化及大数据的可视化应用
问题导读:1. 为什么要建设大数据平台?2. 大数据平台的业务架构有哪几块?3. 数据可视化的原因是什么?4. 数据可视化的意义在于什么?本文是58同城信息系统部高级经理余中洋对大数据在互联网行业应用的总结。以实际经验讲解了大数据从雏形到发展,以及发展过程中传统数据仓库到大数据平台的转化和大数据的可视化应用。大数据显雏形——发展所有公司在转载 2016-12-26 11:26:18 · 1402 阅读 · 0 评论 -
智慧医疗与大数据2015年度报告(PPT全文)
参考:http://www.cbdio.com/BigData/2016-02/16/content_4616406.htm2016年1月23日,中国信息化百人会2016年会在北京召开。年会上,中国信息化百人会发布了《智慧医疗与大数据2015年度报告》。该报告为中国信息化百人会年度课题研究报告, 课题组长、中国信息化百人会成员、浙江省经信委副主任吴君青在当日会上发布报告。 该报告转载 2016-06-02 14:14:56 · 7094 阅读 · 0 评论 -
7种最常见的Hadoop和Spark项目
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验原创 2016-02-15 08:51:32 · 577 阅读 · 0 评论 -
亚信数据:运营商数据挖掘-从架构到应用
转载 2015-08-07 09:57:57 · 1831 阅读 · 0 评论 -
新浪是如何分析处理32亿条实时日志的?
随着实时分析技术的发展及成本的降低,用户已经不仅仅满足于离线分析。目前我们服务的用户包括微博、微盘、云存储、弹性计算平台等十多个部门的多个产品的日志搜索分析业务,每天处理约32亿条(2TB)日志。技术架构简单介绍一下服务的技术架构:这是一个再常见不过的架构了:(1)Kafka:接收用户日志的消息队列。(2)Logstash:做日志解析,统一成JS转载 2015-07-18 16:34:36 · 867 阅读 · 0 评论 -
基于Apache Mahout和Elasticsearch推荐系统介绍
推荐引擎根据用户的特定需求帮助用户缩小选择范围。在这篇文章中,我们一起来探秘推荐引擎各部分是如何协同工作的。我们将根据电影评分数据,用协同过滤的方法来推荐电影。其关键部分是基于Apache Mahout的协同过滤算法来建立和训练机器学习模型,以及基于Elasticsearch的搜索技术来简化推荐系统的开发。什么是推荐?推荐(Recommendation)是机器学习的一个分支,通过分转载 2015-05-17 20:06:53 · 1951 阅读 · 1 评论 -
每一天都有更多的数据、用户和应用在加入Apache Hadoop这个日益壮大的集群中来。虽然对于整个数据驱动的组织来说这是一个好消息,但对于安全管理员和监察人员来说,如何让终端用户在现存的Hadoop
1. 大数据的安全体系要说清楚这个问题,还得从大数据平台安全体系的四个层次说起:外围安全、数据安全、访问安全以及访问行为监控;如下图所示;外围安全技术多指传统意义上提到的网络安全技术,如防火墙,登陆认证等;数据安全从狭义上说包括对用户数据的加解密,又可细分为存储加密和传输加密;还包括用户数据的脱敏,脱敏可以看做“轻量级”的数据加密。如某人的生日为“20转载 2015-05-17 19:53:37 · 830 阅读 · 0 评论 -
Cloudera Hadoop开源组件Sentry:为金融、政府、医疗保健使用hadoop打下基础
每一天都有更多的数据、用户和应用在加入Apache Hadoop这个日益壮大的集群中来。虽然对于整个数据驱动的组织来说这是一个好消息,但对于安全管理员和监察人员来说,如何让终端用户在现存的Hadoop架构下,不在安全方面进行妥协始终是个挥之不去的问题。尽管Hadoop在文件系统层有很强的安全性,但对于保证用户数据访问和BI应用程序的充分安全,它缺乏颗粒级的支持。因此,许多对安全系数要求转载 2015-05-17 19:46:54 · 1076 阅读 · 0 评论 -
微博广告推荐中有关Hadoop的那些事
一、背景微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,我们引入了hadoop 分布式计算平台,对用户数据和内容数据进行分析和挖掘,作为广告推荐的基础。二、问题及解决方案在hadoop平台上进行开发时,主要遇到了转载 2015-05-05 09:32:50 · 709 阅读 · 0 评论 -
浅谈开源大数据平台的演变
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。Hadoop能够满足大部分转载 2015-04-24 09:50:37 · 477 阅读 · 0 评论 -
后Hadoop时代的大数据架构
后Hadoop时代的大数据架构2015-04-23 优快云大数据提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL(Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的转载 2015-04-23 17:21:48 · 732 阅读 · 0 评论 -
55种开源数据可视化工具简介
http://cwiki.apache.org/confluence/display/AMBARI/Installation+Guide+for+Ambari+2.0.0转载 2015-04-22 09:45:25 · 762 阅读 · 0 评论 -
Hadoop、Spark、HBase与Redis的适用性讨论
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景(首先声明一点,本文中所指的Hadoop,是很“狭义”的Hadoop,即在转载 2015-03-14 19:34:56 · 605 阅读 · 0 评论 -
大数据分析:机器学习算法实现的演化
我将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的,也有来自开源社区里的。首先,这里列出了目前可用的三代机器学习工具。传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。转载 2015-02-27 17:27:22 · 1546 阅读 · 0 评论 -
大数据技术
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。主要可分为:数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现等8种技术。大数据技术主要形成了批处理、流处理和交互分析三种计算模式:离线批处理(Batch Processing)技术以MapReduce和Hadoop系统为代表,实时流处理(Stream原创 2015-02-27 17:15:53 · 966 阅读 · 0 评论 -
大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面问题来阅读本文章: 1.hadoop都包含什么技术 2.Cloudera公司与hadoop的关系是什么,都有什转载 2015-01-07 12:23:08 · 616 阅读 · 0 评论 -
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
做软件开发的都知道模块化思想,这样设计的原因有两方面:一方面是可以模块化,功能划分更加清晰,从“数据采集--数据接入--流失计算--数据输出/存储” 1).数据采集负责从各节点上实时采集数据,选用cloudera的flume来实现2).数据接入由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲,选用apache的kafka转载 2014-12-30 14:49:50 · 714 阅读 · 0 评论 -
开源数据源
世界卫生组织开源数据:http://www.who.int/research/en/原创 2015-02-27 17:29:47 · 544 阅读 · 0 评论