
大数据和数据挖掘
lionzl
轻财足以聚人,律己足以服人,量宽足以得人,身先足以率人
展开
-
百度吴恩达:深度学习的前沿正转向高性能计算
百度吴恩达:深度学习的前沿正转向高性能计算作者 张天雷 发布于 2015年5月14日 |分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享稍后阅读我的阅读清单近日,百度首席科学家吴恩达(Andrew Ng)博士和百度硅谷人工智能实验室主任亚当.科茨(Adam Coates)博士,在知名美国社交新闻站点Reddit热门转载 2016-01-15 11:06:17 · 751 阅读 · 0 评论 -
ELK架构浅析
ELK架构浅析转自:http://blog.youkuaiyun.com/lively1982/article/details/50678657ELK是Elasticsearch、Logstash、Kibana的简称,这三者是核心套件,但并非全部。后文的四种基本架构中将逐一介绍应用到的其它套件。Elasticsearch是实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能;是转载 2016-07-27 14:06:59 · 553 阅读 · 0 评论 -
大数据核心技术与应用论坛:业务应用及技术生态圈探索
大数据核心技术与应用论坛:业务应用及技术生态圈探索发表于2015-06-09 17:24| 2318次阅读| 来源优快云| 4 条评论| 作者仲浩大数据开源CCCC2015云计算云计算大会HadoopSpark摘要:百度高亮、微软刘震、中国电信王兴刚、搜狐李滔、AdMaster卢亿雷等专家从业务应用、技术实践、生态圈集合等方面诠释了大数据所带来的核心竞争力。转载 2016-07-27 14:10:25 · 1697 阅读 · 0 评论 -
ODPS技术架构及应用实践
ODPS技术架构及应用实践发表于2014-10-20 16:13| 10635次阅读| 来源《程序员》| 2 条评论| 作者张云远,李妹芳《程序员》杂志2014年10月刊《凌云》云计算大数据阿里云ODPShadoop摘要:ODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、转载 2016-07-27 16:30:13 · 881 阅读 · 0 评论 -
大数据安全分析漫谈
大数据安全分析漫谈本文就以企业入侵检测日志分析为场景来谈谈大数据安全。编辑:shimenghui |2015-06-02 14:41:22大数据安全,顾名思义,用大数据技术解决安全问题。核心——解决安全问题,手段——大数据技术。我们从核心出发,安全问题抽象来说就是攻击与防御,接下来明确防御对象是什么?攻击目的是什么?攻击手段是怎样的?攻击者的特征?一句话——搞清转载 2016-07-27 18:27:52 · 560 阅读 · 0 评论 -
基于Flume的美团日志收集系统(一)架构和设计
1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据转载 2016-08-30 10:15:12 · 661 阅读 · 0 评论 -
究竟哪些应用适合改造成SaaS服务?
究竟哪些应用适合改造成SaaS服务?2016-07-10 19:55 阅读数:1613“什么是SAAS“软件即服务英文是Software-as-a-service的意译。国外称为SaaS,国内通常叫做软件运营服务模式,简称为软营模式。“SAAS的起源软营模式(Saas)是随着互联网技术的发展和应用软件的成熟,而在21世纪开始兴起的一种完全创新转载 2016-08-09 17:54:24 · 1833 阅读 · 0 评论 -
浅谈SaaS应用开发的难度
最近做SaaS应用的很多,这种模式是未来的一种趋势,这种模式的最大好处就是云计算的好处--节约资源。网上有很多人觉得SaaS很简单,就是一个多用户租赁模式。这种认识也不能说不对,因为SaaS确实一般都采用多用户租赁模式。但这种说法非常的不全面,是一种盲人摸象。而且很多人认为SaaS模式的架构非常简单,那就只能说他没有真正做过SaaS模式或者他们做的SaaS应用是一种非常低级的模式,根本谈不上是云计转载 2016-08-09 18:26:09 · 453 阅读 · 0 评论 -
BAT的互联网大数据应用有何不同?
BAT的互联网大数据应用有何不同?2014-10-21 10:43 傅志华1条评论【编者按】本文转载于公众号“傅志华”,作者曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。在腾讯前,曾就职于艾瑞市场咨询、易观国际、中国互联网协会,并任DCCI互联网数据中心副总裁。互联网行业在大数据的积累和应用以百度、腾讯和阿里巴巴最为值得关注。百度、腾讯转载 2016-09-04 09:26:15 · 802 阅读 · 0 评论 -
用机器学习识别随机生成的C&C域名
用机器学习识别随机生成的C&C域名本文用识别由域名生成算法Domain Generation Algorithm: DGA生成的C&C域名作为例子,目的是给白帽安全专家们介绍一下机器学习在安全领域的应用,演示一下机器学习模型的一般流程。机器的力量可以用来辅助白帽专家们更有效率的工作。本文用到的演示数据集和python演示代码请参见 https://github.com/ph转载 2016-05-11 07:54:28 · 1177 阅读 · 0 评论 -
安全智能:信息安全领域中的大数据分析
安全智能:信息安全领域中的大数据分析作者:botman 2014年5月7日 来源:infoq 收藏文章(32) CSA大数据安全分析报告“安全智能中的大数据分析”,重点探讨了大数据在安全领域中的作用。在这份报告中,详细阐述了利用大量结构化和非结构化数据的新工具的介入及广泛使用如何改变了安全分析领域。企业定期收集几TB与安全相关的数据转载 2016-04-06 19:53:43 · 1439 阅读 · 0 评论 -
ADIOS
Overview:The ADIOS project addresses the problem, fundamental to linguistics, bioinformatics and certain other disciplines, of using corpora of raw symbolic sequential data to infer underlying rules转载 2016-04-06 16:57:14 · 730 阅读 · 0 评论 -
回顾2015展望2016,机器学习领域都有哪些进展
回顾2015展望2016,机器学习领域都有哪些进展一只黑熊 / 2015-12-30 / 今日焦点 / 焦点中国网 155编者注:作者Motti Nisani是一名机器学习专家,同时也是基于云的幻灯片演示软件创企Emaze的首席执行官。文章由猎云网精选编译。几十年前,人工智能在工程师和开发者之间算是一个比较新潮的话题。但最近这些年,机器学习则以大转载 2016-01-15 11:28:26 · 719 阅读 · 0 评论 -
数据挖掘技术(五)——离群点检测
数据挖掘技术(五)——离群点检测 (2012-05-05 17:54:01)转载▼标签: 算法 杂谈分类: 算法5 异常检测方法异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。常见的异常成因:数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然转载 2016-01-15 15:07:12 · 1154 阅读 · 0 评论 -
金融大数据分析平台Palantir Metropolis介绍
金融大数据分析平台Palantir Metropolis介绍 Optimus Prime 2014-12-16 11:33:02 大数据产品 评论(0)译者:36大数据编辑 原上草 (36大数据专稿,拒绝转载)Palantir,提起这家公司就会让人觉得如雷贯耳。之前36大数据之前应该花了非常多的时间去收集和整理了关于这家公司背后的故事,参考揭秘:曾用大数据帮助CIA干掉转载 2016-04-04 12:08:17 · 3095 阅读 · 0 评论 -
构造大数据时代国家安全战略
构造大数据时代国家安全战略字号评论 邮件 纠错2015-07-08 03:23:00 来源:上海证券报 文眼 随着新一代信息技术的迅速推广,以及大数据在多个领域的广泛运用,大数据已成为一种国家战略资源。中国作为经济大国,亟须提高自己的数据掌控能力,从国家层面,构建自己的大数据战略体系,维护国家安全。 ——亚夫转载 2016-04-04 16:33:15 · 3467 阅读 · 0 评论 -
DARPA称:“大数据”需要一个“大机理
DARPA称:“大数据”需要一个“大机理2014-08-20 [据美国《国防系统》网站2014年8月6日报道]一个国防部研究计划旨在通过开发自动搜索技术来 进行先进大数据分析。该自动搜索技术可以帮助解释“大数据”中的原因和效果的关系。 本年度初,美国国防高级研究计划局启动其“大机理”项目。目的是发展可以发现隐藏在大数据中因果模型。典型“大机理”例子就是,转载 2016-04-04 16:36:34 · 880 阅读 · 0 评论 -
你的大数据项目使用的工具正确吗?
你的大数据项目使用的工具正确吗?作者 侠天 发布于 2016年4月1日 | 2 讨论分享到:微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单工具/产品/解决方案是数据科学家洞察数据的利器。KDNuggets网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据。通过主转载 2016-04-05 19:40:57 · 677 阅读 · 0 评论 -
Caffe——清晰高效的深度学习(Deep Learning)框架
Caffe——清晰高效的深度学习(Deep Learning)框架时间 2014-09-30 11:14:01 程引的专栏原文 http://blog.youkuaiyun.com/ycheng_sjtu/article/details/39693655主题 深度学习Caffe( http://caffe.berkeleyvision.org/ )是一个清晰而高效的深度转载 2016-04-05 19:49:57 · 575 阅读 · 0 评论 -
weka
weka 编辑Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。转载 2016-04-05 20:09:39 · 801 阅读 · 0 评论 -
从Theano到Lasagne:基于Python的深度学习的框架和库
从Theano到Lasagne:基于Python的深度学习的框架和库发表于2015-08-03 09:35| 13573次阅读| 来源http://creative-punch.net/| 4 条评论| 作者Creative Punch机器学习Python深度学习神经网络人工智能Theano摘要:最近,深度神经网络以“Deep Dreams”形式在网站中如雨后春转载 2016-04-06 11:07:35 · 698 阅读 · 0 评论 -
百度腾讯阿里,看看他们的大数据优劣势与策略分析
百度腾讯阿里,看看他们的大数据优劣势与策略分析2016-10-31 19:57数据观 推荐468次阿里,百度腾讯阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式转载 2016-11-02 11:36:59 · 4914 阅读 · 0 评论 -
三种最典型的大数据存储技术路线
三种最典型的大数据存储技术路线近期由中关村大数据产业联盟举办的“大数据100分”线上研讨会中,南大通用的CTO、资深业界专家武新博士同众多网友分享了底层数据处理技术的发展趋势和正在经历的巨大变革。以下为分享实录:大数据这个领域过去5年发展很快、热度很高,但是总的来说目前还在起步阶段。本次研讨会我会先谈谈数据,以及大数据对数据处理技术的压力,然后为大家分享一下为什么这几年数据处理技术转载 2016-11-02 12:02:03 · 1944 阅读 · 0 评论 -
实时流Streaming大数据:Storm,Spark和Samza
http://www.jdon.com/bigdata/streaming-big-data-storm-spark.html实时流Streaming大数据:Storm,Spark和Samza 当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。Apache Storm 在Storm中,你设转载 2017-03-21 20:11:17 · 674 阅读 · 0 评论 -
JStorm介绍
一、简介Storm是开源的分布式容错实时计算系统,目前被托管在GitHub上,遵循 Eclipse Public License 1.0。最初由BackType开发,现在已被Twitter收入麾下。Storm最新版本是Storm 0.9,核心采用Clojure实现。Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息;Storm也可被用于“连续计算”(转载 2017-03-12 17:23:08 · 617 阅读 · 0 评论 -
mesos和yarn区别
视频地址:Apache Mesos vs. Hadoop YARN #WhiteboardWalkthrough总结:1、最大的不同点在于他们所采用的scheduler:mesos让framework决定mesos提供的这个资源是否适合该job,从而接受或者拒绝这个资源。而对于yarn来说,决定权在于yarn,是yarn本身(自行替应用程序作主)决定这个资源是否适合该job,对转载 2017-03-12 17:24:01 · 567 阅读 · 0 评论 -
Storm上的Nimbus、Supervisor以及Worker之间的关系
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]Storm中各节点介绍1 主控节点和工作节点2 Nimbus3 Supervisor4 Worker5 任务Task6 参考资料Storm的容错机制1 Worker进程死亡2 Nimbus或者Supervisor进程死亡3 ZooKeeper停止1.S转载 2017-03-12 17:38:29 · 567 阅读 · 0 评论 -
Storm与Spark Streaming比较
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Str转载 2017-03-12 17:50:10 · 622 阅读 · 0 评论 -
Storm vs. Spark Streaming: 横向对比
Storm 和 Spark Streaming是构建与Hadoop之上的两款优秀的实时流式计算框架,他们各自的特点如何,究竟那款框架适用于你的业务需求?也许本文可以给你一个参考:原文连接:http://xinhstechblog.blogspot.com/2014/06/storm-vs-spark-streaming-side-by-side.htmlStorm转载 2017-03-23 22:50:48 · 448 阅读 · 0 评论 -
浅谈Borg/YARN/Mesos/Torca/Corona一类系统
Borg(来自Google),YARN(来自Apache,属于Hadoop下面的一个分支,开源),Mesos(来自Twitter,开源),Torca(来自腾讯搜搜),Corona(来自Facebook,开源)一类系统被称为资源统一管理系统或者资源统一调度系统,它们是大数据时代的必然产物。概括起来,这类系统设计动机是解决以下两类问题:(1) 提高集群资源利用率在大数据时代,为了存转载 2017-03-23 22:54:05 · 835 阅读 · 0 评论 -
thrift开发问题总结
作为目前最流行的RPC框架,thrift不仅提供了通信协议,同时提供了网络框架,解脱了程序员的生产力。thrift也是阿帕奇Hadoop系列的RPC实现工具。本文主要聚焦在实现的thrift系统中,遇到的各种问题。但是thrift在隐藏一些底层细节的同时,也给应用层带来了一些不确定性,这些不确定和误解,导致一些异常事件的发生。总结如下:1、thrift compile在转载 2017-04-06 13:30:09 · 2179 阅读 · 1 评论 -
Impala架构分析
Impala架构分析Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据转载 2017-03-20 18:10:26 · 454 阅读 · 0 评论 -
解析Impala架构
1. Impala综述Impala是架构于Hadoop之上的开源、高并发的MPP查询引擎,被广泛应用于各种行业。Impala是完全集成的,用以平衡Hadoop的灵活性和可扩展性,为BI/数据分析师提供低延迟、高并发的以读为主的查询。它将传统分析数据库的SQL支持和多用户性能与Hadoop的灵活性和可扩展性结合起来,它通过利用HDFS、HBase、Metastore、YARN、Sen转载 2017-03-20 18:09:16 · 767 阅读 · 0 评论 -
Apache Sqoop: Sqoop 2功能亮点一瞥
Apache Sqoop (incubating) was created to efficiently transfer bulk data between Hadoop and external structured datastores, such as RDBMS and data warehouses, because databases are not easily acc转载 2017-02-16 22:26:50 · 589 阅读 · 0 评论 -
【笔记】阿里云RAM
【笔记】阿里云RAM 2015-09-23 18:01:30分类: 云计算RAM (Resource Access Management) 是阿里云提供的资源访问控制服务。RAM用户是代表任意的通过控制台或OpenAPI操作阿里云资源的人、系统或应用程序。RAM允许您在云账号下创建并管理多个用户,每个用户都有唯一的用户名、登录密码或访问密钥。云账户与RA转载 2016-11-02 12:11:02 · 2098 阅读 · 0 评论 -
elasticsearch的实现全文检索
elasticsearch的实现全文检索大岩不灿 发表于 2014年8月9日 浏览 21,679 次elasticsearch一个准实时的搜索引擎,基于lucene构建,它的主要强项还是在全文检索方面。工作中还是使用到了这部分功能,这里做一个简单的总结,可以使初次使用的人很快的配置和使用。一、全文检索的概念首先介绍全文检索的概念,就是对一篇文章进行索引,可以根据关键转载 2016-11-02 14:51:31 · 858 阅读 · 0 评论 -
Storm与Spark Streaming比较
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Streami转载 2016-12-26 17:20:10 · 277 阅读 · 0 评论 -
盘点Hadoop生态圈:13个让大象飞起来的开源工具
借助Google的三大论文,Hadoop打开了低成本海量数据处理之门;同时,借助了开源运动,Hadoop生态圈得以迅速成熟,也催生了处理各种业务及数据的工具,这里带大家回顾2013年让大象飞起来的13种工具。Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在转载 2016-12-26 17:36:11 · 583 阅读 · 0 评论 -
elasticsearch的实现全文检索
elasticsearch的实现全文检索大岩不灿 发表于 2014年8月9日 浏览 24,285 次elasticsearch一个准实时的搜索引擎,基于lucene构建,它的主要强项还是在全文检索方面。工作中还是使用到了这部分功能,这里做一个简单的总结,可以使初次使用的人很快的配置和使用。一、全文检索的概念首先介绍全文检索的概念,就是对一篇文章进行索引,可以根据关键转载 2016-12-26 17:49:39 · 832 阅读 · 0 评论 -
对于大数据的理解
对于大数据的理解一、 大数据基本概念大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。大数据的预处理主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们转载 2016-12-26 18:32:49 · 7522 阅读 · 0 评论