- 博客(25)
- 资源 (6)
- 收藏
- 关注
原创 数据产品服务稳定性提升之道
摘要:移动云位置洞察类产品,基于运营商位置信令,以API接口、SaaS应用、分析报告的形式,面向政府和企业提供包括政务洞察、商业洞察、逍遥旅游等场景化应用。为保障业务稳定性和数据可用性,指定SLO服务等级指标并常态化检测,数字化精确化评估产品质量,使得业务稳定性状态直观和可控,进一步提升客户满意度。.........
2022-07-07 19:17:07
1669
原创 Hive中matchpath函数使用
函数功能return rows that meet a specified pattern. Use symbols to specify a list of expressions to match. Pattern is used to specify a Path. The results list can contain expressions based on the input columns and also the matched Path.pattern:pattern for t
2021-11-15 17:29:29
1642
原创 Apache hive cookbook 学习笔记
对hive的基本操作有一段时间应用后,再来学习cookbook,对细节进行补充记录chap3:了解hive——数据类型、运算符、分区、桶1、数据类型Date/Time 时间数据类型timestamp数据类型支持不同的转换;可以是整数,距离unix 新纪元时间的秒数 timestamp;浮点数,同整数可解释为距离unix 新纪元时间,精确到纳秒(小数点后9位);字符串,java.sq...
2019-03-29 17:49:16
465
原创 机器学习集成学习算法——boosting系列
本篇基于机器学习(edt:周志华)的集成学习章节,衍生学习多种boosting集成学习算法。集成学习(ensemblelearning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-calssifiersystem)。目前的集成学习方法大致可以分为两大类:•个体学习器间存在强依赖关系、必须串行生成的序列化方法•个体学习器间不存在强依赖关系、可同时生成的并行化方法前者...
2018-06-24 21:58:20
4282
原创 Spark MLlib学习(二)——分类和回归
MLlib支持多种分类方法,如二分类、多分类和回归分析等。问题类型 支持的方法 二分类 线性SVM, 逻辑回归,决策树,随机森林,GBDT,朴素贝叶斯 多分类 决策树,随机森林,朴素贝叶斯 回归
2016-05-16 19:27:47
8777
原创 Spark MLlib学习(一)数据类型 Data Types
MLlib是spark的机器学习库,有常用学习算法和实用工具,包括分类、回归、聚类、协同过滤、降维等。分为两个部分: spark.mllib 基于RDDs的原有API spark.ml 提供了基于DataFrame的高水平API用于建立ML pipelines 推荐使用spark.ml(基于DataFrame的API更加多样化,更灵活),不过spark也持续支持spark
2016-05-11 18:41:53
2458
原创 Spark SQL和DataFrame的学习总结
1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequ
2016-05-10 19:28:03
5875
原创 Spark 集群与数据集RDD
Spark是一个分布式计算框架,对资源的调度,任务的提交跟踪、节点间的通信及数据并行处理的内在操作都进行了抽象。 四种运行模式: 本地单机模式:所有spark进程都运行在同一个JVM中 集群单机模式:使用spark内置的任务调度框架 基于Mesos:Mesos 是一个流行的开源集群计算框架 基于Yarn:hadoop2,一个与
2016-05-06 16:33:40
2565
原创 R中模型性能的提升
最近正在学习这一部分,备忘录。1、参数调整 对算法合适的选项进行调整的过程——参数调整 caret包中提供了多种工具进行自动参数调整,train()函数作为接口,可以选择评估方法和度量性指标,自动寻优过程。 主要考虑的问题: (1)训练哪种模型,(2)模型中哪些参数可调,可调节空间多大,(3)选择评价标准 以C5.0示例:library(caret)control <- trainCont
2016-04-29 18:00:34
3210
转载 结构体字节对齐
结构体字节对齐 在用sizeof运算符求算某结构体所占空间时,并不是简单地将结构体中所有元素各自占的空间相加,这里涉及到内存字节对齐的问题。从理论上讲,对于任何 变量的访问都可以从任何地址开始访问,但是事实上不是如此,实际上访问特定类型的变量只能在特定的地址访问,这就需要各个变量在空间上按一定的规则排列, 而不是简单地顺序排列,这就是内存对齐。 内存对齐的原因:
2014-07-02 22:26:37
557
转载 操作系统面试题
操作系统常见面试题总结 1、什么是进程(Process)和线程(Thread)?有何区别? 进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈)
2014-07-02 22:05:58
632
原创 Hadoop2.2.0单机伪分布式安装配置
1、jdk版本的安装2、ssh安装(参见转载的Hadoop伪分布式安装中介绍的http://blog.youkuaiyun.com/myy1012010626/article/details/20311985http://blog.youkuaiyun.com/myy1012010626/article/details/20919649)ssh localhostexit3、hadoop的安装配置
2014-03-10 22:10:19
1429
转载 Hadoop2.2.0伪分布式安装配置
hadoop2.2.0伪分布式安装安装前解决的问题:1、hadoop官网下载的hadoop二进制文件是在32位环境下编译的(地址:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.2.0/),如果在64位linux下安装需要自己下载源码进行编译(参考:http://blog.youkuaiyun.com/li385805776/ar
2014-03-10 14:45:17
1492
转载 Linux——eclipse下Hadoop2.2.0的安装配置
1.安装环境 系统:ubuntu 13.10 hadoop版本:2.2.0 eclipse版本:indigo2.到hadoop2.2插件下载 下载插件解压放到eclipse的plugin目录下,重启eclipse.3.配置hadoop installation directory。 如果安装插件成功,打开Window
2014-03-09 15:50:47
1162
转载 Ubuntu12.04搭建Hadoop环境
一. 安装Ubuntu 12.04;二. 在Ubuntu下创建hadoop用户组和用户;1. 创建hadoop用户组:sudo addgroup hadoop 如图:12.04搭建hadoop2.0.4单机版伪分布式模式环境" style="border:0px; margin:0px; padding:0px; list-style:none">2.
2014-03-02 22:02:43
1588
转载 MapReduce工作原理详解
部分转载自:http://weixiaolu.iteye.com/blog/14741721.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到H
2014-02-24 22:00:42
868
转载 大数据时代给视频监控带来的革新
视频监控业务正是一个典型的数据依赖型业务,依靠数据说话。可以说,大数据与视频监控业务有着天然的结合。综合来看,大数据与视频监控业务的结合主要体现在“存”、“看”、“用”上。 “闪存”:如果类比水库蓄水的方式,典型的网络视频监控数据存储模型是一个由小溪汇聚河流、再汇聚到水库的蓄水方式。小溪数量增多、水量增大是水库蓄水量的保证,然而传统方式下蓄水量增大将提高水库建造成本和蓄水安全的要求。而采用分
2014-02-24 10:07:14
1270
转载 IBM的大数据安全智能系统
部分转载自:http://m.chinasmartgrid.com.cn/?s=1&l=13&v=454892 IBM的大数据安全智能系统提供了一种特殊的威胁和风险检测。这种检测技术把IBM旗下QRadar安全智能平台的实时安全可见性和IBM大数据平台的自定义分析结合起来。 QRadar执行实时相关、异常检测和报告即时威胁检测,同时也发送强化了的安全数据给IBM大数
2014-02-23 19:12:12
2392
转载 大数据带来的安全新挑战
节选自:http://sec.chinabyte.com/152/12471152.shtml我们已经进入大数据时代,数据量变得越来越大,数据环境也变得越来越复杂。在过去两三年中,一些互联网公司(如:雅虎、facebook等)相关应用现在正变成业务的主流;由于大数据可以提供业务洞察力,现在的技术也能保证组织可以做到这一点,且相关产品变得越来越便宜,我们可以做到将海量的大数据储存到一个点上,来进
2014-02-23 18:52:26
1397
转载 推荐几款优秀的开源数据挖掘工具
IDMer:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等。如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directory上查看。为了评测这些软件,我们用了UCI Machine Learning Repository上的心脏病诊断数据集。RR (http://www.r-project.org) 是用于统计分析和图形化的计算机语言
2014-02-22 16:53:48
1157
转载 云计算仿真工具CloudSim
转载自:http://blog.youkuaiyun.com/rolinzcy12/article/details/4367631#commentsCloudSim介绍和使用本文主要介绍一下我在使用CloudSim时翻译、整理和理解的一些信息,以及我的使用经验,希望能对有需要的朋友们有所帮助~1、我翻译和理解的一些信息: 2009年4月8日,澳大利亚墨尔本大学的网格实验室和Gri
2014-02-22 16:22:46
1408
转载 视频数据挖掘总体概述
转载自:http://www.guigu.org/news/guiguvip/2012121413290.html1.1视频数据挖掘 综合与视频数据挖掘有关的各类文献,一般认为,视频数据挖掘技术是对所挖掘的视频数据库中的数据不进行任何前提假设【3】,完全依赖在数据处理过程中获得的关于图像内容、物体结构特征、运动方式等特点,并根据这些信息在空间和时间上的变化所反映出的内在本质联系,采用已成
2014-02-22 15:11:50
2939
转载 数据挖掘资源汇总
来源于:http://blog.sina.com.cn/s/blog_7eb42b5a0100ud2r.html知识型企业研究中心http://business.queensu.ca/index.php英国谢菲尔德大学自然语言处理研究组http://nlp.shef.ac.uk/PCAIhttp://www.pcai.com/美国印地安那大学人工智能/认知科学报
2014-02-22 14:54:28
1276
转载 数据挖掘算法之关联规则挖掘
最近在数据挖掘方面进行学习探讨,从http://www.36dsj.com/archives/2443转载的这篇文章。方便归类学习!在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。一、关联规则的
2014-02-22 14:43:15
2561
语音信号的加窗分析
2013-04-11
傅里叶变换
2013-04-11
图像彩色变换
2013-04-11
图像复原MATLAB小程序
2013-04-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人