- 博客(47)
- 收藏
- 关注
原创 深度学习入门知识整理-目录篇
这仅仅是一篇目录,从事深度学习相关工作以来,这目录里面的知识未必都要掌握,可能你只需要知道历史上曾经有过这么一些东西就行,因为其中有些太过于基础了。就像你读高中的时候再也用不到幼儿园学习1+1=2一样,在工作中你也用不到感知机这种东西。参考文章1.1 名词解释 涉及的名词太多,作为目录篇不宜占用过多的篇幅,如有需要请跳转深度学习名词解释,若失效点击这里1.2 思...
2019-06-19 11:06:01
672
原创 深度学习入门知识整理-训练技巧以及模型调优
目录网络模型先简单后复杂确认模型损失检查中间输出和连接关于可视化神经网络的主要方法,Faizan Shaikh 举出了三个例子:超参数的选择学习率范围侧视图Colab NotebookNanonets数据预处理数据增强数据不平衡的处理自己的数据生成器全程跟踪工作Linux命令学会去查找资料和Solution如果你有了初步的想法打算做某个研...
2019-06-13 19:12:42
6566
原创 spark streamming + kafka + Redis 实践
java操作Redis:http://blog.youkuaiyun.com/xyang81/article/details/51918129数据order.txtA 202.106.196.115 手机 iPhone8 8000B 202.106.0.20 服装 布莱奥尼西服 199C 202.102.152.3 家具 婴儿床 2000D 202.96.96.68 家电 电饭锅 1000F...
2018-07-18 20:48:59
1301
原创 zookeeper-api应用
1 基本使用 org.apache.zookeeper.Zookeeper是客户端入口主类,负责建立与server的会话它提供了表1所示几类主要方法 :功能描述create在本地目录树中创建一个节点delete删除一个节点exists测试本地是否存在目标节点get/set data从目标节点上读取 / 写数据get/set ACL获取 / 设置目标节点访问控制列表信息get children检索一...
2018-07-15 14:24:24
347
原创 zookeeper命令行操作
运行 zkCli.sh –server <ip>进入命令行工具 1、使用 ls 命令来查看当前 ZooKeeper 中所包含的内容:[zk: 202.115.36.251:2181(CONNECTED) 1] ls /2、创建一个新的 znode ,使用 create /zk myData 。这个命令创建了一个新的 znode 节点“ zk ”以及与它关联的字符串...
2018-07-15 14:23:24
347
原创 zookeeper 应用案例(分布式应用HA||分布式锁)
1 实现分布式应用的(主节点HA)及客户端动态更新主节点状态某分布式系统中,主节点可以有多台,可以动态上下线任意一台客户端都能实时感知到主节点服务器的上下线1.1 客户端实现public class AppClient { private String groupNode = "sgroup"; private ZooKeeper zk; private Stat stat = new S...
2018-07-15 14:21:16
588
原创 zookeeper环境搭建
半数机制:集群中半数以上机器存活,集群可用。zookeeper适合装在奇数台机器上!!!0. zookeeper源码包下载,以及命令行rz的准备http://mirror.bit.edu.cn/apache/zookeeper/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget ht...
2018-07-15 14:09:54
337
原创 storm实践:用storm写wordcount
1、编程模型 DataSource:外部数据源 Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介质可以是Redis可以是mysql,或者其他。 Tuple:Storm内部中数据传输的基本单元,里面...
2018-06-30 17:53:09
1386
原创 storm中StreamGrouping详解
Storm里面有7种类型的streamgroupingl Shuffle Grouping: 随机分组, 随机派发stream里面的tuple,保证每个bolt接收到的tuple数目大致相同。l Fields Grouping:按字段分组,比如按userid来分组,具有同样userid的tuple会被分到相同的Bolts里的一个task,而不同的userid则会被分配到不同的bolts里的task...
2018-06-30 11:25:58
511
原创 Storm单词技术案例(重点)
1、功能说明设计一个topology,来实现对文档里面的单词出现的频率进行统计。整个topology分为三个部分: l RandomSentenceSpout:数据源,在已知的英文句子中,随机发送一条句子出去。 l SplitSentenceBolt:负责将单行文本记录(句子)切分成单词 l WordCountBolt:负责对单词的频率进行累加2、项目主要流程3、RandomSe...
2018-06-30 11:24:59
388
原创 Storm环境搭建
1. 集群环境-集群部署的流程:下载安装包、解压安装包、修改配置文件、分发安装包、启动集群注意:所有的集群上都需要配置hosts vim /etc/hosts IP地址1 storm01 zk01 hadoop01 IP地址2 storm02 zk02 hadoop02 IP地址3 storm03 zk03 hadoop03Master 172.16.11...
2018-06-30 11:22:05
682
原创 分类算法---SVM
所有的算法都建立在模型的基础之上,模型没有建立好,再好的算法哪怕是神经网络也是白搭。感知机神经网络初期最重要的工具,但是感知机有一个严重的缺点,直接导致上个世纪90年代人工智能领域处于停滞的状态,直到支撑向量机诞生。支撑向量机几乎突破了所有的感知机的局限性。而主要的分类方法有3种:基于概率的分类器NB、朴素贝叶斯、SVM模型的表示神经元结构 对神经元抽象结果,树突...
2018-05-21 10:14:28
1478
原创 分类算法-朴素贝叶斯NB
分类技术概述• 最常见的机器学习任务• 定义:给定一个对象X,将其划分到预定义好的某一个类别Yi中 – 输入:X – 输出:Y(取值于有限集合{y1,y2,……,yn})• 应用: – 人群,新闻分类,query分类,商品分类,网页分类,垃圾邮件过滤,网页排序不同类型的分类• 类别数量 – 二值分类 • Y的取值只有两种,如:email是否垃圾邮件 – ...
2018-05-20 19:11:11
489
原创 推荐算法(CF)--协同过滤
系统框架• 优点 – 充分利用群体智慧 – 推荐精度高于CB – 利于挖掘隐含的相关性• 缺点 – 推荐结果解释性较差 – 对时效性强的Item不适用 – 冷启动问题协同算法• User-Based CF• Item-Based CFUser-BasedCF• 假设 – 用户喜欢那些跟他有相似爱好的用户喜欢的东西 – 具有相似兴趣的用户在未来也具有相...
2018-05-18 23:28:39
1864
原创 推荐算法CB
推荐方法• 基于内容Content Based• 基于协同Collaboration Filtering – User Based CF – Item Based CF基于内容(ContentBased)• 引入Item属性的Content Based推荐• 引入User属性的Content Based推荐举个简单的小例子我们已知道• 用户u1喜欢的电影是A,B,C• 用户u2喜欢的电...
2018-05-16 19:18:25
1207
原创 中文分词--隐马模型HMM
优快云只能显示一部分,所以文章移动到简书:点击打开链接一 马尔科夫模型• 每个状态只依赖之前有限个状态 – N阶马尔科夫:依赖之前n个状态 – 1阶马尔科夫(即《中文分词基础》中的二元模型):仅仅依赖前一个状态 • p(w1,w2,w3,……,wn) = p(w1)p(w2|w1)p(w3|w1,w2)……p(wn|w1,w2,……,wn-1) • =p(...
2018-05-16 11:06:18
487
原创 大数据面试、笔试题收集
给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?题目描述:给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url? 分析:我们先来看如果要把这些URL全部加载到内存中,需要多大的空间。1MB = 2^20 = 10^6 = 100W1GB = 2^30 = 10^9 =...
2018-05-14 22:29:41
990
原创 Kafka环境搭建
0. Kafka源码包下载http://mirror.bit.edu.cn/apache/kafka/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/kafka/0.10.2.1/kafka_2.11-0.10.2....
2018-04-28 10:26:43
393
原创 Hbase数据的不同版本号
1. 查看在HBase中一个row对应的相同的列只会有一行。使用scan 或get 得到都是最新的数据,如果我们对这某一row所对应的列进行了更改操作后,并不会多生成一条数据,不会像数据库一样,插入时多生成一条记录,在HBase中对同一条数据的修改或插入都只是put操作,最终看到的都是最新的数据,其它的数据在不同的version中保存,默认是隐藏的,通过时间戳区分,Hbase默认保存最近的三个版...
2018-04-26 17:17:52
7343
原创 Hbase性能优化
1. 修改Linux最大文件数Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行查看:ulimit -a 结果:openfiles (-n) 1024临时修改: ulimit -n 4096持久修改:vi /etc/security/limits.conf在文件最后加上...
2018-04-26 17:14:41
357
原创 Hbase Shell API与过滤器实践
(一)Hbase Shell1、hbase提供了一个shell的终端给用户交互#$HBASE_HOME/bin/hbase shell2、如果退出执行quit命令>quit3、查看数据库状态(status)– 表示有3台机器活着,0台机器down掉,当前负载0.67(数字越大,负载越大)4、执行help查询帮助 – General:普通命令组 – Ddl:数据定义语言命令组 ...
2018-04-26 17:12:49
1006
原创 Hbase环境搭建
0. 软件版本下载http://mirror.bit.edu.cn/apache/hbase/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://archive.apache.org/dist/hbase/0.98.24/hbase-0.98.24-hadoop1-bi...
2018-04-26 15:07:27
1010
原创 Spark性能调优
参考文章:点击打开链接Spark作业运行原理Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系Spark资源参数调优• Executor的内存分为3块• 第一块:让task执行代码时,默认占executor总内存的20%• 第二块:task通过shuffle过程拉取上一个stage的task的输出后,进行聚合等操作时使用,默认也是占20%• 第三块:让...
2018-04-25 10:25:56
515
原创 Spark环境搭建与IDEA的使用
Hive源码包下载mirror.bit.edu.cn/apache/spark/集群环境Master 172.16.11.97 Slave1 172.16.11.98 Slave2 172.16.11.99下载软件包#Masterwget http://mirror.bit.edu.cn/apache/spark/spark-1.6.3/spark-1.6.3-bin-h...
2018-04-25 10:21:53
1331
原创 Flume集群环境搭建以及几种类型的conf配置文件
1、Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境上传安装包到数据源所在节点上然后解压 tar -zxvfapache-flume-1.6.0-bin.tar.gz,然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME2、根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)3、指定采集方案配置文件,在相应的...
2018-04-22 17:34:07
3251
1
原创 Hive函数
内置运算符Hive官方文档内置函数Hive官方文档Hive内置函数测试各种内置函数的快捷方法:1、创建一个dual表create table dual(id string);2、load data local inpath 'home/hadoop/dual.dat' into table dual; 一个文件(一行,一个空格)到dual表 3、select substr('angelabab...
2018-04-22 13:56:18
606
原创 Hive实战
实战案例1——数据ETL1.1 需求对web点击流日志基础数据表进行etl(按照仓库模型设计)按各时间维度统计来源域名top10已有数据表 “t_orgin_weblog”:+------------------+------------+----------+--+| col_name | data_type | comment |+------------------+...
2018-04-22 10:38:37
1772
原创 Hive环境搭建
0. Hive源码包下载http://mirror.bit.edu.cn/apache/hive/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-b...
2018-04-21 20:55:49
607
转载 HADOOP高可用机制
Hadoop的HA机制前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA(2)HDFS的HA机制详解通过双namenode消除单点故障双namenode...
2018-04-19 20:44:14
566
原创 HDFS详解
******HDFS基本概念篇******1.HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务l 重点概念:文件切块,副本存放,元数据2.HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过...
2018-04-14 12:27:40
554
原创 MapReduce实践
流量统计相关需求原始数据1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 20013631...
2018-04-14 09:58:28
813
1
原创 MapReduce详解(上)
首先从左到右,数据从HDFS中流入,其中inputsplit为大数据源,到了map有一个map的接口,把大数据源进行切割成一个一个的map,这一步需要我们来进行开发的,到后面的reduce也是,其他的为框架帮我们完成,会把数据填充到内存,即buffer in memory,默认为100M,阈值为80M,当数据溢出时,进行封闭,将数据从内存写入到磁盘中,而且中是按照key进行排序,概要MapRedu...
2018-04-13 23:24:51
981
原创 中文分词基础
(一)中文分词基础背 景• 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。• 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店• 和英文不同,中文词之间没有空格,所以实现中文搜索引擎,比英文多了一项分词的任务。• 如果没有中文分词会出现: – 搜索“达内”,会出现“齐达内”相关的信息• 要解决中文分词准确度的问题,是否可以提供一个免费...
2018-03-31 15:03:27
1925
原创 NLP文本相似度
因为优快云总会把后边一截给自动删掉,所以移动到简书地址(一)余弦相似度、向量空间模型1、相似度• 相似度度量:计算个体间相似程度• 相似度值越小,距离越大,相似度值越大,距离越小• 最常用——余弦相似度 – 一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小 – 余弦值接近1,夹角趋于0,表明两个向量越相似2、例子3、处理流程• 得到了文本相似度计算的处理流程是: ...
2018-03-31 11:52:29
3548
原创 Spark Streaming基础与实践
(一)Spark Streaming简介参考文章:点击打开链接1、Spark Streaming概念Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。类似于ApacheStorm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例...
2018-03-31 10:32:23
2086
原创 Spark SQL基础与实践
(一)Spark SQL基础简介• Spark SQL是Apache Spark大数据框架一部分,主要用于处理结构化数据和对spark数据执行类sql的查询• Spark为其提供了一个称为DataFrame的编程抽象,充当分布式SQL查询引擎• Spark SQL功能: – 集成:无缝将SQL查询与Spark程序混合 – 统一数据访问:加载来自各种来源的数据 – 兼容性:Spar...
2018-03-31 09:38:30
1233
原创 Hbase基础与原理详解
Hbase简介1.1 Hbase的含义 HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模...
2018-03-28 23:16:05
2117
原创 Spark基础
spark概述1.1 什么是Spark(官网:http://spark.apache.org)Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Stre...
2018-03-26 23:19:16
660
原创 Hive原理详解
(一) Hive基础1.1 背景• 引入原因: – 对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一堆MapReduce代码 select word, count(*) from ( select explode(split(sentence, ' ')) as word from article) t group by word即可完成wordcount(...
2018-03-25 20:00:53
18357
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人