- 博客(93)
- 收藏
- 关注
转载 流式计算基础-7
本文内容一、业务需求某电商网站首页有猜你喜欢推荐位,该推荐位一次能展示6个商品,推荐内容可以更换四次,共需推荐24个商品。需要使用协同过滤算法(user CF & Item CF)及基于物品内容的算法进行混合推荐。 一次性展示的6个商品中,从左到右的顺序分别是: 第一位:基于物品的实时推荐结果 第二位:基于用户的离线推荐结果 第三位:基于物品的离线推荐结果 第...
2018-12-10 16:47:59
251
转载 流式计算基础-6-2
本文名称 Mahout协同过滤 内容 一、Mahout是什么 Mahout是一个算法库,集成了很多算法。 Apache Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Mahout项目目前已经有了多个公共发行版本。M...
2018-12-07 11:06:49
364
转载 流式计算基础-6-1
本文内容推荐系统在电子商务领域得到普遍的运用推荐系统本质上是销售系统的一部分在便利店,推荐系统是导购牌,类目货架,是老板娘在超市,推荐系统是导购牌,类目货架,是销售员在电商,推荐系统是什么? 不管是在便利店,还是超市,或者电商网站,本质上需要解决两个问题:1、帮助用户获得想要的商品 A、用户知道自己想要什么商品,在什么位置 用户主动的行为...
2018-12-05 10:31:01
290
转载 流式计算基础-5
一、本文名称 电商实时交易风控系统 二、课程目标 1、了解电子商务交易的风险点2、了解电子商务交易中风险点的处理策略3、利用Storm技术开发基于规则判定的风控系统4、掌握企业中风控系统的一般架构和业务流程 三、背景知识 3.1、信用卡的交易风险及常见策略3.1.1、用户逾期风险控制用户主动、被动对正常消费的金额产生逾期通过滞纳金进行处理3....
2018-12-04 22:24:44
1272
转载 流式计算基础-4
本文名称:点击流日志分析 1、什么是点击流系统?记录用户在网站上的操作,用户行为轨迹。 2、日志有哪些需要注意的地方,如何采集日志(flume),日志格式,日志包含的信息量(字段) 3、分析什么? 网址来源,TOPK 客户端流量占比 Android、IOS...
2018-12-03 21:51:18
563
转载 流式计算基础-3
本文名称:日志监控告警系统基于的日志进行监控,监控需要一定规则,对触发监控规则的日志信息进行告警,告警的方式,是短信和邮件。log4j---->error,info,debug 应用程序程序的日志 error级别 TimeOutException 角标越界IndexXXXException ......Error com.alibaba.jstorm.daemon.worke...
2018-11-27 16:38:34
171
转载 流式计算基础-2-3
本文名称: Redis 注:学习本课程请先学习Kafka基础目标: 通过本模块的学习,能够掌握Redis基础、应用场景和数据结构。大纲: 内容 一、Redis概述 Redis是一个开源,先进的key-value存储,并用于构建高性能,可扩展的应用程序的完美解决方案。 Redis从它的许多竞争继承来的三个主要特点:...
2018-11-26 11:12:20
216
转载 流式计算基础-2-2
本文名称: Kafka技术增强 注:请先学习Kafka基础目标: 通过本模块的学习,能够掌握Kafka的负载均衡、Producer生产数据、Kafka文件存储机制、Kafka自定义partition大纲:Kafka整体结构图 Consumer与topic关系 Kafka Producer消息分发 Consumer 的负载均衡...
2018-11-26 11:09:10
600
转载 流式计算基础-2-1
本文名称:Storm技术增强 注:学习本文,请先学习Storm基础(文章列表前面)目标: 通过本模块的学习,能够掌握Storm底层的通信机制、消息容错机制、storm目录树及任务提交流程。大纲:Storm程序的并发机制 Storm框架通信机制(worker内部通信与外部通信) Storm组件本地目录树 Storm zookeeper目录树 St...
2018-11-26 11:08:48
252
转载 流式计算基础-1-3
本文名称:Storm上游数据源之Kakfa 目标: 通过本课程理解Storm消费的数据来源、理解JMS规范、理解Kafka核心组件、掌握Kakfa生产者API、掌握Kafka消费者API。对流式计算的生态环境有深入的了解,具备流式计算项目架构的能力。大纲:kafka是什么? JMS规范是什么? 为什么需要消息队列? Kafka核心组件 Kafka安装部署 ...
2018-11-23 22:56:32
367
转载 流式计算基础-1-2
本文名称:Storm集群部署及单词技术 目标: 通过本课程能够掌握Strom集群搭建、Storm配置文件、Storm源码管理、Storm编程模型。大纲:集群部署的基本流程 集群部署的基础环境准备 Storm集群部署 Storm集群的常用操作命令 Storm集群的进程及日志熟悉 Storm源码下载及目录熟悉 Storm 单词计数案列 内容 一、集群部...
2018-11-22 18:58:54
270
转载 流式计算基础-1-1
本文介绍:Storm是什么目标: 通过该课程的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。大纲:离线计算是什么? 流式计算是什么? 流式计算与离线计算的区别? Storm是什么? Storm与Hadoop的区别? Storm的应用场景及行业案例 Storm的核心组件(重点掌握) Storm的编程模...
2018-11-21 16:39:35
194
转载 hbase
一、hbase简介 1.1什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处...
2018-11-19 23:12:42
139
转载 离线计算系统综合案例
本文目标理解网站点击流数据分析的业务背景 理解网站点击流数据分析中常用分析指标的业务含义 掌握网站点击流数据分析系统的技术架构 掌握网站点击流数据分析系统中各环节的技术实现 能独立设计完成一个初步的网站点击流数据分析系统 网站点击流数据分析,业务知识,推荐书籍:《网站分析实战——如何以数据驱动决策,提升网站价值》王彦平,吴盛锋编著 一、网站点击流数据...
2018-11-17 23:59:45
2088
转载 离线辅助系统
学习目标:1、理解flume、sqoop、oozie的应用场景2、理解flume、sqoop、oozie的基本原理3、掌握flume、sqoop、oozie的使用方法 离线辅助系统 数据接入 Flume介绍 Flume组件 Flume实战案例 任务调度 ...
2018-11-16 15:33:50
1468
转载 hive
学习目标:1、熟练掌握hive的使用2、熟练掌握hql的编写3、理解hive的工作原理4、具备hive应用实战能力 一、Hive基本概念 1.1Hive简介 1.1.1什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2为什么使用Hive 直接使用hadoop所面临...
2018-11-15 22:44:41
481
转载 mapreduce加强
目标:掌握mapreduce分布式运算框架的编程思想掌握mapreduce常用算法的编程套路掌握mapreduce分布式运算框架的运行机制,具备一定自定义开发的能力 流量统计相关需求 1.对流量日志中的用户统计总上、下行流量技术点: 自定义javaBean用来在mapreduce中充当value注意: javaBean要实现Writable接口,实现...
2018-11-14 18:43:47
116
转载 mapreduce详解
目标:掌握mapreduce分布式运算框架的编程思想掌握mapreduce常用算法的编程套路掌握mapreduce分布式运算框架的运行机制,具备一定自定义开发的能力 一、 MAPREDUCE原理篇(1) Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带...
2018-11-13 18:25:51
533
转载 HDFS详解
学习目标:掌握hdfs的shell操作掌握hdfs的java api操作理解hdfs的工作原理 一、 HDFS前言 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念...
2018-11-12 19:44:32
220
转载 hadoop快速入门
学习目标:第一次接触具体的大数据框架,先建立起大数据和分布式的宏观概念1、理解hadoop是什么,用于做什么,大体上怎么用2、理解hive是什么,用于做什么,大体上怎么用3、通过一个案例的演示说明,理解数据挖掘系统的基本流程和结构 一、HADOOP背景介绍 1.1 什么是HADOOP 1.HADOOP是apache旗下的一套开源软件平台 2.HA...
2018-11-07 18:54:18
275
转载 轻量级RPC框架开发
内容安排:1、掌握RPC原理2、掌握nio操作3、掌握netty简单的api4、掌握自定义RPC框架 一、RPC原理学习 1.1什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TC...
2018-11-06 15:28:53
357
转载 java高级特性增强
内容安排1、掌握多线程2、掌握并发包下的队列3、了解JMS4、掌握JVM技术5、掌握反射和动态代理 一、java多线程增强 1.1java多线程基本知识 1.1.1进程介绍 不管是我们开发的应用程序,还是我们运行的其他的应用程序,都需要先把程序安装在本地的硬盘上。然后找到这个程序的启动文件,启动程序的时候,其实是电脑把当前的这个程序加载到内存中,在内存中需...
2018-11-05 21:49:39
169
转载 Zookeeper
一、Zookeeper概念简介: Zookeeper是一个分布式协调服务 ;就是为用户的分布式应用程序提供协调服务 zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……虽然说可以...
2018-11-04 22:56:16
263
转载 常用软件和服务(nginx、lvs、keepalived、iptables)
一、高可用web框架1.1nginx 1.1.1nginx简介Nginx是一个自由、开源、高性能及轻量级的HTTP服务器及反转代理服务器。Nginx以其高性能、稳定、功能丰富、配置简单及占用系统资源少而著称。Nginx 超越 Apache 的高性能和稳定性,使得国内使用 Nginx 作为 Web 服务器的网站也越来越多. 1.1.2基础功能 反向代理加速,简单的负载均衡...
2018-11-03 20:46:40
975
转载 Shell编程
主要内容•shell编程•sed命令•awk命令•crontab 一、shell编程 1.1什么是Shell•Shell是用户与内核进行交互操作的一种接口,目前最流行的Shell称为bash Shell•Shell也是一门编程语言<解释型的编程语言>,即shell脚本•一个系统可以存在多个shell,可以通过cat /etc/shells命令查看系统...
2018-11-02 10:22:25
273
转载 大数据学习准备工作
一、linux安装 1.1安装vmware软件 1.2验证VMWARE是否安装成功(如果机器在安装vmware的时候会出现一个错误:virtual XT,这需要重启电脑<按F2/按DELET/.........>进入BIOS,开启这个虚拟加速开关)(有些WINDOWS8/10系统会出现虚拟网卡安装失败的现象,这需要关闭windows的驱动程序安装签名验证)...
2018-11-01 21:19:45
311
转载 shiro-2
shiro-2 shiro授权 shiro和企业项目整合开发 一、回顾 什么是权限管理?权限管理是系统的安全范畴,要求必须是合法的用户才可以访问系统(用户认证),且必须具有该 资源的访问权限才可以访问该 资源(授权)。认证:对用户合法身份的校验,要求必须是合法的用户才可以访问系统。授权:访问控制,必须具有该 资源的访问权限才可以访问该 资源。 权限模型:...
2018-10-30 20:26:47
202
转载 shiro-1
shiro-1 基于url权限管理 shiro基础 一、本文目标:1、了解基于资源的权限管理方式2、掌握权限数据模型3、掌握基于url的权限管理(不使用shiro实现权限管理)4、shiro实现用户认证5、shiro实现用户授权6、shiro与企业web项目整合开发的方法 二、本文安排这是系统架构设计相关的课程。 shiro-1:基于url权限管理 ...
2018-10-30 20:07:37
142
转载 springmvc-2
springmvc-2 注解开发高级知识 一、回顾springmvc-1 springmvc框架: 用户请求url到DispatcherServlet前端控制器,相当于中央调度器,降低系统各组件之间耦合度DispatcherServlet前端控制器通过HandlerMapping根据url找到Handler。DispatcherServlet前端控制器通过Handl...
2018-10-30 19:32:34
226
转载 springmvc-1
springmvc安排:springmvc-1: 基础知识 springmvc框架(重点) mvc在b/s系统中应用方式 springmvc框架原理(DispatcherServlet前端控制器、处理器映射器、处理器适配器、视图解析器) springmvc入门程序 ...
2018-10-30 17:19:21
184
转载 mybatis-2
一、回顾 mybatis是什么? mybatis是一个持久层框架,是apache下的开源项目,前身是itbatis,是一个不完全的ORM框架,mybatis提供输入和输出的映射,需要程序员自己写sql语句,mybatis重点对 sql语句的灵活操作。 适合用于:需求变化频繁, 数据模型不固定的项目,例如:互联网项目。 mybatis架构?...
2018-09-19 20:37:44
193
转载 mybatis-1
整个思路以订单商品的项目作为驱动。 mybatis-1:基础知识 mybatis是一个java持久层框架,java中操作关系型 数据库用的是jdbc,mybatis是对jdbc的一个封装。 1、从一个jdbc程序开始,通过jdbc 程序找到使用原生态的jdbc开发程序,存在哪些问题??通过学习mybatis,mybatis是如何解决这些问题。2、mybatis的架构(重...
2018-09-19 20:06:57
156
转载 Webservice-2
一、什么是cxfApache CXF = Celtix + Xfire支持多种协议:SOAP1.1,1,2 HTTP CORBA(Common Object Request Broker Architecture公共对象请求代理体系结构,早期语言使用的WS。C,c++,C#) 并可以与Spring进行快速无缝的整合 灵活的部署:可以运行有Tomcat,Jboss,Jetty(内置...
2018-09-19 19:49:47
372
转载 Webservice-1
一、认识webservice什么是服务? 1)现在的应用程序变得越来越复杂,甚至只靠单一的应用程序无法完成全部的工作。更别说只使用一种语言了。2)大家在写应用程序查询数据库时,并没有考虑过为什么可以将查询结果返回给上层 的应用程序,甚至认为,这就是数据库应该做的,其实不然,这是数据库通过TCP/IP 协议与另一个应用程序进行交流的结...
2018-09-10 19:23:04
191
转载 actiiti-4
内容安排:设计申请实体和审批实体 起草申请页面(表单模板列表页面) 下载doc模板文件 提交申请(启动流程实例、保存申请信息) 我的申请查询列表 查看当前流程图 查看流转记录 我的任务列表查询 审批处理一、设计申请实体和审批实体application.hbm.xmlapproveInfo.hbm.xml二、起草申请列表页面第一步:修改left.jsp页...
2018-09-10 19:22:29
105
转载 activiti-3
内容安排:配置web项目支持注解 设计用户实体和表 登录和退出功能 审批流程管理(列表、部署流程定义、删除流程定义、查看png图片) 表单模板管理(增删改查、下载) 一、配置web项目支持注解在spring配置文件中配置组件扫描、支持注解、事务的注解驱动 二、审批流程管理 2.1列表功能要求查询最新版本的流程定义列表 2.2部署流程定义使用stru...
2018-09-10 19:22:22
155
转载 activiti-2
内容安排:历史数据查询 流程变量(设置、获取) 任务的类型(个人、公共、接收) 监听器(执行、任务) 网关(并行、排他) Spring整合 一、历史数据查询 1.1查询历史流程实例列表 1.2查询历史活动数据 1.3查询历史任务数据二、流程变量 2.1设置流程变量 2.1.1在启动流程实例时设置 2.1.2在办理任务时设置 ...
2018-09-10 19:22:01
240
转载 activiti-1
内容安排:了解什么是工作流 常见的工作流框架 按照流程设计器插件(设计流程图) 初始化框架的表结构 使用activiti的API完成流程相关操作 网页版流程设计器使用 一、了解工作流 工作流(Workflow),就是“业务过程的部分或整体在计算机应用环境下的自动化”,它主要解决的是“使在多个参与者之间按照某种预定义的规则传递文档、信息或任务的过程自动进行,从而实现...
2018-09-10 19:21:51
174
转载 redis-13-内存优化
一、特殊编码: 自从Redis 2.2之后,很多数据类型都可以通过特殊编码的方式来进行存储空间的优化。其中,Hash、List和由Integer组成的Sets都可以通过该方式来优化存储结构,以便占用更少的空间,在有些情况下,可以省去9/10的空间。 这些特殊编码对于Redis的使用而言是完全透明的,事实上,它只是CPU和内存之间的一个交易而言。如果内存使用率方面高一些,那么在操作...
2018-09-10 19:21:34
78
转载 redis-12-管线
一、请求应答协议和RTT: Redis是一种典型的基于C/S模型的TCP服务器。在客户端与服务器的通讯过程中,通常都是客户端率先发起请求,服务器在接收到请求后执行相应的任务,最后再将获取的数据或处理结果以应答的方式发送给客户端。在此过程中,客户端都会以阻塞的方式等待服务器返回的结果。见如下命令序列: Client: INCR X Server: 1 Client:...
2018-09-10 19:21:28
81
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人