- 博客(120)
- 资源 (3)
- 收藏
- 关注
原创 计算机组成原理
1.概述篇1.1计算机的发展历史1.1.1计算机发展的四个阶段第一阶段:(1946-1957)电子管计算机1.背景:第二次世界大战是电子管的计算机产生的催化剂2.埃尼阿克(ENIAC)诞生背景: 战争使用了火箭 打得准需要计算射击参数 射击参数需要几千次才能运算出来 3.特点:集成度小,占用空间大 功耗高,运行速度慢 操作复杂,更换程序需...
2019-07-06 18:25:34
825
原创 Spring框架
概念: 一个开源框架 简化企业级应用开发而生,使用Spring可以使简单的JavaBean实现以前只有EJB才能实现的功能 是JavaSE/EE一站式框架优点: 方便解耦,简化开发 Spring就是一个大工厂,可以将所有对象创建和依赖关系维护,交给Spring管理 AOP编程的支持 Spring...
2019-05-03 07:56:57
353
原创 数据结构和算法
简单算法时间复杂度分析:1.大O描述的是算法的运行时间与输入数据的关系2.渐进时间复杂度,描述的是n趋于无穷时时间复杂度动态规划:最短路径:松弛操作:dijkstra单元最短路径:不能处理图中带有负权边,复杂度O(ELogV)Bellman-Ford单元最短路径:不能处理带有负权环,可以判断,复杂度O(EV)拥有负权环的图,不再拥有最短路径Floyed算法...
2019-01-20 18:01:02
347
原创 Java定时任务调度
定时任务调度:基于给定的时间点,给定的时间间隔或者给定的执行次数自动执行任务TImer:JDK内置,只有一个线程执行 有且只有一个后台线程对多个业务线程进行定时定频率的调度主要构件:Quartz:第三方jar包,有线程池,定时任务更详细...
2018-06-08 20:03:48
266
原创 使用jstack生成线程快照
jstack:作用:生成JVM当前时刻线程的快照(threaddump,既当前进程所有线程的信息)目的:帮助定位程序问题出现的原因,如长时间停顿,CPU占用率过高
2018-06-07 20:47:08
1319
1
原创 守护线程
用户线程:运行在前台,执行具体的任务。程序的主线程,连接网络的子线程等都是用户线程守护线程:运行在后台,为其他前台线程服务特点:一旦所有的用户线程都运行结束,守护线程随JVM一起结束工作应用:数据库连接池中的监测线程 JVM虚拟机启动后的监测线程最常见的守护线程:垃圾回收线程注意事项:设置守护线程必须在start()方法之前调用,否则会抛出异常 在守护...
2018-06-07 19:40:18
769
原创 线程生命周期
创建:Thread th=new Thread()就绪:创建了线程对象,调用了线程的start()方法(注意:此时线程只是进入了线程队列,等待获取CPU服务,具备了运行的条件,但并不一定已经开始运行)运行:处于就绪状态的线程,一旦获取了CPU资源吗,便进入到运行状态,开始执行run方法的逻辑终止:线程的run()方法执行完毕阻塞:一个正在执行的线程在某些情况下,由于某种原因而暂时让出了CPU资源,...
2018-06-07 19:30:30
176
原创 Java线程创建方式的比较
Runnable方式可以避免Thread方式由于Java单继承特性带来的缺陷Runnable的代码可以被多个线程(Thread实例)共享,适用于多个线程处理处理同一资源的情况。
2018-06-07 19:20:03
207
原创 Java多线程之内存可见性
可见性:一个线程对共享变量变量的修改,能够及时地被其他线程看到。Java内存模型:描述了Java程序中各种变量(线程共享变量)的访问规则,以及在JVM中将变量存储到内存和从内存中读取变量这样的底层细节。所有的变量都存储在主内存每个线程都有自己独立的工作内存,里面保存该线程使用到的变量的副本线程对共享变量的操作都必须在自己工作内存中进行不能直接从主内存中读写线程变量值的传递需要通过主内存传递可见性实...
2018-06-06 21:20:22
177
原创 Scala语言
函数式编程:纯函数(Pure Function):没有副作用。副作用是状态的变化(修改全局变量,跑出异常,I/O异常,调用有副作用函数)引用透明:对于相同的输入,总得到相同的输出。 如果f(x)的参数x和函数体都是引用透明的,那么函数f是纯函数不变性:为了获得引用透明性,任何值都不能变化函数是一等公民:一切都是计算,函数式编程中只有表达式,变量,函数都是表达式高阶函数...
2018-06-01 22:51:31
442
原创 Spark调优
1.控制文件输出的大小:coalesce2.分区字段的数据类型调整:spark.sql.sources.partitionColumnTypeInference.enabled
2018-06-01 22:51:02
467
原创 用户行为日志分析概述
用户行为日志分析:Nginx,Ajax日志数据内容: 1,访问的系统属性:操作系统,浏览器等等 2.点击的url,从哪个url跳转过来,页面停留时间 3.访问信息:session_id,访问ip等日志分析的意义: 1.网站的眼睛 2.网站的神经 3.网站的大脑离线数据处理: 1.数据采集 Flume:将web日志写到HDFS 2.数据清洗: 脏数据:Spark,Hive...
2018-06-01 22:50:28
7389
原创 Spark处理外部数据源
产生背景:1.数据以各种格式存储在系统中2加载和保存数据不容易(Hive和mysql之间)3.数据存在各种类型,不好解析4.转换数据格式5.格式转换6.用户希望方便快速从不同数据源(json,parquet,rdbms),经过混合处理(json join parquet),再将处理结果以特定格式输出。出现时间:Spark Sql1.2出现了外部数据源API...
2018-06-01 22:49:32
451
原创 SparkSql概述
需要Sql的原因: 1.事实上的标准 2.易学易用 3.受众面大Hive on Sparkshark推出:欢迎,基于spark,基于内存的列式存储,与hive能够兼容缺点:hive ql解析,逻辑执行计划生成,执行计划的优化是依赖于hive的 仅仅是把物理执行计划从mr作业替换为spark作业 hive没有注意线程安全Shark终止以后,产生了两个分词...
2018-06-01 22:48:54
261
原创 DataFrame和DataSets概述
产生背景: 它不是SparkSQl提出的,而是早在R,Pandas语言就有了 想提供受众广的API RDD和MapReduce编程门槛高概念:A DataFrame is a Dataset organized into named column(以列(列名,列的类型,列值)的形式构成分布式数据集,按照列赋予不同名称A Dataset is a distributed collecti...
2018-05-16 15:41:23
955
原创 推荐算法
相似度种类: 余弦相似度 切比雪夫距离 皮尔森系数 杰卡德距离 欧式相似度 曼哈顿距离 基于物品的协同过滤推荐算法(ItemCF) 用户行为与权重 1.点击---1分 2.搜索---3.0分 3.收藏---5分 4.付款---10分 算法思想:给他们推荐那些和他们之前喜欢的物品相似的物品 相似度矩阵X...
2018-05-08 20:55:24
346
原创 FLume概述
概念:FLume是Cloudera提供的一个高可用,高可靠,分布式的海量的日志采集,聚合,传输系统,FLume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。设计目标: 可靠性:end to end(exactly once) Store on failure(数据接收方crash时,...
2018-05-08 20:53:50
326
原创 Kafka介绍
概念: 分布式消息系统,由LinkedIn使用Scala编写,用作LinkedIn的活动流,和运营数据处理管道的基础,具有高水平拓展和高吞吐量。动态扩容是通过zookeeper实现的AMQP协议: 消费者(consumer):从消息队列中请求消息的客户端应用程序 生产者(producer):向broker发布消息的客户端程序 AMQP服务器端(broker):用来接收生产者发送的消息并...
2018-05-08 20:53:33
292
原创 JSTL概述
概念: 是Java中的一个定制标记库集使用原因: 实现了JSP页面中的代码复用,基于标签库原理 书写JSP页面时可读性更强,长得像xml,方便前端查看和参与开发四大分类: 核心标签:最常用,最重要 out标签: 输出常量:可在value中直接赋值 输出变量:变量不存在时可配合default属性输出默认值,还可...
2018-05-08 20:53:11
186
原创 EL(Expression Language)表达式
EL表达式的格式: 用美元符号“$”定界,内容包括在{}中“.”和“[ ]”运算符通常情况下是通用的:${user.sex} ${user["sex"]}"[ ]"还可以用来进行集合中的定位${booklist[0].price}以下情况用"[ ]" 1.包含特殊字符 ${user["first-name]"} 2.通过变量动态取值:${user.[param]}EL的自动类型...
2018-05-08 20:52:40
262
原创 Spark介绍
概念: Spark是一个快速且通用的集群计算平台特点: Spark是快速的 扩充了流行的MapReduce计算模型 基于内存计算的 基于事件驱动,通过线程池复用线程提高性能 抽象出分布式内存存储结构数据,弹性分布式数据集RDD Spark是通用的: ...
2018-05-08 20:51:36
284
原创 hadoop分布式缓存
概念: 在执行MapReduce时,可能mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中。使用DistributedCache方法: 1.在main方法中加载共享文件的HDFS路径,路径可以是目录也可以是文件。可以在路径中末位追加“#”+别名,在map阶段可以使用该别名 String cache="hdfs://10.203.87.5:8020/ca...
2018-04-23 19:49:03
452
原创 Java初始化顺序
初始化过程: 1. 初始化父类中的静态成员变量和静态代码块 ; 2. 初始化子类中的静态成员变量和静态代码块 ; 3.初始化父类的普通成员变量和代码块,再执行父类的构造方法;4.初始化子类的普通成员变量和代码块,再执行子类的构造方法; ...
2018-04-18 22:59:06
175
原创 电商大数据之用户画像
用户画像: 根据你在电商网站上所填的信息和你的行为,可以把一些标签把你描绘出来。描绘你的标签就是用户画像。数据来源: 1.填写的个人资料。 2.如果有不确定的。可以建立模型来判断,比如用户性别如果不填,可以建立性别模型,根据用户行为来判断其性别是什么及概率 3.浏览,点击,购买,签收,评价。关注作用: 可以做分类统计:全国分城市奶爸指数 营销推荐:比如判断到你有小孩,可以...
2018-04-18 21:28:27
1929
原创 oracle数据库如何实现远程登录(windows版)
1.打开Net Manager ,点击服务命名中的orcl,修改主机名为本机ip地址 2.点击监听程序中的LISTENER,修改主机,改为主机IP地址 3.打开tnsnames.ora文件(我的在这个目录下:E:\app\hasee\product\11.2.0\dbhome_1\NETWORK\ADMIN) 红色部分改为主机IP地址。4.远程登录 在cmd下运行sqlplus 用户...
2018-04-07 15:49:18
6330
原创 Sqoop简介
概念:Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.安装:1.解压 2.配置环境变量: ...
2018-04-06 21:33:23
235
原创 Hive介绍
概念:基于hadoop HDFS之上的数据仓库。 数据仓库是一个面向主题,集成的,不可更新的的,随时间不变化的数据集合,它用于支持企业或者组织的决策分析处理。 定义了类似的SQL查询语言,成为HQL。 Hive允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内键的mappper和reducer无法完成的复杂工作。 ...
2018-04-04 23:35:09
317
原创 Hbase
应用: 海量数据存储(上百亿行,上百亿列) 准实时查询在实际业务场景的应用: 交通 ,金融,电商,移动特点: 单表可以有百亿行,百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常有弹性 HBase是面向列存储和权限控制,并支持独立检索。列式存储,其数据在表中按照某列存储,这样在查询只需要几个字段的时候,就能大大减少读取的数据量。 HBase每一个列的数据...
2018-04-04 13:36:43
233
原创 hadoop3.X比hadoop2.x的改进
Common主要改进: Shell script rewrite 过时API删除HDFS改进: 支持erasure编码 支持超过两个namenode 数据均衡 多个服务端口发生变化Yarn改进: YARN Timeline Service v.2 Support for Opportunistic Containers and Distributed Sche...
2018-04-02 10:58:53
3514
原创 前沿技术Spark,Flink,Beam
MapReduce的缺点:1.开发 wordcount程序复杂 只支持map和reduce方法 执行效率低下 以作业连方式串起来执行 打包2.运行速度: map输出写到磁盘,reduce写到hdfs,磁盘I/O,网络I/O,序列化等压力大 map任务和reduce任务以进程方式运行 一定要求排序(其实有时候不需要) 不适合迭代处理,交互式(数据挖掘)处理,流式处理3.框架多样...
2018-04-02 09:20:16
3671
原创 hadoop分布式集群搭建
hostname 设置: vi /etc/sysconfig/networkhostname和ip地址的设置 cat /etc/hosts ip地址 主机名各个节点角色分配:huawei:NameNode/DataNode ResourceManager/NodeManagerxiaomi:DataNode NodeManagerbaidu:DataNode NodeManage...
2018-04-01 10:33:04
167
原创 用户行为日志分析
用户行为日志生成渠道: Nginx,Ajax记录用户访问行为日志的原因: 网站页面的访问量 网站的黏性 推荐用户行为日志内容:1.访问的系统属性:操作系统,浏览器等等2.访问特征:点击URL,从哪个url 跳转过来的(referer),跳转页面上停留时间3.访问信息:session_id,访问ip(访问城市)用户行为日志分析的意义: 离线数据处理架构: 1.数据采集 ...
2018-03-31 15:52:17
2154
原创 分布式计算框架Mapreduce
概念: Mapreduce是一种编程模型,编程方法,采用“分而自治”思想优点:海量数据离线处理,易开发,易运行。缺点:实时流式计算MapReduce编程模型之执行步骤: 输入一个大文件,通过Split之后,将其分为多个片 每个文件分片由单独的机器去处理,这就是map方法 将各个机器计算的结果进行汇总并得到最终的结果,这就是reduce方法MapReduce的四个阶段: Spi...
2018-03-31 15:51:49
3016
原创 maven介绍
概念: 基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。 管理项目,自动化构建工具,包含了编译,运行,测试,打包,部署,管理Jar包目录解释:bin:运行脚本boot:一个类加载器框架conf:配置文件lib:类库maven常见命令: mvn -v 查看maven版本 -compil...
2018-03-27 22:35:53
172
原创 资源调度框架Yarn
Yarn(Yet Another Resource Negotiator)产生背景 Hadoop1.x时: MapReduce:Master/Slave架构,一个JobTracker带多个TaskTracker JobTracker:负责资源管理和作业调度 TaskTracker:定期向JT汇报节点的健康状况,资源使用情况,作业执行情况; ...
2018-03-27 21:12:02
302
原创 JUnit
Juint的使用 1.测试方法上必须有@Test进行修饰 2.测试方法必须使用public void 进行修饰,不能带任何参数 3.新建一个源代码目录来存放我们的测试代码 4.测试类的包应该和被测试类保持一致 5.测试单元中每个方法必须可以独立测试,测试方法间不能有依赖 6.测试类使用Test作为类名的后缀(不是必须) 7.测试方法使用test作为方法名的前缀(不是必须)1.Failure一般...
2018-03-15 21:19:35
179
原创 hadoop介绍
Hadoop名字由来 作者孩子的棕黄色小象的名称Hadoop简介 开源的,分布式存储+分布式计算平台作用 搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务 搜索引擎,日志分析,商业智能,数据挖掘分布式文件系统HDFSHDFS是GFS的克隆版特点:扩展性,容错性(多副本),海量数据存储将文件切分为指定大小的数据块并以多副本的存储在多个机器上数据切分,多副本,容错等操作对用户是透明的...
2018-03-15 12:39:16
1584
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人