- 博客(33)
- 收藏
- 关注
原创 Hive优化总结
一、SQL本身的优化1、只select需要的列,避免select *2、where条件写在子查询中,先过滤再关联3、关联条件写在on中,而不是where中4、数据量大时,用group by代替count distinct5、数据量小时,用in代替join6、避免笛卡尔积7、join时大表放后面,使用相同的连接键7、严格格式Hive.mapred.mode,分 nonstrict,strict,默认是nonstrict,如果设置为strict,对三种情况限制:(1)分区表必须加分区。
2022-03-30 18:47:34
8563
原创 mac效率工具软件
写在开头:以下软件能支持正版还是要支持正版的。学生党可以考虑macwk 或者 xclient【Alfred】安装好之后,默认 option+空格 打开搜索框。打开应用程序假如想打开微信,只需1)option+空格 打开搜索框2)输入 weixin 或者 微信3)回车即可打开计算器在搜索框中输入你想计算的式子,下面会实时显示式子的结果,回车就可以把结果复制到剪切板中,接下来就可以在任何地方粘贴结果。剪切板历史option+command+C 打开剪切板历史,在右边可以预览曾经复
2021-12-28 15:28:37
896
原创 《大数据之路:阿里巴巴大数据实践》笔记——数据模型篇
为什么要数据建模 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的 110 吞吐。 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。 效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。 质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。数据仓库建模方法论ER 模型:用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF
2021-11-29 20:15:45
2207
原创 《大数据之路:阿里巴巴大数据实践》笔记——实时开发篇
简介实时任务特征1、时效性高2、常驻任务3、性能要求高4、应用局限性流式技术架构1、数据采集2、数据处理3、数据存储4、数据服务实时处理中的问题1、去重指标【精确去重】保存明细【模糊去重】布隆过滤器、基数估计2、数据倾斜去重指标分桶非去重指标分桶3、事务处理数据自动 ACK 、失败重发以及事务信息等机制...
2021-10-29 18:00:06
1155
原创 《大数据之路:阿里巴巴大数据实践》笔记——离线开发篇
数据开发平台统一的计算平台( MaxCompute )、统一的开发平台( D2 等相关平 台和工具)、统一的数据模型规范和统一的数据研发规范统一计算平台MaxCompute特点计算性能高且更加普惠集群规模大且稳定性高功能组件非常强大(SQL、MR、图、Spark等)安全性高统一开发平台D2在云端(D2)是集成任务开发、调试及发布,生产任务调度及大数据运维数据权限申请及管理等功能的一站式数据开发平台 并能承担数据分析工作台 的功能。SQLSCANSQLSCAN 将在任务开发
2021-10-28 19:31:58
906
原创 《大数据之路:阿里巴巴大数据实践》笔记——数据同步篇
数据同步方式方式定义优点缺点直连同步通过定义好的规范接口 API 和基于动态链接库的方式直接连接业务库配置简单,实现容易,比较适合操作型业务系统的数据同步对源系统的性能影响较大数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。当数据源包含多个异构的数据库系统(如 MyS QL Oracle QL Server DB2 等)时,用这种方式比较简单、实用;互联网
2021-10-27 19:52:00
433
原创 WordCount的6种写法(包括spark和flink版)
package com.gaodongxu.testimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.flink.streaming.api.scala._import org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.streaming.api.scala.StreamExecu.
2021-06-29 15:41:56
230
原创 一张图了解MapReduce全流程
先上图目录〇、Job提交流程0.WordCount源码:1.waitForCompletion2.submit3.submitJobInternal一、getSplits:输入文件分片二、RecordReader:读取文件三、Map四、环形缓冲区:溢写到磁盘五、shuffle:分发〇、Job提交流程0.WordCount源码:...
2019-05-23 20:58:09
557
原创 大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境
这么长时间没有写博客,期间也发生了很多事情,我也一不小心从萌萌的开发变成了萌萌的数据。我在写这篇博客的时候还是数据方面的初学者,一来可以回顾总结自己最近学习的内容,督促自己更快更仔细的学习;二来可以为和我一样的初学者提供方便,不必花很多精力去找一些资源和技巧或者环境的搭建,而是专注于知识的学习。工欲善其事,必先利其器。要想学好大数据,得先有大数据方面的环境。我看过网上很多搭建的教程,自己一...
2019-03-14 19:43:28
4841
12
原创 Java大数加减乘法
加减法就是模拟笔算的过程,包括进位和借位。乘法若用笔算过程,时间复杂度为O(n2)。现有Karatsuba算法,时间复杂度为O(nlog23) 。原理如下: 比如1234*5678,先把数字拆为12, 34和 56, 78 令z=34*78 r1=12*56*10000 r2=(12*78+34*56)*100 =((12+34)*(56+78)-34*78...
2018-04-08 18:54:44
571
原创 SQL实例展示常用语法
SQL:结构化查询语言(Structured Query Language)留存率现有一表Retention如下 id name register_time logout_time 101 Anna 2018-01-01 00:00:01.000 2018-01-02 00:00:01.003 … … … …r...
2018-04-05 17:23:40
414
原创 Const关键字
const限定一个变量不允许被改变,产生静态作用。使用const在一定程度上可以提高程序的安全性和可靠性。一、const修饰变量 const int n=5; int const n=5;这两种写法是一样的,都是表示变量n的值不能被改变了,需要注意的是,用const修饰变量时,一定要给变脸初始化,否则之后就不能再进行赋值了。 const char* str=”f...
2018-04-02 16:24:35
246
原创 Java Poi操作Excel写入数据并设置style
向Excel中写入数据,并再追加一遍相同的数据ExcelWriter.writeToExcel方法可以向指定excel表中写入mapList中的数据;ExcelWriter.addToExcel方法可以向指定excel表中追加mapLit中的数据;
2018-01-21 14:15:43
6737
5
原创 Static关键字
三个特性总结:共享:在全局数据区分配内存,只会有一份拷贝。 被(多次调用的静态局部变量所在)函数共享 被(静态方法或变量所在类的所有)对象共享隐藏:静态全局变量只能被所在文件使用
2017-11-22 09:56:03
323
原创 Servlet+Tomcat搭建Http服务
1、下载TomcatTomcat官网下载:http://tomcat.apache.org/ 要确保Tomcat与JDK版本对应,此文中采用的是Tomcatv8.0和JDK1.7 查看各版本对应:http://tomcat.apache.org/whichversion.html2、建web项目打开eclipse File -> New -> Dynamic Web Project ->
2017-11-09 16:58:17
795
转载 朴素贝叶斯法
学习与分类算法先从训练数据中计算先验概率和条件概率,然后对于给定的实例计算最大的条件概率,输出该条件对应的类别。 贝叶斯估计最大似然估计有个隐患,假设训练数据中没有出现某种参数和类别的组合怎么办?此时估计的概率值为0,但是这不代表真实数据中就没有这样的组合。解决办法是采用贝叶斯估计1、条件概率的贝叶斯估计:
2017-10-13 15:21:04
395
原创 优快云-markdown黑色背景代码生成
不用代码解决生活中问题的程序员,不是一个好程序员 —— gdx(高大侠)从我写博客之初,一直都想在博客里贴看起来高大上的 黑色背景五彩缤纷的代码,但苦苦搜索之后仍受限于博客自带的编辑器。终于,功夫不负有心人,在知道优快云博客的markdown编辑器用的是html4语法之后,我找到了一个方法。
2017-09-23 14:16:08
11744
1
转载 k近邻法之kd树
k近邻算法给定一个训练数据集,对新的输入实例,在训练数据集中找到跟它最近的k个实例,根据这k个实例的类判断它自己的类(一般采用多数表决的方法)。k近邻模型模型有3个要素——距离度量方法、k值的选择和分类决策规则。模型当3要素确定的时候,对任何实例(训练或输入),它所属的类都是确定的,相当于将特征空间分为一些子空间。
2017-09-22 15:20:05
557
原创 TextRank算法抽取关键词
PageRank由于TextRank是由大名鼎鼎的Google的PageRank算法转化而来,所以这里先介绍一下PageRank算法。PageRank最开始用来计算网页的重要性。在衡量一个网页的排名时,直觉告诉我们: (1)一个网页被更多网页链接时,就应该越重要,其排名就应该越靠前。 (2)排名高的网页应具有更大的表决权,即当一个网页被排名高的网页所链接时,其重要性也应该提高。
2017-09-17 21:38:40
13278
1
原创 感知机学习算法的对偶形式
本文相对于原文在代码中添加了自己的理解和注释,省略推理过程,想看原理推导的请参考原文:http://www.hankcs.com/ml/the-perceptron.html
2017-09-12 15:17:56
13273
3
原创 感知机
本文省略推理过程,直接上算法过程和代码,想看原理推导的请参考原文:http://www.hankcs.com/ml/the-perceptron.html概念感知机是二分类模型,输入实例的特征向量,输出实例的±类别。
2017-09-11 16:34:27
2451
1
原创 gson实用方法附jar包
1、下载gson所需jar包链接:http://pan.baidu.com/s/1gfP8Zrt 密码:d994 共需要四个jar包,分别为: gson-2.0.jar log4j-1.2.17.jar slf4j-api-1.7.10.jar slf4j-log4j12-1.7.10.jar2、导入jar(1)先把jar包放在项目的lib文件夹下,没有的话可以新建lib文件夹(2)右键项
2017-08-14 19:34:01
26218
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人