
一年后毕业
想做架构师
这个作者很懒,什么都没留下…
展开
-
斐波那契数列 基本实现
斐波那契数列(斐波纳契数列),又称黄金分割数列,因数学家列昂纳多·斐波那契(Fibonacci数Leonardoda)以兔子繁殖为例子而引入,故又称为“ 兔子数列 ”,指的是这样一个数列:1,1,2,3,5,8,13,21,34,......在数学上,斐波纳契数列以如下被以递推的方法定义:F(1)= 1,F(2)= 1,F(n)= F(n-1)+ F(n-2)(n> = 2,...原创 2018-08-26 12:09:33 · 184 阅读 · 0 评论 -
MapReduce Partition Group 自定义类型输出排序 代码示例
给定电影数据,求出每个电影得分排名前二十的数据1.自定义Movie类想要在MapReduce类输入输出自定义类型,需要实现Writable类想要对自定义类输出排序,需要实现WritableComparable类,自定义排序规则package nue.edu.ls;import java.io.DataInput;import java.io.DataOutput;impo...原创 2018-08-24 15:59:07 · 554 阅读 · 0 评论 -
Python beautifulsoup+requets爬虫示例
一个简单的小python爬虫,因为时间原因,没有做翻页,谅解。写的不好,希望大家互相进步,一起成长后续将会更新Selenium,pyquery,scrapy,Ajax,动态代理,分布式scrapy等一些相关爬虫博客,请多关注爬取中华英才网特定地区的大数据工程师招聘信息并插入到数据库from bs4 import BeautifulSoupimport requestsimp...原创 2018-08-24 21:53:51 · 708 阅读 · 0 评论 -
Hive 复合类型存储
arrays: ARRAY<data_type> ) 示例:array类型的应用假如有如下数据需要用hive的表去映射: 战狼2,吴京:吴刚:龙母,2017-08-16 三生三世十里桃花,刘亦菲:痒痒,2017-08-20 设想:如果主演信息用一个数组来映射比较方便 建表:create table t_movie(moi...原创 2018-08-29 08:35:26 · 269 阅读 · 0 评论 -
堆排序 Java实现
堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序。 堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值。堆排序的基本思路: a.将无需序列构建成一个堆,根据升序降序需求选择大顶堆或小顶堆; b.将堆...原创 2018-08-25 15:40:39 · 993 阅读 · 0 评论 -
MapReduce Join拼接数据
读取两个数据,一个数据存放用户的id,性别和年龄,一个数据存放的电影的uid,id等信息但缺少用户信息,将二者拼接起来本次采用的是在reduce阶段拼接,也可以在map阶段拼接1.JoinBean今天碰到一个很尴尬的问题,read和write中的读写数据顺序必须一直,否则数据会混乱。检查了很久才发现,需要注意package nuc.edu.ls.extend;import j...原创 2018-08-25 17:46:12 · 669 阅读 · 0 评论 -
Hive 电影topN
数据:{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeStamp":"978302109"原创 2018-09-01 14:48:30 · 698 阅读 · 0 评论 -
Hive 小知识
CTAS建表语法1.通过以存在的表建表(类似与复制)create table t_user1 like t_user22.在建表 的时候插入数据create table t_user1 asselect * from t_user2数据导入导出方式1:导入数据的一种方式:手动用hdfs命令,将文件放入表目录;方式2:在hive的交互式shell中用hi...原创 2018-09-01 15:09:45 · 177 阅读 · 0 评论 -
Zookeeper 监控服务上下线
package nue.edu.ls;import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zook...原创 2018-09-04 14:28:41 · 1236 阅读 · 0 评论 -
Hbase JavaAPI
package nuc.edu.ls;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.H...原创 2018-09-04 16:57:14 · 158 阅读 · 0 评论 -
Hive 查询有连续三天销售记录的销售报表
数据:求解思路: 使用row_number函数打标记根据shopid分区,以time升序排列,根据date_sub(to_date(time),flag)生成对应日期 比如A分区中的五号标记和六号标记,如果根据data_sub生成的日期是一致的,那么这两天就是相邻的 eg: 五号标记 2015-3...原创 2018-08-30 11:24:10 · 1991 阅读 · 0 评论 -
Zookeeper 安装
简化:1:集群时间同步https://blog.youkuaiyun.com/qq_39184715/article/details/819757382:上传文件,解压 tar -zxvf xxxxxx -C /usr/local/3:修改zoo.cfg(拷贝zoo_sample.cfg)dataDir=/usr/local/zookeeper*/data //这里*需要补全为全部名字...原创 2018-09-03 09:51:24 · 9357 阅读 · 0 评论 -
ZooKeeper 命令行操作
create -s path data创建一个顺序节点。例如 create -s /a "www",得到的是/a23132,后面会加数字标识标识顺序create -e path data创建临时节点,在关闭会话以后临时节点会删除create path data创建永久节点set path data修改节点的内容get path [watch]得到所有节点的名字...原创 2018-09-03 10:20:33 · 210 阅读 · 0 评论 -
Zookeeper JavaAPI
package nue.edu.ls;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper...原创 2018-09-03 14:06:25 · 163 阅读 · 0 评论 -
Python 小说爬虫
很久以前自学python写的爬虫,爬的是www.biqiuge.com的圣墟,更换get_page_start的书号和少许正则可以爬其他小说因为是那会自学写的爬虫,有点没有章法,请见谅import requestsfrom requests.exceptions import ConnectionErrorimport redef get_page_start(): p...原创 2018-08-24 14:18:23 · 554 阅读 · 0 评论 -
Hive 查找app每天的新增用户
新增用户思路:1:抽取出来当天活跃用户 etl_user_active_day,2: 拿当天活跃用户跟历史用户做对比(得出当日的新增用户)3:增加新增用户到历史记录表里面4:对当日新增用户进行各维度统计/** 历史用户表 **/create table etl_history_user(uid string);/** 创建一个每日新增用户表 **/create...原创 2018-08-31 15:12:00 · 2937 阅读 · 0 评论 -
梯度下降法 Java实现
梯度下降法,最常用的优化算法。每一个机器学习模型都有一个目标函数,而学习的目标,就是最小化目标函数。如果目标函数又是凸函数,那么学习的目标自然转化成了寻找某个凸函数的最小值。梯度下降法的过程:随机取一个自变量的值 x0x0; 对应该自变量算出对应点的因变量值:f( x0x0); 计算 f( x0x0) 处目标函数 f(x) 的导数; 从 f( x0x0) 开始,沿着该处目标函...原创 2018-08-27 15:00:12 · 2271 阅读 · 0 评论 -
MapReduce练习 自定义输出类型
练习题:检索出每个二级域名的总流量(总上行流量+总下行流量)数据:18878724052 http://www.edu360.cn 10047 1134415522957721 http://weibo.com/?category=1760 18751 560518133396282 https://image.baidu.com 12276 941115565139582 htt...原创 2018-08-23 09:43:52 · 630 阅读 · 0 评论 -
MapReduce练习 共同好友
感觉这是一篇失败的代码,虽然实现了功能,但感觉只是强行与MapReduce沾边,不用MapReduce反而写的少。1.mappackage nuc.edu.ls.friends;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;...原创 2018-08-22 21:08:01 · 344 阅读 · 0 评论 -
MapReduce 经典案例 WordCount
注意事项:提交任务时,经常出现权限问题。在windos配置环境变量HADOOP_USER_NAME,调用System.properties方法即可。从windows到linux也需要打包成jar放到指定路径1.mappackage nuc.edu.ls;import java.io.IOException;import org.apache.hadoop.io.IntWritab...原创 2018-08-22 15:43:02 · 1215 阅读 · 0 评论 -
HaDoop集群时间不同步的处理方法
集群时间不同步,会导致各种各样的Bug发生。下面介绍一种一劳永逸的方法常规的有date -s '2018-8-15 16:03'或者ntpdate 0.asia.pool.ntp.org这些命令来解决,但是过一段时间后,时间又会不同步解决方法:yum install -y ntp构建一个定时器命令行输入 crontab -e新增一行 * * * * * /us...原创 2018-08-23 10:20:46 · 3348 阅读 · 0 评论 -
MapReduce 共同好友
昨天写的代码并不符合MapReduce的思想,今天重新写了一篇数据:A:B D EB:A C FC:A D ED:A B C DF:C D E GE:A D共分两次MapReduce过程第一次MapReduce 得到PeopleA 含有PeopleA好友的所有人的集合package nuc.edu.ls.friends.Final;import java...原创 2018-08-23 11:13:53 · 325 阅读 · 0 评论 -
MapReduce setup map(reduce) cleanup示例
继承Mapper类可以重写三个方法 1.setup 每一个map在创建时执行的方法,也就是说该方法只执行一次,一般用来做一些准备工作,如获得文件名等2.map 真正执行分类操作的方法。3.cleanup在map完成任务销毁时执行的方法,也只执行一次,一般用来做一些收尾工作这三个方法都可以像reduce传送数据代码 取每个电影二十条数据(排序前面写过了,就不...原创 2018-08-27 16:56:15 · 2260 阅读 · 0 评论 -
Java关键字 static
刚才上网的时候看到一个很逗的帖子大致如下: 为什么空对象可以调用米方法,而不可以调用Ñ方法。很简单,静态的关键字,即静态的意思。被静态修饰的,先于类创建,随着类的销毁而销毁。更与对象无关。所以空对象,调用也会成功,且调用静态方法,不需要对象名。方法名的形式,而是类名。方法名的方式,此举虽然没错,也是脱裤子放屁。被静态修饰的,还有一个特性,即不同地方的状态保持一致...原创 2018-08-27 17:17:34 · 226 阅读 · 0 评论 -
MapReduce WordCount 多文件处理
数据:代码:package nuc.edu.ls.readmore;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;public class Word implements Writa...原创 2018-08-23 15:18:53 · 1065 阅读 · 0 评论 -
MapReduce练习
1,4代表1 2 3 4 1到4之间所有数字其中有垃圾数据a,b求出每一个数字出现的次数package nuc.edu.ls;import java.io.File;import java.io.IOException;import org.apache.commons.io.FileUtils;import org.apache.hadoop.conf.Confi...原创 2018-08-22 16:40:00 · 664 阅读 · 0 评论 -
Hive安装与配置(需搭建好hadoop集群)
hive的安装1:上传解压hive tar -zxvf ***** /usr/local/2:安装mysql,添加开机自启 chkconfig mysql on3:配置hive-site.xml 在安装目录/conf下新建,粘贴下面这段代码(高版本mysql需要ssl)<configuration><property>&l...原创 2018-08-28 10:38:42 · 1930 阅读 · 0 评论 -
Hive 茄子快传案例
多维度统计分析茄子快传用户信息数据截图:1.MR编程,将JSON数据转化,剔除脏数据,上传到Linux的package nuc.edu.ls;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;...原创 2018-08-31 09:21:17 · 980 阅读 · 0 评论 -
Python 生成验证码图片
使用pillow生成验证码图片其中的Arial.ttf可以百度下载from PIL import Image,ImageDraw,ImageFont,ImageFilterimport randomdef getChar(): return chr(random.randint(65,90))def getColor(): return (random.ra...原创 2018-08-28 16:59:13 · 5316 阅读 · 0 评论 -
HBase MapReduce
package nuc.edu.ls;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Mutation;impor...原创 2018-09-06 10:51:07 · 152 阅读 · 0 评论