- 博客(46)
- 资源 (1)
- 收藏
- 关注
原创 编程语言基础练习题
1.输出1~100之间能被6整除的数2.创建两个整型变量:x,y,通过代码求这两个变量的最大公约数和最小公倍数,并打印到控制台上。 例如:x = 12, y = 56 结果:最大公约数是4,最小公倍数是1683.给一个变量x赋值为整数,将整数中的数字进行反转。 例如: x = 123 输出: 3214.给一个变量x赋值为整数,判断这个整数是否是回文数。回文数是指正序(从左向右...
2018-06-04 22:27:34
3411
原创 Python数据分析
(一)异常值分析 箱型图分析plt.figure()plt.rc('font', size=13)p = plt.boxplot(words_series.head(10),whis=1.5)plt.show()结合describe()函数查看数据的基本情况words_series.head(10).describe()以上两条结合起来过滤数据集中的无效数据。 (...
2018-03-21 17:30:36
382
原创 Linux下matpoltlib中文的乱码问题
①从Windows的D:\Windows\Fonts文件夹下把msyh.ttf拷贝到matplotlib的ttf文件夹下,我的文件夹目录是:/home/hadoop/app/anaconda3/lib/python3.6/site-packages/matplotlib/mpl-data/fonts/ttf②编辑matplotlibrc文件,此文件可以通过以下代码获得impor...
2018-03-16 18:20:28
328
原创 Linux上配置Jupyter Notebook
①生成配置文件jupyter notebook --generate-config②生成秘钥 使用python3进入python开发环境from notebook.auth import passwd passwd()会生成sha1密文 ③修改配置文件 vim ~/.jupyter/jupyter_notebook_config.pyc.NotebookA...
2018-03-15 20:30:27
3359
1
原创 Windows下使用Python
1.不需要单独下载Python,直接安装anaconda就可以了(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题),通过anaconda可以下载安装全部的Python组件 2.在anaconda中下载组件 ①打开Anaconda Prompt(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题) ②下载scrapy:conda install scrapy ...
2018-03-02 18:35:36
447
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(五)——购物篮分析
这个购物篮分析要先理解他在算什么,我的理解是通过购物小票上的购物信息,在指定规则下穷举全部的购物关联性。 1.模型解释 ①数据源 a、b、c、d分别代表一种商品,超市的购物小票数据如下(为了简单起见,取4条小票数据),每个小票中的商品必须按照一定的顺序进行排列,否则会出现重复计算的情况: a,b,c a,b,d b,c b,c ②定义模式长度为3,即最多只考虑3种商品的购买管理关系...
2018-02-05 18:42:00
1222
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(四)——移动平均
移动平均:对时序序列按周期取其值的平均值,这种运算被称为移动平均。典型例子是求股票的n天内的平均值。 移动平均的关键是如何求这个平均值,可以使用Queue来实现。public class MovingAverageDriver { public static void main(String[] args){ SparkConf conf = new SparkC
2018-02-01 17:04:26
1739
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(三)——Order Inverse
这章的名称叫反转排序,应该说让人非常的迷惑。 这里我觉得一篇Blog对Order Inverse的解释更合理一些(http://blog.youkuaiyun.com/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数
2018-01-30 14:36:54
420
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(二)——TopN列表
大数据计算力经常要面对TopN的问题,也就是一个大集合里取排序后的前N个数据。 1.Key值唯一 ①MapReduce: 在Map中使用SortedMap完成每个节点的TopN操作,然后所有节点将数据汇聚到Reduce节点,再次使用SortedMap完成TopN操作,其中setup()中做初始化工作,map()中构造SortedMap,在cleanup()中将生成的SortedMap输出给r
2018-01-29 14:33:15
584
原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(一)——二次排序
写在前面: 在做直播的时候有同学问Spark不是用Scala语言作为开发语言么,的确是的,从网上查资料的话也会看到大把大把的用Scala编写的Spark程序,但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容,最常见的就是某一个API是怎么用的,很多都是拷贝粘贴的重复内容,真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的,《数据算法-Hadoop/
2018-01-26 16:03:45
2492
原创 Spark学习阶段总结
学习Spark一段时间后,实际上是有些困惑的 如果说只针对数据操作的话,大部分算子都用过了,学习的成本并不高,因为之前是做Android开发的,所以感觉api方面好少,没有那么多东西需要掌握。但是实际上自己很清楚自己的水平,但是后续如何提升大概有几点想法。 1.相关的配置和使用,spark里面有大量的属性配置,好的配置可以提高运行效率。 2.spark里要完成同一件事,可以使用不同的算子组合
2018-01-25 15:26:23
326
原创 Spark开发中遇到的问题及解决方法
1.Windows下运行spark产生的Failed to locate the winutils binary in the hadoop binary path异常 解决方法: 1.下载winutils的windows版本 GitHub上,有人提供了winutils的windows的版本,项目地址是:https://github.com/srccodes/hadoop-co
2018-01-16 15:38:16
2139
原创 招聘网站技术类词频分析_第二版
目标: 大数据项目练习 需求: 从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求 使用框架: 平台:阿里云 爬虫:scrapy https://docs.scrapy.org/en/latest/index.html 中文分词:HanLP中文分词 https://github.com/hankcs/HanLP 日志收集:Flume 数据计算平台:
2018-01-15 17:36:28
585
原创 大数据学习笔记(十八)-MRUnit
MapReduce是跑在集群上的,这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看,但是这样效率很低,也很难定位问题,因为要每次打包,上传,执行jar包。 所以本地Debug单步调试非常的重要,调试的方法是使用MRUnit 在maven中添加MRUnit的依赖dependency> groupId>org.apache.mrunitgroupId
2018-01-05 15:47:40
284
原创 大数据学习笔记(十七)-MapReduce
1.在MapReduce中被分成了两类,map操作和reduce操作,1个job是由若干次map操作和1次reduce操作组成的。 在MapReduce中,最重要的就是理解数据在处理时都是以Key/Value形式输入输出的(在数据初始读入时,也是以Key/Value形式读入的) 2.对map、reduce操作的理解 ①map是映射:简单理解的话可以理解成遍历原有数据集中的所有数据,针对每一条
2018-01-04 18:25:56
503
原创 招聘网站技术类词频分析_第一版
目标: 大数据项目练习 需求: 从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求 使用框架: 平台:阿里云 爬虫:scrapy https://docs.scrapy.org/en/latest/index.html 中文分词:结巴中文分词 https://github.com/fxsjy/jieba 日志收集:Flume 数据计算平台:Hado
2017-12-28 17:42:13
655
原创 大数据学习笔记(十六)-Hue的安装部署和使用
1.安装Hue的依赖sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel make mvn mysql mysql-devel openldap-devel python-devel sqlite-devel
2017-12-27 15:47:04
539
原创 大数据学习笔记(十五)-大数据调度框架
1.常用框架 crontab 存在的问题:单机的 Azkaban 开源的工作流框架,批处理 https://azkaban.github.io/ Oozie http://oozie.apache.org/
2017-12-27 14:11:48
1925
原创 需要用到的Linux命令
1.默认级别转换为3(文本模式) ln -sf /lib/systemd/system/multi-user.target /etc/systemd/system/default.target2.或者默认级别转换为5(图形模式) ln -sf /lib/systemd/system/graphical.target /etc/systemd/system/default.target3
2017-12-25 15:48:33
332
原创 我用到的vi命令
vi命令: 1. i 进入输入模式,光标停留在当前位置 2. o 进入输入模式,插入新一行,光标位于新行行首 3. a 进入输入模式,光标位置向后移一位 4. nyy 拷贝从光标开始的n行 5. p 将复制的内容粘贴到光标下一行的位置 6. 输入模式下,:x保存退出 7. 输入模式下,:q不保存退出 8. 输入模式下,!表示强制执行 9. 查找一个字符串 一个
2017-12-25 15:43:39
205
原创 大数据学习笔记(十四)-Sqoop
1.版本 sqoop1为1.4.6以前的版本(包括) sqoop2为1.4.6以后的版本(不包括) sqoop1与sqoop2的构架是不同的 2.sqoop配置 conf/sqoop-env.sh#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/home/hadoop/app/hadoop-2.6.0
2017-12-25 15:26:56
243
原创 大数据学习笔记(十三)-Hive高级
1.Hive的元数据表 TBLS:TBL_ID、DB_ID、SD_ID、TBL_NAME、TBL_TYPE TABLE_PARAMS:存储表/视图的属性信息 TBL_PRIVS:存储表/视图的权限信息,一般不用HIVE的权限,而是用sentry来进行权限控制 SDS:保存文件存储的基本信息,比如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩 COLUMNS_V2:存储表对应
2017-12-20 17:25:49
245
原创 大数据学习笔记(十三)-SparkStreaming
1.概念 数据处理的基本单位:离散流(discretized stream或DStream) 支持容错 支持状态处理 支持窗口操作 2.DStream的基本操作 转化操作 窗口操作 输出操作 3.DStream特有API 参考:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.str
2017-12-19 16:51:11
208
原创 大数据学习笔记(十二)-SparkSQL
1.数据的分类 ①非结构化数据:文本、多媒体 ②结构化数据:数据库、格式化文本 ③半结构化数据:key-value、xml、tag 2.DataFrame和RDD的区别 DataFrame是带Schema的RDD 创建DataFrame的方法:scala>val ssc = new org.apache.spark.sql.SQLContext(sc)scala>val df = ss
2017-12-18 23:20:53
1946
原创 大数据学习笔记(十一)-Hive进阶
1.Hive的访问方式 ①Hive shell ②HiveServer&beeline ③HUE、Zepplin等WebUI的访问方式2.hiveserver2 ①启动: hiveserver2 ②使用beeline连接hive:beeline -u jdbc:hive2://hadoop000:10000/default -n hadoop 在运行的过程中我遇到了这样的问题,百度
2017-12-15 17:58:38
1075
原创 大数据学习笔记(十)-Hive中的Storage format
1.Storage format 行存储:SEQUENCEFILE、TEXTFILE 列存储:RCFILE、ORC、PARQUET、AVRO 2.行存储VS列存储 行式存储: ①一行数据一定在一个block里 ②一行数据类型混杂,不容易获得很好的压缩比 ③不能支持快速查询列式存储: ①一行数据不一定在一个block里 ②查询时能够避免读取不必要的列 ③每一列存储数据类型相同,可以
2017-12-13 21:29:03
1420
原创 大数据学习笔记(九)-大数据中的压缩
1.常见压缩格式: gzip,bizp2,LZO,Snappy 2.压缩技术使用原则: 缩小体积则需要更多的CPU计算量,存储数据倾向于大压缩比的压缩技术,根据实际情况选择合适的压缩技术。 3.压缩在大数据计算中的一个重要考量是压缩技术是否支持分割(split) bzip2支持,LZO创建索引后支持 4.要让Hadoop支持压缩,需要对Hadoop源码进行编译
2017-12-13 14:59:09
2526
原创 大数据学习笔记(八)-Hive(基础)
1.下载Hive: http://archive.cloudera.com/cdh5/cdh/5/ 2.安装MySQL 参考:https://www.cnblogs.com/starof/p/4680083.html 其中关于my.cnf的设置是错误的,应改成: character-set-server=utf8 3./conf/hive-site.xml<?xml version=
2017-12-11 17:56:36
274
原创 大数据学习笔记(七)-Spark的图形化工具的使用
启动Spark集群:start-all.sh 进入集群的spark-shell: spark-shell –master=spark://hadoop000:7077 进入集群的WebUI管理界面:hadoop000:8080 打开EventLog: conf下的spark-defaults.conf开启配置:spark.eventLog.enabled truespa
2017-12-01 10:18:01
2047
原创 大数据学习笔记(六)-Spark的RDD
创建 RDD是Spark中的数据集,是只读的 RDD可以从集合,普通文件系统,HDFS文件系统中创建 scala创建RDD的方法val lines1 = sc.parallelize(List("aa","bb"))val lines2 = sc.textFile("file:///opt/spark/README.md")val lines3 = sc.textFile("hd
2017-11-28 20:32:44
314
原创 大数据学习笔记(六)-Spark环境配置
Spark版本:1.6.3 for hadoop2.6 下载地址:https://spark.apache.org/downloads.htmlScala版本:2.11.8 下载地址:http://www.scala-lang.org/download/2.11.8.htmlSpark配置: spark-env配置:export SPARK_MASTER_IP=hadoop0
2017-11-27 17:28:54
456
原创 大数据学习笔记(五)-HBase
参考文档: http://hbase.apache.org/book.html#faq HBase下载地址: http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz配置: 1.hbase-env.sh 配置JAVA_HOME export HBASE_MANAGES_ZK=false2.hbase-site.x
2017-11-21 09:54:29
241
原创 大数据学习笔记(四)-ZooKeeper
http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz
2017-11-19 20:53:00
302
原创 大数据学习笔记(三)-Yarn
简单来说Yarn就是一个资源调度管理器配置Yarn 参考文档:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html1.etc/hadoop/mapred-site.xml:cp mapred-site.xml.template mapred-site.xml<propert
2017-11-19 14:02:04
294
原创 大数据学习笔记-(二)启动集群&配置IDE环境
1.启动集群,格式化文件系统 bin/hdfsnamenode−format2.启动 bin/hdfs namenode -format 2.启动 sbin/start-dfs.sh 3.验证集群是否启动成功 1)jps 2)浏览器访问:hadoop000:50070hdfs shell 1.文件操作 hadoop fs搭建maven开发环境 下载maven3.3.9:h
2017-11-06 15:31:14
414
原创 大数据学习笔记-(一)准备
视频课程位置: http://www.kgc.cn/job/oe/24809.shtml 虚拟机VMware14: https://www.52pojie.cn/thread-648896-1-1.html CentOS版本选择CentOS7: http://mirrors.cn99.com/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1
2017-11-03 16:52:02
491
原创 Google官方刷题资源-基础题-第四题~第八题
这几道题都是一个编程测试网站(http://codingbat.com)上的题。这个网站不具备代码提示功能,编译后成功后,会给出测试数据。有点像ACM刷题网站,不过更适合Java Beginer。不过由于这网站是英文的,理解题意反而是个问题。 第四题(http://codingbat.com/prob/p117334): Given a non-empty string like “Code”
2017-09-08 22:33:51
699
翻译 Google官方刷题资源-基础题-第一题
题目:从字典中找出给给定字符串的最长子串 考察目的:测试优化代码的数据结构与算法能力 题干:有一个字符串S和单词集合D,从D中找出一个符合条件的单词,这个单词是字符串S的最长子串。单词是W是字符串S的子串的条件是,从字符串S中删除不定数量的字母(删除数可以为0)且不改变原有字母的顺序,能够将字符串S变成单词W。注意:集合D可是一任何形式的集合(list,hash table, prefix tr
2017-09-07 21:57:53
1117
原创 遇到Kotlin使用中的问题,及解决办法
1.使用Activity的this对象。 在Activity中经常要用到Context,在Java中这很容易,假如当前Activity是MainActivity。那么在这个Activity的任何地方,都可以使用MainActivity.this获得Activity的对象。 但是在使用Kotlin时,网上能够查到的代码都是这样获取Activity对象的MainActivity@this在一般情况下
2017-09-07 18:52:53
1660
原创 Google官方刷题资源
恩,Google也有官方刷题资源了,通过这个网站(https://techdevguide.withgoogle.com/)可以看看对于Google来说作为一个程序员你需要掌握哪些东西。 不过这个网站是英文的,昨晚看了一下,鉴于自己的英语水平和数据结构水平,第一题就没做出来。。。Google 针对不同受众还提供了三条学习路线:Foundations Path:面向比较喜欢基础内容的开发者。 Ad
2017-09-07 11:01:03
812
Google ARCore Sample APK
2017-08-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人