- 博客(18)
- 收藏
- 关注
原创 MapReduce--词频统计
复制一段:a,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw...
2018-11-11 10:30:54
582
转载 MapReduce——词频统计
使用hadoop2.7.41,首先准备数据,在网上随便抄了一段文章有一天,一个外来的僧人要到对面村庄去,临行前村民反复叮嘱他说:路途中如若看到路标被风刮倒或被掩埋,要重新树立起来,以免后面的人迷失方向。僧人刚上路时,牢牢记着村民嘱咐,丝毫不敢马虎,只要看到有路牌倒地或有歪斜就马上扶好,深怕不牢固有时还用脚踹踹四周的沙土。但当走了一段路后,僧人就揣摩着距离目的地不会太...
2018-11-09 19:00:15
1541
转载 hive启动失败报错
实测命令可以解决:hive --skiphbasecp --service hiveserver2 转发 环境说明hadoop-2.7.4hive-2.3.2hbase-1.4.2jdk1.8.0_161问题现象原先启动hiveserver2和metastore的两个服务一直运行状况良好,重启这个两个服务后都出现如下异常信息启动命令示例:h...
2018-11-09 17:03:41
2122
原创 hbase 安装配置
第一步:官网查找匹配zookeeper的hbase安装包,下载安装包,我是用的是hbase-1.2.6.1解压到合适位置,我的路径是/opt/modules/ tar -zxf hbase-0.94.6.tar.gz /opt/modules/ 第二步:配置相关的文件(1)配置hbase-env.sh,该文件在/opt/modules/hbase-1.2.6.1/...
2018-08-28 14:37:32
210
原创 ZooKeeper-3.4.13集群管理系统部署
1,下载, 解压缩到 /opt/modules (路径根据自己的来)2,配置 在conf/zoo_sample.cfg中,把zoo_sample.cfg复制为 -> zoo.cfg 在文件中配置 data 目录:(输入自己的目录,建立data目录) dataDir=/opt/modules/zookeeper-3.4.13...
2018-08-23 14:05:50
871
原创 搭建Hadoop
大数据环境搭建虚拟机仿真,与物理机设置完全相同一:系统准备1,在虚拟机中最小安装CENT OS7系统 视自己电脑内存大小而定: 虚拟机内存设置1G~2G CPU 1~4核心 硬盘20G~60Gyum install nano : 查看是否安装nano(测试是否有网络)2,设置虚拟机网络 查看虚拟机网络设置,记录网段和网关 禁用IPV6 编辑 /etc/default/grub 在第6行添加...
2018-07-15 16:28:51
224
原创 数据清洗 处理 概述
import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("student.csv")#读取student.csv文件 ...
2018-07-05 20:57:53
528
原创 破解idea,了解numpy
Window如何向虚拟机中拷贝文件1. 安装vmtools后可直接共享内存,这样就可以直接粘贴2. 通过xftp一类工具共享文件 编辑文件:viGendit 承载数据 item请求对象 request响应对象 response 引擎 engine蜘蛛 spider管道 pipeline中间件 middleware调度器 scheduler 破解idea(18版):通过网址获得http:...
2018-07-05 13:44:23
782
原创 Scrapy框架
Python: Tuple list set dict range str 分片 [::] 推导 函数: def 函数名称(参数): 实现函数体 参数种类: 必须参数 默认参数 关键参数 可变参数:tuple *a...
2018-06-24 12:49:50
192
原创 初窥Scrapy
ScrapyPython开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。 Scrapy运行流程1 引擎访问spider,询问需要处理的URL链接,spider收到请求,将需要处理的URL告诉引擎,然后将URL给引擎处理。...
2018-06-20 13:08:58
280
原创 Python3 XML解析
python有3种方法解析XML:SAX,DOM以及ElemenTree1、SAX(simple API for XML)python标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发事件并调用用户定义的回调函数来处理XML文件2.DOM(Document Object Model)将XML数据在内存中解析成一个树,通过对树的操作来操作XML。 movies.xml:<...
2018-06-18 16:33:49
1260
原创 python3-闭包
闭包&LEGB法则所谓闭包,就是将组成函数的语句和这些语句的执行环境打包在一起时,得到的对象00001. 闭包最重要的使用价值在于:封存函数执行的上下文环境;闭包在其捕捉的执行环境(def语句块所在上下文)中,也遵循LEGB规则逐层查找,直至找到符合要求的变量,或者抛出异常。 运行结果: def line_conf(a, b): def line(x): retur...
2018-06-10 13:20:57
589
原创 第六节 迭代器与生成器
迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:iter() 和 next()。 字符串,列表或元组对象都可用于创建迭代器:字符串,列表或元组==>(iterable object)可迭代对象迭代器是一个可以记住遍历的位置...
2018-06-06 15:57:44
186
原创 第五节 继承
print(sys.getrefcount(s)):测试一个对象有几个引用,需要导入import sys模板 构造方法包括创建对象和初始化对象,在python当中,分为两步执行:先执行__new__方法,然后执行__init__方法;__init__是当实例对象创建完成后被调用的,然后设置对象属性的一些初始值。__new__是在实例创建之前被调用的,因为它的任务就是创建...
2018-06-01 16:01:43
214
原创 python3类和对象
类的定义和实例化python定义简单类如下。class Car(object): passc1=Car() 我们定义了一个Car类,其中什么方法也没有实现。C1是我们实力化的类Car,成为了一个对象 可变参数(列表,字典,set),不可变参数(string,number,元组)全局变量(声明在函数外,如果在函数内使用则需要global),局部变量(声明在函数内)可变类型的对象为全局变量...
2018-05-30 17:03:33
345
原创 第三节
Python3 元组Python 的元组与列表类似,不同之处在于元组的元素不能修改。元组使用小括号,列表使用方括号。元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。 元组中只包含一个元素时,需要在元素后面添加逗号,否则括号会被当作运算符使用:>>> tup1 = (50)>>> type(tup1) # 不加逗号,类型为整型<class...
2018-05-25 10:39:36
205
原创 第二节
1.mystr:len(mystr) :字符长度 Mystr.count(“s”):返回有几个字符 Var.count(i):字符串有几个 capitalize(): mystr.capitalize()将字符串的第一个字符转换为大写 Rfind():从右面开始找Find():如果找不到,index()产生异常,find()返回-1Replace(“11”,”22”): 替换字符Startsw...
2018-05-23 16:02:56
484
原创 python第一节
.变量:无需关键字,不需要声明 n=10 2.python是一种强类型语言:每个变量都是一个引用 3.print()换行,不换行:print(,end="") 4.#注释 ’’’ 多行注释 ’’’ 5.数据类型:int,float,bool,complex(真正的值还是1,0,可以进行数字运算),复数 赋值运算: a=b=c=1, a,b,c=1,2,"runoob"...
2018-05-19 14:20:57
322
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人