- 博客(37)
- 收藏
- 关注
原创 CDH环境搭建遇到问题
问题描述:启动agent时失败,检查日志文件,发现如下 /opt/cloudera-manager/cm-5.3.8/lib64/cmf/agent/build/env/bin/python: error while loading shared libraries: libpython2.4.so.1.0: cannot open shared object file: No such f...
2018-07-11 16:02:42
949
原创 Kafka篇
Kafka介绍 百度介绍 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可>以处理消费者规模的网站中的所有动作流数据。自我理解 kafka 消息中间件 mq 消息队列:一种应用程序对应用程序的通信方法。核心思想 publish&subscribe(发行和订阅:即生产消费者模式)重...
2018-03-26 17:26:36
270
原创 网络爬虫及scrapy爬虫框架介绍
爬虫介绍 爬虫介绍 无人值守的自动下载网页内容的手段,只要支持TCP网络编程的所有语言都可以实现爬虫 python爬虫火的原因 代码少。框架丰富,语法简洁 爬虫在技术上怎么实现 1:tcp能够连接–http 2:以流的形式读取并保存 产生爬虫框架的原因 tcp能够连接 问题1.由于有些服务端设置了请求头部的校验 问题2.有些页面的...
2018-03-26 17:24:57
382
原创 flume篇
flume介绍 日志数据收集器flume使用步骤 定义source,channel(通道),sink(转存的位置) 启动agent 如果有数据,就已经开始接受转存了 flume运行机理flume type介绍 source type Avro, Exec, Jms, Spooling directory, Ne...
2018-02-27 16:34:19
229
原创 Spark编程、RDD 功能介绍、RDD 元素变换、RDD 元素操作、DATAFRAME、SparkSQL
spark中起到driver和worker之间的桥梁的是?SparkContext sc 组织rdd之间依赖关系划分stage的是 DAGSchedule 管理taskSet的是? TaskSchedule 说出rdd中多台机上(worker)上执行的懒算子(变换) map flatMap join(两个rdd数据加一起) groupByKey redu...
2017-12-23 16:15:53
650
原创 PySpark统计字母出现次数的平均值,及利用IPython (Jupyter) Notebook统计datas.csv数据
spark: 步骤: 1.start-dfs.sh 2.pyspark 3.[('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c',5),('d',9),('c',7),('d',6)] 4.求出每个字母后面数字出现的平均值
2017-12-23 16:02:14
4725
原创 Spark简介及其生态圈及Spark-core运行机理
hdfs:hadoop分布式系统 spark主要使用了hadoop中hdfs1 spark 用什么语言实现的? Spark使用Scala语言进行实现,Scala 建立在JAVA之上 scala:是一个多范式编程语言,学习难度大于Java、python.语法灵活简单 pyspark:使用python语言进行实现。python的函数库非常丰富,后期便于学习ML(机器学习)。2.
2017-12-23 15:14:10
417
原创 使用scala,python完成统计数据demo
环境变量修改为: export JAVA_HOME=/home/hadoop/opt/jdk1.8.0_152export PATH=PATH:PATH:JAVA_HOME/binexport HADOOP_HOME=/home/hadoop/opt/hadoop-2.9.0export HADOOP_CONF_DIR=/home/hadoop/opt/hadoop-2.9.0/etc/hadoo
2017-12-16 15:17:28
579
原创 CentOs7搭建hadoop集群(伪分布式)下
在yarn-site.xml新增 ` <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> ` 开启服务:`start-yarn
2017-12-15 20:13:04
335
原创 CentOs7搭建hadoop集群(伪分布式)上
运行环境:CentOs7 所需工具:VMWare12,XShell(连接虚拟机),XFtp(文件传输) 所需Jar包:jdk-9.0.1_linux-x64_bin.tar.gz,hadoop-2.9.0.tar.gz,spark-2.2.1-bin-hadoop2.7.tgz 略过CentOs7安装,注意!虚拟机ip需要和VMnet8处在同一网关,网络建议为:NAT连接 ———将以上工作完
2017-12-15 20:00:31
466
原创 简述大数据
大数据:学术解释:满足以下四个特征的数据: Volume(大量) Velocity(高速) Variety(多样) Veracity(价值)自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE相应的实现技术:HDFS、MapReduce HDFS:解决大文件如何存储?如何快速的读写?如何容错
2017-12-15 19:35:44
630
原创 简单操作play框架
play简介: play framework是一个full-stack(全栈的)Java Web的应用框架,包括一个简单的无状态MVC模型,具有Hibernate的对象持续,一个基于Groovy的模板引擎,以及建立一个现代Web应用所需的所有东西。play安装及使用我们将已经下载的play框架的安装包解压在D:\Play框架 进入解压好的文件夹D:\Play框架\play-1.4.5,
2017-12-04 11:51:27
796
原创 Django中使用easyui
---Django中使用easyui1.我们在上一篇的demo基础上,新建easyui目录,并将easyui的有关支持(locale包、themes包、jquery.easyui.min.js、jquery.min.js)放该目录下2.修改goods.html先引用easyui目录下所需的js、css(注意!jquery.min.js需在jquery.easyui.
2017-11-16 17:26:02
1854
原创 Django访问静态资源及连接mysql数据库(反向生成表)
---Django项目中一般不允许存在静态资源,我们为了演示。特做了一个小demo---demo结构为:其中static为静态资源存放的目录,goods为新生成的application(点击Tools中的run manager.py,输入startapp goods)-----Django访问静态资源首先我们在static中建一个goods.html---set
2017-11-16 16:09:05
568
原创 Nginx+Redis+Tomcat7
------Nginx的介绍Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。反向代理:在计算机世界里,由于单个服务器的处理客户端(用户)请求能力有一个极限,当用户的接入请求蜂拥而入时,会造成服务器忙不过来的局面,可以使用多个服务器来共同分担成千上万的用户请求,这些服务器提供相同的服务,对于用户来说,根本感觉不
2017-11-11 21:05:21
386
原创 Django
----认识Django: Django是一个开放源代码的webMVC框架 M:entity framework V:view.py C:urls.py -------一览Django结构:
2017-11-05 23:01:07
279
原创 正则
正则对数据处理,数据分析,数据校验方面十分有用。让我们来学习下python中的正则模块吧---------------------分割线---------------------python中正则模块re(regex的意思)常用的模式: .匹配任意字符,除了换行符 \s一个空格 \S一个非空格 \d表示一个数字 \D表
2017-11-05 22:31:19
219
原创 Python Mysql
我们来学习一下python如何操作Mysql数据库首先,我们需要下载PyMySQL模块,利用PIP命令:pip install PyMySQLok..,让我们开始操作数据库吧-----------------------华丽的分割线-----------------------------操作grade表(新增,删除)-----impor
2017-11-03 12:58:53
250
原创 Scoket网络编程(python/Java版)
'''网络:计算机与计算机之间的通信 协议: TCP:可靠,有状态,长连接的协议(具有应答机制) 主叫方 被叫方 服务套接字(socket) 客户套接字 == 客户套接字 UDP
2017-11-02 21:03:38
457
原创 Python3中有关TK模块
GUI中Tkinter详细介绍Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。由于 Tkinter 是内置到 python 的安装包中、只要安装好 Python 之后就能 import Tkinter 库、而且 IDLE 也是用 Tkinter 编写而成、对于简单的图形界面 Tkinter 还是
2017-10-30 23:18:20
6691
原创 Redis及如何在Java中使用Redis
Redis 简介Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis 与其他 key – value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,
2017-10-30 23:05:06
1956
原创 python多线程
学习Python线程:Python3 线程中常用的两个模块为: _thread threading(推荐使用) thread 模块已被废弃。用户可以使用 threading 模块代替。所以,在 Python3 中不能再使用”thread” 模块。为了兼容性,Python3 将 thread 重命名为 “_thread”。Python中使用线程有两种方式:函数或者用类来包
2017-10-11 21:12:18
253
原创 迭代器与生成器
迭代器(iterator)iterator: 迭代器对象,也属于python的名词,只能迭代一次。需要满足如下的迭代器协议定义了__iter__方法,但是必须返回自身定义了next方法,在python3.x是__next__。用来返回下一个值,并且当没有数据了,抛出StopIteration可以保持当前的状态自定义iterator 与数据分离说到这里,迭
2017-10-09 12:58:52
224
原创 mycmd Demo
import osimport shutilimport timecurrPath=os.path.dirname(os.path.abspath(__file__))#动态获取当前路径n=currPathdef help(cmd=None): if cmd is None or len(cmd)==0: with open(n+'\help
2017-10-05 10:26:57
378
原创 自定义异常(Java/python版)
自定义异常为什么要使用自定义异常,有什么好处?1.我们在工作的时候,项目是分模块或者分功能开发的 ,基本不会你一个人开发一整个项目,使用自定义异常类就统一了对外异常展示的方式。2.有时候我们遇到某些校验或者问题时,需要直接结束掉当前的请求,这时便可以通过抛出自定义异常来结束,如果你项目中使用了SpringMVC比较新的版本的话有控制器增强,可以通过@Contro
2017-09-25 21:07:56
413
原创 IO(JAVA/python版)
Java IO流学习总结Java流操作有关的类或接口:Java流类图结构: 流的概念和作用流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象。即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输特性将流抽象为各种类,方便更直观的进行数据操作。 IO流的分类根据处理数据类型的不同分为:字符流和字节流根据数据流向
2017-09-25 20:57:17
266
原创 python字符串排序(按输入顺序/按字符出现次数/按字符)
'''abcccab 控制台输入abcccab 第一版按照控制台输入进行排版,第二版按字符出现次数,第三版按字符顺序(a.b.c..的顺序)排版a=2b=2c=3c=3b=2a=2c=3a=2b=2'''''法一利用类+列表 进行排序操作'''class charAndCount: def __init
2017-09-23 08:13:41
12856
原创 继承、多态及排序(python/java版)
继承: (1)Java:继承实质为多态,多态解决继承的尴尬 单继承,对象实例化过程很简单 对象实例化的过程:从祖父到自己的第一个构造方法实例化的过程 A B extend A C extendBnew C() Object--A--B--C (2)Python:继承代码的复用多继承:默认子类不会调用父类的构造
2017-09-20 21:17:23
356
原创 二叉树、list单向链表的实现( python版 Java版)-17-9-18
Java版:二叉树:myBtree类:public class myBtree { private Node root; class Node{ private int data; private Node left; private Node right; public
2017-09-20 21:01:21
607
原创 python类方法、静态方法、实例方法-17.9.17
python类方法、静态方法、实例方法-17.9.18.实例方法:只能通过实例调用,实例方法定义的第一个参数是实例参数只能是实例本身的引用(self).(实例就是对象.)eg:class m: def foo(self): print(id(self)) #打印第一个参数self的内存地址a=m(); #创建实例aprint(id(a)) #_1 打
2017-09-18 17:47:43
437
原创 python_test_2
1.描述元组和列表的区别2. 请代码实现:利用下划线将列表的每一个元素拼接成字符串,li = ['alex','eric','rain']3.写代码,有如下列表,按照要求实现每一个功能li = ['alex','eric','rain'] a.计算列表长度并输出b.列表中追加元素"seven",并输出添加后的列表c.请在列表的第1个位置插入元素"Tony",并输出
2017-09-15 13:50:52
837
原创 python_test_1
Python之基础练习题1、简述位、字节的关系 bit :位 : 一个二进制数据0或1,是1bit; byte:字节 : 存储空间的基本计量单位,如:MySQL中定义 VARCHAR(45) 即是指 45个字节; 1 byte = 8 bit2、Python单行注释和多行注释分别用什么? 单行注释:# 多行注释:''' 或者 '''
2017-09-15 13:42:46
1402
转载 python有关的知识
1 Python的函数参数传递看两个例子:Python 12345a = 1def fun(a): a = 2fun(a)print a # 1Python 12345a = []def fun(a): a.append(1)
2017-09-15 13:29:10
294
原创 python装饰、类(构造,私有化字段,封装方法)
#装饰import typesdef shucai(n): print("蔬菜:7") if type(n) == types.FunctionType: return n()+7 return n + 7def yangrou(n): print("羊肉:38") if type(n) == types.FunctionT
2017-09-15 13:16:43
929
原创 python笔记_3
--------------------------------3''' %3(num人) Game 实现思路 利用循环遍历 将%3==0的永久删除,将%3!=0的暂时删除,并将它追加到列表最后 num = int(input("请输入一个整数:")) mylist=[] for i in range(1,num+1): mylist. appen
2017-09-13 18:22:10
102
原创 python笔记_2
--------------------------------2''' 字符串操作 ccc = "我爱中国爱我" ccc[0:2]:截取 ccc.replace("old","new",count):替换 print("ai" in ccc):判断是否包含 print(ccc.endswith("中",2,4)):判断[2,4)中是否以"中"结尾
2017-09-13 18:20:38
95
原创 python笔记_1
#倒序输出for i in reversed(range (1,10)): print(i)#99乘法表for i in range(1,10): for j in range(1,i+1): print(i,"*",j,"=",i*j,"\t",end="") print()#猜随机数gameimport ran
2017-09-07 22:07:04
214
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人