平平无奇的小天才呀-优快云博客

原创大数据生态和Spark简介

一、大数据生态1.大数据的概念大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性2.大数据的特点（1）数据量大根据IDC做出估测，数据一直都以每年50%的速度增长，也就是说每两年就增长一倍（大数据摩尔定律）（2）数据类型繁多大数据是由结构化和非结构化数据组成的10%的结构化数据，存储在数据库中90%的非结构化数据，他们与人类信息密切相关（3）处理速度快从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少1秒定律：这一点也是和传统的数据挖掘技

2021-02-27 13:26:51 312

原创 Spark简介

1.Spark的特点（1）运行速度快使用DAG执行引擎以支持循环数据流与内存计算（2）容易使用支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程（3）通用性Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组（4）运行模式多样可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源2.Spark的前景

2021-02-27 12:35:28 391

原创 2020-11-29

关于python的第五篇笔记1.面向对象一种编程思想，是针对于大型程序，复杂逻辑开发时使用的编程思想2.抽象把看着像的东西，统称为一类3.封装将属性（变量）和方法（函数）定义到类中，可以隐藏部分或全部数据4.继承让子类继承父类的所有公有的属性和方法。5.多态让同一个方法在不同类中实现不同的功能6.类用于创建对象的模版。（属性（数据）和方法）。用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。7.对象类型（创造对象的类名），val

2020-11-29 18:18:05 161

原创 2020-11-24

关于python的第四篇笔记1.数据序列化与反序列化1）序列化将数据对象转为字符串，用于网络数据运输和数据存储2）反序列化将特定格式字符串转为数据对象的，用于在程序中运行2.js与python的区别js字符串"" 数组[]对象 true/falsepython字符串列表/元组字典 True/Falsedic = [ 'name':'wxc', 'age':

2020-11-24 19:09:15 201 1

原创 2020-11-17

关于python的第三篇笔记1.__name__属性一个模块被另一个程序第一次引入时，程序将被运行。用__name__属性来使该程序块仅在该模块自身运行时执行name Python解释器定义好的内置变量直接运行当前模块时，它的值是“main”，当模块被引用执行时，它的值是“模块文件的名字”或“包.模块名”print(__name__)print("国庆节快乐！")当模块被引用执行时，不执行if __name__=="__main__": print("被引用时不执行！"

2020-11-17 21:40:42 157

原创 2020-11-10

关于python的第二篇笔记1.文件的定义被持久化存储在磁盘上的字符串2.文件的操作1）读操作：将文件中的字符串加载进内存2）写操作：将字符串写入到磁盘中的操作例如：open函数用于读写文件print(help(open))3.参数1）file:文件名注意路径：绝对路径 r"C:\test\hello.txt" 相对路径 next\hello. txt2)encoding:指定open函数在读写文件时使用

2020-11-10 15:31:51 269

原创 2020-11-03

关于Python的第一篇笔记1.函数的定义简单来说就是一个被封装好的具有特定功能的代码段，它可以被重复使用定义一个函数可以把他们分为普通函数和匿名函数2.函数名的定义给封装好的代码段起个别名3.形参和实参1）形参：定义函数时，在函数名后圆括号内的参数叫形参，本质上一个局部变量，由于接收函数外部的数据，它是定义函数时定义的2）实参：调用函数时这个参数就叫实参，在函数调用执行时传递的数据为了更好理解，来看一个乘法表的函数的例子def fun99(x): #设置一个形参 for i in

2020-11-03 19:33:49 185

qq_52141334的博客