柒鸢-------周东海-优快云博客

原创爬虫四种统计图带码--------周东海

线型图 import matplotlib.pyplot as mpl import numpy as np #定义数据 ypoints=np.array([1,3,9,25,12,32,5,1]) #数据插入到图表 # mpl.plot(ypoints,'o:g') # mpl.plot(ypoints,marker='o',linestyle=':',color='g') mpl.plot(ypoints,marker='o',ls=':',c='r') mpl.plot(ypoints,mark

2022-05-08 19:43:02 206

原创 sql复习-------周东海

sql复习 3大数据类型字符串 varchar char 日期 data time year 数值 int float double 增删查改增：insert into user(name,gender) values ("zhangsan","nan") 删:delete from user w...

2022-05-08 19:30:49 806

原创 MapReduce-----周东海

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。 Map类 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.map

2022-05-08 19:06:22 758

原创 hadoop，mapper-------周东海

import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class WordCountMap extends Mapper<LongWritable,Text, Te.

2022-05-01 19:45:23 136

原创 sql查询优化2.0------周东海

CREATE TABLE IF NOT EXISTS t(id INT,num INT DEFAULT 0,NAME VARCHAR(20)); CREATE INDEX ix_num ON t(num); DELIMITER $ CREATE PROCEDURE t() BEGIN #定义一个循环变量 DECLARE i INT DEFAULT 0; DECLARE d INT DEFAULT 0; WHILE(i < 1000) DO BEGIN SELECT i; SET i =.

2022-05-01 19:37:56 381

原创爬虫pandas，数据清洗-------周东海

import pandas as pd print(pd.__version__) #定义字典 mydataset = { 'sites' : ["Google","Runoob","WiKi"], 'number' : [1,2,3] } #将字典转换为dataframe，才能处理 mydf=pd.DataFrame(mydataset) print(mydf) a = [1,2,3] mysr = pd.Series(a,name="aha") print(mysr)...

2022-05-01 19:36:44 1118

原创 idea操作hdfs-------周东海

1.先配置windows的环境变量 2.创建工程 3.导入lib配置包 4.输入Java语句 import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net

2022-04-24 20:59:07 2261

原创 numpy函数------周东海

import numpy as np a = np.dtype(np.int32) print(a) # 数据类型对象 b = np.dtype(np.float32) # b = np.array([1, 2, 3]) # b = np.dtype('i4') # 创建数组，指定数据类型 c = np.array([1, 2, 3], dtype=b) print(c) # 定义数据类型 dt = np.dtype([('age', np.int8)]) # 用dt数据类型创建数组 e = ...

2022-04-24 20:00:15 967

原创 SQL查询优化-------周东海

SQL查询的时候尽量避免查询是不进行计算 2.避免丶情况 !=,<>, is null,is not null,in,not in; 例如 a语句 SELECT COUNT(*) FROM emp WHERE age IN(SELECT age FROM emp WHERE id > 100); 应该为 b语句 SELECT COUNT(*) FROM emp WHERE EXISTS(SELECT age FROM emp WHERE id > 100); 使用in时不

2022-04-24 19:26:47 91

原创 Hadoop安装--------周东海

先开始就给防火墙关掉指令为：#查看防火墙状态 service iptables status #关闭防火墙 service iptables stop #关闭防火墙开机启动 chkconfig iptables off 记得重启:reboot 解压自己传的jdk 指令为：tar -zxvf jdk压缩包还要更改配置文件 vim /etc/profile #在文件最后添加 expor...

2022-04-10 18:50:29 120

原创 xpath ----周东海

XPath 是一门在 XML 文档中查找信息的语言。 XPath 是 XSLT 中的主要元素。 XQuery 和 XPointer 均构建于 XPath 表达式之上安装：在终端输入 pip install lxml 基本使用： from lxml import etree s=""" <div> <ul> <li class="item-0"><a href="link1.html">f

2022-04-10 17:53:00 81

原创范式---周东海

第一范式：每一列都要保持原子性，不能再次分割。此表不符合第一范式,不符合关系型数据库的基本要求，在关系型数据库中创建这个表的操作就不能成功。应改为: 第二范式：属性必须完全依赖于主键，消除部分依赖。 “第二范式(Second Normal Form,2nd NF)是指每个表必须有主关键字(Primary key),其他数据元素与主关键字一一对应。通常称这种关系为函数依赖(Functional dependence)关系，即表中其他数据元素都依赖于主关键字,或称该数据元素惟一地被主关键字所标识

2022-04-10 17:39:29 552

原创 Hadoop，权限认知，Linux自有指令，ssh服务

1.权限认知 -rwxr--rw-. 十个字段由左到右分别是:1（文件类型）,2 - 4（文件所属者的权限），5 - 7（同组用户权限），8 - 10（其他人权限) r:可读 w:可写 x:可执行 root root 前面一个是文件所属，第二个是目前用户后面是时间和大小 15：文件夹名字 chmod 需要给谁的权限+什么权限文件名 chmod 777 文件名字 chown : 更改文件所属用户 #chown-R username文档路径 2.Linux.

2022-04-03 15:18:44 2338

原创 Hbase数据库，视图，事务，存储过程，触发器------周东海

视图 1.定义视图是指计算机数据库中的视图，是一个虚拟表，其内容由查询定义。同真实的表一样，视图包含一系列带有名称的列和行数据。但是，视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表，并且在引用视图时动态生成。 2.为什么用简单性。看到的就是需要的。视图不仅可以简化用户对数据的理解,也可以简化他们的操作。那些被经常使用的查询可以被定义为视图,从而使得用户不必为以后的操作每次指定全部的条件。安全性：通过视图用户只能查询和修改他...

2022-04-03 12:33:45 2808

原创 Python爬虫-----周东海

Scrapy安装与使用打开命令提示符下载安装Scrapy所必须的环境：优先下载python下载更新文件：python -m pip install --upgrade pip 然后在下载这四个：pip install wheel pip install lxml pip install twisted ...

2022-04-03 09:05:28 128

原创 Hadoop,shell脚本----周东海

1.shell是什么 Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。 Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。 2.shell脚本 Shell 脚本（shell script），是一种为 shell 编写的脚本程序。业界所说的 shell 通常都是指 shell 脚本，但读者朋友要知道，shell 和 shell script 是两个不同的概念。由于习惯

2022-03-20 17:34:26 1720

原创 python爬虫案例-----周东海

开始前先确认自己需要爬取的网页和导包 from urllib import request import re 定义url page=100 url='http://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page) from urllib import request import re #定义url page=100 url='http://tieba.baidu.com/f?kw=%E6%AE%

2022-03-20 13:21:50 698

原创 MySQL索引----周东海

1.什么是索引？一般的应用系统，读写比例在10:1左右，而且插入操作和一般的更新操作很少出现性能问题，在生产环境中，我们遇到最多的，也是最容易出问题的，还是一些复杂的查询操作，因此对查询语句的优化显然是重中之重。说起加速查询，就不得不提到索引了。 2.为什么要有索引呢？索引在MySQL中也叫做“键”，是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键，尤其是当表中的数据量越来越大时，索引对于性能的影响愈发重要。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高

2022-03-19 18:40:21 3387

weixin_57121160的博客