自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 爬虫四种统计图带码--------周东海

线型图 import matplotlib.pyplot as mpl import numpy as np #定义数据 ypoints=np.array([1,3,9,25,12,32,5,1]) #数据插入到图表 # mpl.plot(ypoints,'o:g') # mpl.plot(ypoints,marker='o',linestyle=':',color='g') mpl.plot(ypoints,marker='o',ls=':',c='r') mpl.plot(ypoints,mark

2022-05-08 19:43:02 206

原创 sql复习-------周东海

sql复习 3大数据类型 字符串 varchar char 日期 data time year 数值 int float double 增删查改 增:insert into user(name,gender) values ("zhangsan","nan") 删:delete from user w...

2022-05-08 19:30:49 806

原创 MapReduce-----周东海

Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。 Map类 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.map

2022-05-08 19:06:22 758

原创 hadoop,mapper-------周东海

import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class WordCountMap extends Mapper<LongWritable,Text, Te.

2022-05-01 19:45:23 136

原创 sql查询优化2.0------周东海

CREATE TABLE IF NOT EXISTS t(id INT,num INT DEFAULT 0,NAME VARCHAR(20)); CREATE INDEX ix_num ON t(num); DELIMITER $ CREATE PROCEDURE t() BEGIN #定义一个循环变量 DECLARE i INT DEFAULT 0; DECLARE d INT DEFAULT 0; WHILE(i < 1000) DO BEGIN SELECT i; SET i =.

2022-05-01 19:37:56 381

原创 爬虫pandas,数据清洗-------周东海

import pandas as pd print(pd.__version__) #定义字典 mydataset = { 'sites' : ["Google","Runoob","WiKi"], 'number' : [1,2,3] } #将字典转换为dataframe,才能处理 mydf=pd.DataFrame(mydataset) print(mydf) a = [1,2,3] mysr = pd.Series(a,name="aha") print(mysr)...

2022-05-01 19:36:44 1118

原创 idea操作hdfs-------周东海

1.先配置windows的环境变量 2.创建工程 3.导入lib配置包 4.输入Java语句 import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net

2022-04-24 20:59:07 2261

原创 numpy函数------周东海

import numpy as np a = np.dtype(np.int32) print(a) # 数据类型对象 b = np.dtype(np.float32) # b = np.array([1, 2, 3]) # b = np.dtype('i4') # 创建数组,指定数据类型 c = np.array([1, 2, 3], dtype=b) print(c) # 定义数据类型 dt = np.dtype([('age', np.int8)]) # 用dt数据类型创建数组 e = ...

2022-04-24 20:00:15 967

原创 SQL查询优化-------周东海

SQL查询的时候尽量避免查询是不进行计算 2.避免丶情况 !=,<>, is null,is not null,in,not in; 例如 a语句 SELECT COUNT(*) FROM emp WHERE age IN(SELECT age FROM emp WHERE id > 100); 应该为 b语句 SELECT COUNT(*) FROM emp WHERE EXISTS(SELECT age FROM emp WHERE id > 100); 使用in时不

2022-04-24 19:26:47 91

原创 Hadoop安装--------周东海

先开始就给防火墙关掉 指令为:#查看防火墙状态 service iptables status #关闭防火墙 service iptables stop #关闭防火墙开机启动 chkconfig iptables off 记得重启:reboot 解压自己传的jdk 指令为:tar -zxvf jdk压缩包 还要更改配置文件 vim /etc/profile #在文件最后添加 expor...

2022-04-10 18:50:29 120

原创 xpath ----周东海

XPath 是一门在 XML 文档中查找信息的语言。 XPath 是 XSLT 中的主要元素。 XQuery 和 XPointer 均构建于 XPath 表达式之上 安装:在终端输入 pip install lxml 基本使用: from lxml import etree s=""" <div> <ul> <li class="item-0"><a href="link1.html">f

2022-04-10 17:53:00 81

原创 范式---周东海

第一范式:每一列都要保持原子性,不能再次分割。 此表不符合第一范式,不符合关系型数据库的基本要求,在关系型数据库中创建这个表的操作就不能成功。应改为: 第二范式:属性必须完全依赖于主键,消除部分依赖。 “第二范式(Second Normal Form,2nd NF)是指每个表必须有主关键字(Primary key),其他数据元素与主关键字一一对应。通常称这种关系为函数依赖(Functional dependence)关系,即表中其他数据元素都依赖于主关键字,或称该数据元素惟一地被主关键字所标识

2022-04-10 17:39:29 552

原创 Hadoop,权限认知,Linux自有指令,ssh服务

1.权限认知 -rwxr--rw-. 十个字段由左到右分别是:1(文件类型),2 - 4(文件所属者的权限),5 - 7(同组用户权限),8 - 10(其他人权限) r:可读 w:可写 x:可执行 root root 前面一个是文件所属,第二个是目前用户 后面是时间和大小 15:文件夹名字 chmod 需要给谁的权限+什么权限 文件名 chmod 777 文件名字 chown : 更改文件所属用户 #chown-R username文档路径 2.Linux.

2022-04-03 15:18:44 2338

原创 Hbase数据库,视图,事务,存储过程,触发器------周东海

视图 1.定义 视图是指计算机数据库中的视图,是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。但是,视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表,并且在引用视图时动态生成。 2.为什么用 简单性。看到的就是需要的。视图不仅可以简化用户对数据的理解,也可以简化他们的操作。那些被经常使用的查询可以被定义为视图,从而使得用户不必为以后的操作每次指定全部的条件。 安全性:通过视图用户只能查询和修改他...

2022-04-03 12:33:45 2808

原创 Python爬虫-----周东海

Scrapy安装与使用 打开命令提示符下载安装Scrapy所必须的环境: 优先下载python下载更新文件:python -m pip install --upgrade pip 然后在下载这四个:pip install wheel pip install lxml pip install twisted ...

2022-04-03 09:05:28 128

原创 Hadoop,shell脚本----周东海

1.shell是什么 Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。 2.shell脚本 Shell 脚本(shell script),是一种为 shell 编写的脚本程序。 业界所说的 shell 通常都是指 shell 脚本,但读者朋友要知道,shell 和 shell script 是两个不同的概念。 由于习惯

2022-03-20 17:34:26 1720

原创 python爬虫案例-----周东海

开始前先确认自己需要爬取的网页和导包 from urllib import request import re 定义url page=100 url='http://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page) from urllib import request import re #定义url page=100 url='http://tieba.baidu.com/f?kw=%E6%AE%

2022-03-20 13:21:50 698

原创 MySQL索引----周东海

1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高

2022-03-19 18:40:21 3387

原创 爬虫基础_周东海

爬虫:网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.爬虫基本程序 python3.7 print response.read() response 对象有一个 read 方法,可以返回获取到的网页内容。 2.爬虫程序添加data、header,然后post请求 ...

2022-03-13 11:00:32 1432

原创 SQL基础语法_周东海

目录 1.SQL建库建表语句 1.建库: 2.建表: 2.SQL增删改查语法 1.插入数据 2.查找数据库 3.删除表数据(delete) 4.新增数据(insert) 5.修改数据(update) 3.SQL表关联查询 1.内连连接查询 2.左连接 3.右连接 4.全连接 5.三表链接 4.SQL子查询 1.SQL建库建表语句 1.建库: CRATE DATABASE IF NOT EXISTS 库名 DEAFAULT CHARSE...

2022-03-11 19:10:16 1309

原创 linux指令_周东海

目录 1.基础指令语法 2.中级指令语法 3.高级指令语法 1.基础指令语法 1.ls指令 指令 #ls :列出当前目录的文件 #ls 路径 : 列出指定路径下的文件 #ls -i/la : -i : 表示列出详细详细的形式展出/-la : 表示路径下的所有文件(包含隐藏文件) ...

2022-03-11 14:04:59 803

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除