自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 hbase-思维导图

2022-05-08 11:02:07 955

原创 网络爬虫-四种统计图

柱状图 import numpy as np import matplotlib.pyplot as plt #准备数据 x=np.array(['baseketball','football','baseball','beautiful',]) y=np.array([10,20,20,9]) c=np.array(['#4CAF50','red','hotpink','#556B2F']) #插入数据 plt.bar(x,y,color=c,width=0.5) plt.title('hobby')

2022-05-08 10:55:22 288

原创 Hadoop-代码统计文本单词

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.li.

2022-05-08 09:33:09 147

原创 Hbase-索引优化,参数优化

USE test; #创建表 CREATE TABLE IF NOT EXISTS T1(processid INT,nextprocess INT); #创建索引 CREATE INDEX IX_ProcessID ON T1(processid); #a语句不使用索引 SELECT * FROM T1 WHERE nextprocess = 1 AND processid IN(8,32,45); #b语句强制使用索引 SELECT * FROM T1 FORCE INDEX(IX_ProcessID)

2022-05-01 21:07:13 193

原创 Python网络爬虫-pandas

pandas安装 安装 pandas 需要基础环境是 Python,开始前我们假定你已经安装了 Python 和 Pip。 使用 pip 安装 pandas: pip install pandas 安装成功后,我们就可以导入 pandas 包使用: import pandas 实例 import pandas as pd print(pd.__version__) #定义字典 mydataset = { 'sites':["Google","Runood","wik...

2022-05-01 21:04:55 818

原创 sql查询优化

USE test;#创建表 CREATE TABLE IF NOT EXISTS T1(processid INT,nextprocess INT);#创建索引 CREATE INDEX IX ProcessID ON T1(processid);#a语句不使用索引 SELECT * FROM T1 WHERE nextprocess = 1 AND processid IN (8,32,45);#b语句强制使用索引 SELECT * FROM T1 FROM INDEX(IX_ProcessID) WHE

2022-04-24 21:22:18 80

原创 Hadoop-JAVA操作hdfs

package cn.itcast.hadoop.hdfs; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI; import java.ne.

2022-04-24 21:19:24 108

原创 Python网络爬虫-numpy函数

import numpy as np print('连接两个字符串:') print (np.char.add(['hello', 'hi'],[' abc', ' xyz'])) #函数执行 print (np.char.multiply('Runoob ',3)) print (np.char.center('Runoob', 20,fillchar = '*')) #函数将字符串的第一个字母转换为大写: print (np.char.capitalize('runoob')) #函数将字符串的

2022-04-24 21:16:08 855

原创 Hbase

CREATE DATABASE IF NOT EXISTS shop DEFAULT CHARSET utf8; USE shop; #用户表 CREATE TABLE IF NOT EXISTS USER ( id INT PRIMARY KEY AUTO_INCREMENT COMMENT '用户Id', username VARCHAR(50) NOT NULL COMMENT '用户名', PASSWORD VARCHAR(50) NOT NULL COMMENT '密码', regis...

2022-04-10 21:23:43 2365

原创 Linux网络基础

一、网络相关概述 1、网络发展信息传递远古时期,人们就通过简单的语言、壁画等方式交换信息千百年来,人们一直在用语言、图符、钟鼓、烟火、竹简、纸书等传递信息古代人的烽火狼烟、飞鸽传信、驿马邮递现代社会中,交通警的指挥手语、航海中的旗语等这些信息传递的基本方式都是依靠人的视觉与听觉电的产生1831年,法拉第制出了世界上最早的第一台发电机1866年,德国人西门子(Siemens)制成世界上第一台大功率发电机1837年,美国人塞缪乐·莫乐斯成功地研制出世界上第一台电磁式电报机1844年5月24日

2022-04-10 21:22:28 1094

原创 Python网络爬虫-正则表达式

import re #定义正则规则 rexg=re.compile(r'\d*\w') res=re.search(rexg,'666666666666ddddddddd') print(res) #定义正则规则 rexg2=re.compile(r'\d*\w*') res2=re.search(rexg2,'oooo66dddd') print(res2) #定义正则规则 rexg3=re.compile(r'\d?') res3=re.search(rexg3,'66dddd') print(re

2022-04-10 21:15:02 755

原创 Python网络爬虫-scrapy

一、概述 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider

2022-04-03 19:55:46 198

原创 Linux权限

一、权限概述 总述:Linux系统一般将文件可存/取访问的身份分为3个类别:owner、group、others,且3种身份各有read、write、execute等权限。 1、权限介绍什么是权限?在多用户(可以不同时)计算机系统的管理中,权限是指某个特定的用户具有特定的系统资源使用权力,像是文件夹、特定系统指令的使用或存储量的限制。在Linux中分别有读、写、执行权限:读权限:对于文件夹来说,读权限影响用户是否能够列出目录结构对于文件来说,读权限影响用户是否可以查看文件内容写权限:对文件夹来说,写权限

2022-04-03 19:48:06 797

原创 Hbase-触发器,存储

触发器 USE test; #创建学生表 CREATE TABLE IF NOT EXISTS student ( username VARCHAR(50), PASSWORD VARCHAR(50), stuid INT PRIMARY KEY AUTO_INCREMENT, birthday DATE ); #插入数据 INSERT INTO student(username,PASSWORD,birthday) VALUES ('王二','11111','2016-0...

2022-04-03 19:39:36 4111

原创 Hbase-索引

MySQL 索引 1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能

2022-03-20 19:58:47 202

原创 Python网络爬虫

1.创建项目 打开一个终端输入(建议放到合适的路径下,默认是C盘)scrapystartprojectTXmoviescdTXmoviesscrapygenspidertxmsv.qq.com 2.修改setting 修改三项内容,第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent,第四个是打开一个管道ROBOTSTXT_OBEY=False DOWNLOAD_DELAY=1

2022-03-20 19:53:06 182

原创 Hadoop

ssh服务 ssh(secureshell,安全外壳协议),该协议有2个常用的作用:远程连接协议、远程文件传输协议。 协议使用端口号:默认是22可以是被修改的,如果需要修改,则需要修改ssh服务的配置文件:#/etc/ssh/ssh_config 端口号可以修改,但是得注意2个事项:a.注意范围,端口范围是从0-65535;b.不能使用别的服务已经占用的端口;服务启动/停止/重启 #servicesshdstart/stop/restart #/etc/init.d/sshdstart/stop/

2022-03-20 19:41:26 169

原创 Python爬虫基础-周美婷

1.爬虫入门程序 #导入功能库库名 urllib urllib2 import urllib import urllib2 #填写地址url url = 'http://www.server.com/login' #设置Headers 的参数 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #设置data 参数是访问URL时要传送的数据 values = {'username' : 'cqc', 'pass...

2022-03-13 19:59:11 338

原创 Hadoop指令-周美婷

基础指令语法 1、ls指令含义:ls(list) 用法1:#ls含义:列出当前工作目录下的所有文件/文件夹的名称用法 用法2:#ls路径含义:列出指定路径下的所有文件/文件夹的名称关于路径(重要):路径可以分为两种:相对路径、绝对路径。相对路径:相对首先得有一个参照物(一般就是当前的工作路径);相对路径的写法:在相对路径中通常会用到2个符号“./”【表示当前目录下】、“../”【上一级目录下】。绝对路径:绝对路径不需要参照物,直接从根“/”开始寻找对应路径; 2、pwd指令用法:#pwd (pri

2022-03-12 20:15:46 4115

原创 Hbase指令—周美婷

CREATE DATABASE IF NOT EXISTS hhh DEFAULT CHARSET utf8; USE hhh; #建学生表 CREATE TABLE IF NOT EXISTS stu ( NO INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(20) ); INSERT INTO stu(NAME) VALUES("张三"),("李四"),("夏目"),("贵志"),("小红"); #建科目表 CREATE TABLE IF NO...

2022-03-12 19:33:53 2969

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除