- 博客(21)
- 收藏
- 关注
原创 数据库
三大数据类型:字符串:char、varchar。数值:int、float。日期:date、time、datetime增:insert into删:delete from改:update查:基本查询:select * from 表名;查询字句:where:select * from u where排序:select * from u order by id;select * from u order by id desc;分组:select * from u group ...
2022-05-08 22:35:12
105
原创 网络爬虫
import numpy as npimport matplotlib.pyplot as pltx = np.array([1, 2, 3, 4])y = np.array([1, 4, 9, 16])plt.plot(x, y)plt.title("RUNOOB TEST TITLE")plt.xlabel("x - label")plt.ylabel("y - label")plt.show()#散点图import matplotlib.pyp...
2022-05-08 22:13:17
507
原创 hadoop统计文本单词数
import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*** LongWritable 偏移量 long,表示该行在文件中的位置,而不是行号* Text map阶段的..
2022-05-08 22:03:16
187
原创 pandas
使用前先下载pandas包,打开cmd,输入pip install pandas或者在python里面下载import pandas as pa;print(pa.__version__)#定义字典mydataset ={ 'size':["Goole","Runoob","wiki"], 'number':[1,2,3]}#将字典转换为DataFrame,才能处理mydf=pa.DataFrame(mydataset)print(mydf...
2022-05-01 23:32:30
123
原创 mysql查询优化
一、查询优化对于查询优化,尽量要避免全表扫描,考虑在where,order by涉及的列上建立索引1、尽量避免在where子句中对字段进行null值判断:select id from t where num is null优化后:select id from t where num=02、尽量避免在where子句中使用!=或<>3、尽量避免在where子句中使用or来连接条件:select id from t where num=0优化后:select i
2022-05-01 23:26:11
100
原创 hadoop
namenode:老大 管理secondarynamenode:老二 备用的namenodedatanode:存储数据yarn:资源调度resourcemanager:老大 管理nodemanager:小弟 处理任务import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.ap.
2022-05-01 23:24:54
90
原创 SQL查询优化
#建表create table if not exists cnt(id int,name varchar(10),age int,tel varchar(10));#创建存储过程,循环插入100000条数据delimiter $create procedure cnt()begindeclare i int default 0;定义一个循环变量while(i<100000) do begin select i; 查询变量i i不区分大小写,sql关键字也不区分大小写 .
2022-04-24 23:33:01
119
原创 网络爬虫--numpy
1.打开python,下载numby包编写代码import numpy as np #给函数取别名方便调用a = np.array([1,2,3])print (a)#输出结果如下:[1 2 3]# 多于一个维度a = np.array([[1, 2], [3, 4]])print (a)#输出结果如下:# [[1 2]# [3 4]]# 最小维度a = np.array([1, 2, 3, 4, 5], ndmin = 2)print (a)#输出如下...
2022-04-24 23:20:45
875
原创 Java操作hdfs
1.解压hadoop-2.6.1到D盘2.配置环境变量3.编写Java代码import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.Before;import org.junit.Test;import java.io.IOException;import java.ne..
2022-04-24 23:03:49
136
原创 网络爬虫-xpath
选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式:nodename #表达式选取此节点的所有子节点。 #描述/#表达式从根节点选取。#描述// #表达式从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。#描述.#表达式选取当前节点。#描述..#表达式选取当前节点的父节点。#描述@#表达式选取属性。#描述XPath 通配符可用来选取未知的 XML 元素。通配...
2022-04-10 22:50:20
124
原创 mysql三大范式
#第一范式:# 保存原子性第一范式是最基本的范式。如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库表满足了第一范式。#第二范式:# 完全依赖于主键,消除部分依赖# 某个属性既依赖于主键又依赖于其他属性,不能缺失一个第二范式在第一范式的基础之上更进一层。第二范式需要确保数据库表中的每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合主键而言)。也就是说在一个数据库表中,一个表中只能保存一种数据,不可以把多种数据保存在同一张数据库表中。#第三范式:..
2022-04-10 22:30:23
4633
原创 hadoop安装
一、Hadoop伪分布式框架的部署1、打开虚拟机,准备Linux环境1.1 开启网络,ifconfig指令查看ip1.2 修改主机名为自己名字(hadoop)vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop1.3修改主机名和IP的映射关系vim /etc/hosts192.168.182.128 hadoop1.4关闭防火墙1.4.1查看防火墙状态service iptables status1.4.2关闭防火墙ser
2022-04-10 22:04:50
101
原创 网络爬虫
1.安装scrapy先打开cmd中安装scrapypython -m pip install --upgrade pippip install wheelpip install lxmlpip install twistedpip install pywin32pip install scrapy2.创建项目在cmd中输入scrapy startproject TXmovies(建议放到合适的路径下,默认是C盘)cd TXmoviesscrapy g.
2022-04-03 22:06:43
812
原创 hadoop
权限认识ls -l 列出权限开头为-表示文件 开头为d表示文件夹权限模式:读:r 写:w 执行:x 没有权限选项:u 用户g 所属群体o 其他人a 所有人权限添加、减少、确定+ 添加权限- 减少权限= 确定权限 就是只能有这个权限权限设置:chmod 选项+/-/=权限模式 文档例如:chmod g=w 2.shchmod ug=rwx 2.sh 给2.sh文件的当前用户、所属用户组添加可读可写可执行的权限数字形式0 不能读不能写不能执
2022-04-03 21:39:30
1953
原创 hbase
视图创建视图create view 视图名(视图列1,视图列2)asselect * from 表名 with check option;创建多表视图create view 视图名(视图列1,视图列2,视图列3)asselect 列名1,列名2,列名3 from 表名1 表名1别名 left join 表名2 表名2别名 on 表名1列名=表名2列名;修改视图 有就修改,没有就替换create or replace view v_blog(编号,标题,...
2022-04-03 21:23:41
183
原创 shell脚本--
chmod +x test.sh #给test文件添加权限./test.sh #运行文件/home/test2.sh #运行指定目录下的文件首先输入指令vim test.sh编辑文件#!/bin/bashif truethen echo "hello world"fi#使用if判断输出dt=`date +'%d'`echo $dtif [ $dt = "02" ]then echo '123456'elseecho 'aaa'fi#使用for循环输出1到10..
2022-03-20 21:53:26
1020
原创 sql索引--
1、单独创建索引create index 索引名 on 表名(要创建索引的列名);create index index_name on emp(emp_name);2、修改表结构创建索引alter table 表名 add index 索引名(要创建索引的列名);alter table emp add index index_salary(salary);3、删除索引drop index 索引名 on 表名;drop index index_name on emp;4、单
2022-03-20 21:48:04
471
原创 爬虫基础--
from urllib import requestimport re#定义urlpage=100url='https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page)try: #定义请求头 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHT...
2022-03-20 21:46:24
99
原创 SQL基础语法--黄张雄
1、建库建表语句CREATE DATABASE IF NOT EXISTS 库名; DEFAULT CHARSET utf8;USE 表名;2、数据库增删改查语法增:insert into 表名(表中的字段)values(); 删:delete from 表名 where 要删的表字段;改: update 表名 set name=" " where id=" ";查:select * fom 表名;3、表关联查询(两表,多表)内连接 inner join左连接 left j
2022-03-13 22:05:05
652
原创 linux指令--黄张雄
Linux基础指令一、lsls:列出当前目录下的所有文件/文件夹的名字ls /root:列出root下的所有文件/文件夹的名字ls-l:以详细列表的形式展示ls-la、ls-a:显示所有文件/文件夹(包含了隐藏文件/文件夹)ls-lh /root:列出root下的所有文件/文件夹的名称,以列表的形式并且在显示文档大小的时候以可读性较高的形式显示二、pwd:即print working directory,打印当前目录三、cdcd …:返回到上一级目录cd /usr/local:使用绝对路
2022-03-13 21:42:28
141
原创 爬虫基础--黄张雄
List item爬虫入门程序import urllib.requesturl=“http://www.baidu.com”responsel=urllib.request.urlopen(url)print(responsel.getcode())print(responsel.read())爬虫程序添加data、header,然后post请求import urllib fromurllib import request url url=“http://www.zhihu.com/s.
2022-03-13 21:31:58
947
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅