- 博客(14)
- 收藏
- 关注
原创 mapreduce代码统计文本单词
首先打开idea导入lib包读取文本import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//LongWritable 偏移量 long 表示改行在文件中的位置,而不是行号/
2022-05-08 18:44:15
144
原创 爬虫四种统计图
导包import numpy as npimport matplotlib.pyplot as plt代码网格线图ypoints = np.array([1,3,9,25,12,32,5,1])数据插入到图表marker:符号color:颜色,可简写为clinewidth:线条宽度#plt.plot(ypoints,'o:g')#plt.plot(ypoints,marker='o',linestyle=':',color='g')plt.plot(ypoints..
2022-05-08 18:41:11
177
原创 pandas——爬虫
Pandas 安装 安装 pandas 需要基础环境是 Python,开始前我们假定你已经安装了 Python 和 Pip。 使用 pip 安装 pandas: 1 pip install pandas 安装成功后,我们就可以导入 pandas 包使用: import pandas as pd# 实例 - 查看 pandas 版本pd.__version__ # 查看版本#一个简单的 pandas
2022-05-02 08:44:39
692
原创 MySQL优化查询
mysq查询l优化 指标:执行时间 检查的行数 返回的行数1. count的优化 比如:计算id大于5的城市 a. select count(*) from world.city where id > 5; b. select (select count(*) from world.city) – count(*) from world.city where id <= 5; a语句当行数超过11行的时候需要扫描的行数比b语句要多, b语句扫描了6行,此种情况下,b语句比a语句更
2022-04-25 08:56:28
149
原创 Linux_java链接HDFS
1、首先导入maven可以去网上找或者输入以下<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.6</version> <
2022-04-25 08:52:24
162
原创 python中numpy创建数组
import numpy as np#自定义数据类型dt = np.dtype([('name','S20'),('age','i1'),('score','f4')])#自定义数组u=np.array([('abc',12,88),('zhangan',18,66)],dtype=dt)print(u['age'])print(u)import numpy as np#创建空数组e=np.empty([3,4],dtype=int,order='C')print(e).
2022-04-25 08:43:01
2398
原创 数据库三范式
数据库的三范式三范式是数据库的一种规范第一范式:行不重复,列不可再分字段不可分,每个字段是原子级别的,第一个字段为ID,它就是ID不能在分成两个字段了,不能说我要把这个人的ID、名称、班级号都塞在一个字段里面,这个是不合适的,对以后的应用造成很大影响第二范式:非主依主表必须符合第一范式,非主键列必须依赖主键列。每个表只描述一个事情有主键,非主键字段依赖主键,ID字段就是主键,它能表示这一条数据是唯一的,其中“unique”表示唯一的、不允许重复的,确实它经常会修饰某个字段,保证该字段唯一性
2022-04-10 20:45:28
723
原创 Linux hadoop搭建
1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop 1.4关...
2022-04-10 20:34:30
179
原创 爬虫xpath
1 、xpath安装pip install lxml2、xpath规则3、xpath部分案列from lxml import etreetext = """<div><ul><li class="item-0"><a href="link1.html">first item</a></li>....</ul></div>"""resp_html = etree.HTML(text
2022-04-10 20:33:10
2921
原创 Linux——shell指令,if 和循环输出
chmod +x test.sh #给test文件添加权限./test.sh #运行文件/home/test2.sh #运行指定目录下的文件首先输入指令vim test.sh编辑文件#!/bin/bashif truethen echo "hello world"fi#使用if判断输出dt=`date +'%d'`echo $dtif [ $dt = "02" ]then echo '123456'elseecho 'aaa'fi#使用for循环输出1到...
2022-03-20 19:29:21
1297
原创 MySQL索引
1、单独创建索引create index 索引名 on 表名(要创建索引的列名);create index index_name on emp(emp_name);2、修改表结构创建索引alter table 表名 add index 索引名(要创建索引的列名);alter table emp add index index_salary(salary);3、删除索引drop index 索引名 on 表名;drop index index_name on emp;4、单
2022-03-20 18:58:36
83
原创 网络爬虫 爬取a链接——梁鑫
from urllib import requestimport repage=54 #匹配网站url="正在上传…重新上传取消网页链接+str(page)try:#请求头headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'}#定义请求..
2022-03-20 18:32:38
227
原创 爬虫基础——梁鑫
初级语法:1、ls 列出当前工作夹所有文件2、pwd打印出我当前工作的目录3、cd切换路径~表示当前用户的家目录4、mkdir创建文件夹
2022-03-13 20:38:00
127
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅