- 博客(20)
- 收藏
- 关注
原创 hadoop-2.6.1 winutil处理
原始数据 HDFS words hello tom hello jerry hello kitty hello world hello tom Map阶段 1.每次读一行数据, 2.拆分每行数据, 3.每个单词碰到一次写个1 <0, "hello tom"> <10, "hello jerry"> <22, "hello kitty"> <34, "hello world"> <46, "hello tom...
2022-05-08 20:29:56
116
1
原创 Mysql数据库思维导图
Mysql数据库流程图: mysql 数据类型: 字符串 varchar CHAR TINYBLOB TINYTEXT BLOB TEXT MEDIUMBLOB MEDIUMTEXT LONGBLOB LONGTEXT 日期 DATE TIME YEAR DATETIME TIMESTAMP 数值 TINYINT SMALLINT MEDIUMINT INT或INTEGER FLOAT DOUBLE DECIMAL 建库建表 #建库 CREATEDATABASE IF NOT EXISTS yues...
2022-05-08 20:27:14
134
原创 网络爬虫&Pandas
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。 Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。 Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。 Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数
2022-05-01 21:34:14
176
原创 网络爬虫&Pandas
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。 Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。 Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。 Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数
2022-05-01 21:31:12
132
原创 MySQL&索引优化&参数优化
1.对查询进行优化 应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断, 否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否
2022-05-01 21:29:42
99
原创 hadoop2.2.0&HDFS的java访问接口
4.5.1.搭建 Hadoop 开发环境我们在工作中写完的各种代码是在服务器中运行的,HDFS 的操作代码也不例外。在开 发阶段,我们使用 windows 下的 eclipse 作为开发环境,访问运行在虚拟机中的 HDFS。也就是通过在本地的 eclipse 中的 java 代码访问远程 linux 中的 hdfs。 要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点: 确保宿主机与客户机的网络是互通的 确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配置
2022-05-01 21:27:26
71
原创 Java操作hdfs
1.winutil处理 1.解压hadoop-2.6.1到D盘 2.配置环境变量 2.处理Java连不上hdfs 1.1.删除tmp 2.修改配置 修改namenode的地址为具体IP (之前写的localhost) 修改slaves文件,为具体IP 3. 格式化hdfs hadoop namenode –format 4.启动HDFS start-...
2022-04-24 20:31:52
249
原创 Linux设置主机名
一、设置主机名 回顾: #hostname #hostname-fFQDN(全限定域名) ①临时设置主机名(立竿见影),需要切换用户使之生效 #hostname设置的主机名 ②永久设置主机名(需要重启) 先找到一个文件/etc/sysconfig/network 【主机名的配置文件】 修改其中的HOSTNAME为自己需要设置的永久主机名 ③修改linux服务器的hosts文件,将yunwei指向本地(设置FQDN) Hosts文件的位置:/etc/hosts 问题:不设置FQDN会
2022-04-12 11:32:48
1717
原创 Mysql事务
#使用库 USE hbase; #创建表(实验用) CREATE TABLE b(id INT); #创建事务,开始一个事务。(起点) BEGIN; #插入表数据 INSERT INTO b VALUES(1),(2),(3),(4),(5); #进行回滚(就是恢复到事务之前的样子,撤回从事务开始的所有操作) ROLLBACK; #当然,如果错误就进行回滚,正确那就可以进行保存 #事务确认(终点) COMMIT; #查询表 SELECT * FROM b; ...
2022-04-12 11:31:34
372
原创 网络爬虫,xpath
#导入lxml包下的etree类 from lxml import etree #随意定义一段html代码块 s=""" <div> <ul> <li class="item-0">< a href=" ">aaa</ a></li> <li class="item-0">< a href="link2.html">bbb</ a&g...
2022-04-12 11:30:06
66
原创 Linux权限&服务
Linux的权限管理操作 Linux的权限操作与用户、用户组是兄弟操作。 一、权限概述 总述:Linux系统一般将文件可存/取访问的身份分为3个类别:owner、group、others,且3种身份各有read、write、execute等权限。 1、权限介绍 什么是权限? 在多用户(可以不同时)计算机系统的管理中,权限是指某个特定的用户具有特定的系统资源使用权力,像是文件夹、特定系统指令的使用或存储量的限制。 在Linux中分别有读、写、执行权限: 读权限: 对于文件夹来说,读权...
2022-04-03 21:39:29
193
原创 Linux权限&服务
Linux的权限管理操作 Linux的权限操作与用户、用户组是兄弟操作。 一、权限概述 总述:Linux系统一般将文件可存/取访问的身份分为3个类别:owner、group、others,且3种身份各有read、write、execute等权限。 1、权限介绍 什么是权限? 在多用户(可以不同时)计算机系统的管理中,权限是指某个特定的用户具有特定的系统资源使用权力,像是文件夹、特定系统指令的使用或存储量的限制。 在Linux中分别有读、写、执行权限: 读权限: 对于文件夹来说,读权...
2022-04-03 21:36:08
104
原创 Scrapy框架安装&案例&入门
W1.安装 indows 平台: 我的系统是 Win7,首先,你要有 Python,我用的是 2.7.7 版本,Python3 相仿,只是一些源文件不同。 官网文档:Installation guide — Scrapy 2.6.1 documentation,最权威哒,下面是我的亲身体验过程。 1. 安装 Python 安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在 D 盘,D:\python2.7.7,就把以下两个路径添加到 P
2022-04-03 21:33:06
126
原创 Msql事务&储存过程&触发器
1.事务 原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。 一致性:在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。 隔离性:数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执行时由于交叉执
2022-04-03 21:31:55
90
原创 shell基础
一、关于shell 1、什么是shell 什么是shell? Shell(外壳) 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。 什么是脚本? 脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。 常见的脚本: JavaScript(JS,前端),VBScript, ASP,JSP,PHP(
2022-03-20 21:58:33
88
原创 网络爬虫实战
1. 确定 URL from urllib import request import re #定义url page=50 url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="+str(page) 2.添加headers并抓取页面代码 try: #定义请求头 headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleW...
2022-03-20 21:54:11
133
原创 高级Mysql
什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高好几个
2022-03-20 19:18:44
71
原创 Python爬虫基础
Python 爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。 URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。 网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Py
2022-03-13 16:38:21
160
原创 Linux常用指令
基础指令 1、ls指令 含义:ls (list) 用法1:#ls 含义:列出当前工作目录下的所有文件/文件夹的名称 用法2:#ls 路径 含义:列出指定路径下的所有文件/文件夹的名称 关于路径(重要): 路径可以分为两种:相对路径、绝对路径。 相对路径:相对首先得有一个参照物(一般就是当前的工作路径); 相对路径的写法:在相对路径中通常会用到2个符号“./”【表示当前目录下】、“../”【上一级目录下】。 绝对路径:绝对路径不需要参照物,直接从根“/”开始寻找对应路径; ...
2022-03-13 16:36:31
807
原创 sql基础语法 廖井平
#建库 语法: CREATE DATABASE IF NOT EXISTS 库名 DEFAULT CHARSET 编码格式; CREATE DATABASE IF NOT EXISTS yuesu DEFAULT CHARSET utf8; #使用库 语法: USE 库名 USE yuesu #建表 语法: CREATE TABLE IF NOT EXISTS 表名( 字段名1 数据类型 主键 自增, 字段名2 数据类型(长度) 非空 唯一 默认值 备注, ...
2022-03-13 16:32:41
77
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人