- 博客(18)
- 收藏
- 关注
原创 【python基础_5】numpy函数
1.字符串函数函数描述add()对两个数组的逐个字符串元素进行连接multiply()返回按元素多重连接后的字符串center()居中字符串capitalize()将字符串第一个字母转换为大写title()将字符串的每个单词的第一个字母转换为大写lower()数组元素转换为小写upper()数组元素转换为大写split()指定分隔符对字符串进行分割,并返回数组列表splitlines()返回元素中的行列表,以换行符分割
2022-05-02 00:25:32
158
原创 【python基础_6】JSON
JSON(JavaScriptObjectNotation,JavaScript对象表示法),是存储和交换文本信息的语法,类似XML。JSON比XML更小、更快,更易解析,更多JSON内容可以参考JSON教程。Pandas可以很方便的处理JSON数据,本文以sites.json为例,内容如下:实例import pandas as pddf=pd.read_json(‘sites.json’)print(df.to_string())to_string()用于返回DataFrame类型的数据,
2022-05-02 00:24:57
1068
原创 【liunx基础_6】MR代码
如何理解MapperLongWritable,Text,Text,IntWritable和ReducerText,IntWritable,Text,IntWritable1.Mapperimportjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.ha
2022-05-02 00:24:28
400
原创 【SQL基础_6】索引优化
一列的索引称为单列索引,多列的称为复合索引,因为BTREE索引是顺序排列的,所以比较适合范围查询,但是在复合索引中,还应注意列数目、列的顺序以及前面范围查询的列对后边列的影响。create table staffs(id int primary key auto_increment,name varchar(24) not null default ‘’ comment ‘姓名’,age int not null default 0 comment ‘年龄’,pos varchar(20) no
2022-05-02 00:24:07
613
原创 【liunx基础_5】JAVA操作HDFS
Jar包引入,pom.xml:org.apache.hadoophadoop-common2.8.0org.apache.hadoophadoop-hdfs2.8.0将本地文件上传到hdfs服务器:/** * 将hdfs上文件下载到本地 */ @Test public void download() throws IOException { Configuration conf = new Configuration(); conf.set("fs.de.
2022-05-02 00:23:51
149
原创 【SQL基础_5】sql查询优化
提高MySQL查询优化的30条经验1.对查询进行优化,应尽量避免全表扫描,首先应考虑在where及orderby涉及的列上建立索引。2.应尽量避免在where子句中对字段进行null值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:selectidfromtwherenumisnull可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:在这里插入代码片selectidfromtwherenum=03.应尽量避免在where子句中使用!=或<>操作符,
2022-05-02 00:22:17
134
原创 【liunx基础_4】Hadoop部署
文章目录1.准备Linux环境1.1 开启网络,ifconfig指令查看ip1.2 修改主机名为自己名字(hadoop)1.3修改主机名和IP的映射关系1.4关闭防火墙1.5重启Linux2.安装JDK2.1 filezilla上传jdk到/opt2.2 解压jdk2.3 将java添加到环境变量中3.安装Hadoop3.1 filezilla上传hadoop安装包,配置文档(hadoop2.2.0伪分布式搭建.txt)3.2解压hadoop安装包3.3修改配置文件(5个) 路径:/opt/hadoop-2
2022-04-13 00:55:16
196
原创 【SQL基础_4】数据库范式
数据可设计关系型数据库建议在E-R模型的基础上,我们需要根据产品经理的设计策划,抽取出来模型与关系,制定出表结构,这是项⽬开始的第⼀步在开发中有很多设计数据库的软件,常⽤的如power designer,db desinger等,这些软件可以直观的看到实体及实体间的关系设计数据库,可能是由专门的数据库设计⼈员完成,也可能是由开发组成员完成,⼀般是项⽬经理带领组员来完成现阶段不需要独⽴完成数据库设计,但是要注意积累⼀些这⽅⾯的经验提示:以下是本篇文章正文内容,下面案例可供参考一、 三范
2022-04-13 00:32:08
242
原创 【爬虫基础_4】爬虫xpath
XP ath 语句XPath使用路径表达式来选取XML文档中的节点或节点集。节点是通过沿着路径(path)或者步(steps)来选取的。目录XP ath 语句XML 实例文档一、Xpath的作用:二、XPath的节点:节点关系1.父(parent)2.子(Children)3.同胞(Sibling)4.先辈(Ancestor)XML 实例文档实例<?xmlversion="1.0"encoding="UTF-8"?><bookstore> <book>
2022-04-13 00:16:10
258
原创 爬虫基础_3
Scrapy使用使用cmd输入并下载python-mpipinstall--upgradepippipinstallwheelpipinstalllxmlpipinstalltwistedpipinstallpywin32pipinstallscrapyScrapy安装以及生成项目scrapy startproject 项目名 scrapy genspider 爬虫名 域名 scrapy crawl 爬虫名我使用的是widows版本,下面演示创建...
2022-04-04 11:05:10
107
原创 hadoop2.2.0伪分布式搭建
1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop1.4关闭防火墙 #查看防火墙状态 service iptables status #关闭防火墙 service iptables stop #关闭防火墙开机启动 ch
2022-04-04 11:03:07
115
原创 SQL基础语法_3
触发器的应用CREATE DATABASE IF NOT EXISTS TEXT DEFAULT CHARSET utf8;USE TEXT;CREATE TABLE IF NOT EXISTS student(username VARCHAR(50),PASSWORD VARCHAR(50),stuid INT PRIMARY KEY AUTO_INCREMENT,birthday DATE);SELECT * FROM student;INSERT INTO student(userna
2022-04-04 11:00:21
107
原创 linux指令_2
3.高级指令语法,举例3.1、hostname指令作用:操作服务器的主机名(读取、设置)语法1:#hostname含义:表示输出完整的主机名语法2:#hostname-f含义:表示输出当前主机名中的FQDN(全限定域名)3.2、id指令作用:查看一个用户的一些基本信息(包含用户id,用户组id,附加组id…),该指令如果不指定用户则默认当前用户。语法1:#id默认显示当前执行该命令的用户的基本信息语法2:#id用户名显示指定用户的基本信息3.3、whoami指令作用:“我是谁?”
2022-03-20 22:38:33
880
原创 SQL基础语法_2
⼦查询1,子查询的概念在⼀个 select 语句中,嵌⼊了另外⼀个 select 语句, 那么被嵌⼊的 select 语句称之为⼦查询语句2,主查询主要查询的对象,第一条select语句3,主查询与子查询的关系子查询是嵌入到主查询中子查询是辅导主查询的,要么充当条件,要么充当数据源⼦查询是可以独⽴存在的语句,是⼀条完整的 select 语句4. ⼦查询分类标量⼦查询: ⼦查询返回的结果是⼀个数据(⼀⾏⼀列)列⼦查询: 返回的结果是⼀列(⼀列多⾏)⾏⼦查询: 返回的结果
2022-03-20 22:29:55
89
原创 爬虫基础_2
1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑2.正则表达式的语法规则构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符
2022-03-20 22:05:23
130
原创 ptthon爬虫基础
1.爬虫入门程序#创建一个BeautifulSoup解析对象soup = BeautifulSoup(html_doc,"html.parser",from_encoding="utf-8")#获取所有的链接links = soup.find_all('a')print "所有的链接"for link in links: print link.name,link['href'],link.get_text() print "获取特定的URL地址"link_node = soup.f
2022-03-14 00:30:45
373
原创 linux指令
1.基础指令语法1.1 ls指令常用参数搭配:ls -a 列出目录所有文件,包含以.开始的隐藏文件ls -A 列出除.及..的其它文件ls -r 反序排列ls -t 以文件修改时间排序ls -S 以文件大小排序ls -h 以易读大小显示ls -l 除了文件名之外,还将文件的权限、所有者、文件大小等信息详细列出来1.2、cd 命令cd(changeDirectory) 命令语法:cd [目录名]1.3、pwd 命令pwd 命令用于查看当前工作目录路径。实例:(1)查看当前路
2022-03-14 00:29:53
162
原创 SQL基础语法
1,建库,建表1.创建一个库CREATE DATABASE 数据库名称2.创建一个表这样做就可以创建一个数据库中的表:CREATE TABLE 表名称(列名称1 数据类型,列名称2 数据类型,…)实例create table students( id int unsigned primary key auto_increment not null, name varchar(20) default '', age tinyint uns
2022-03-13 23:40:21
503
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅