- 博客(3)
- 收藏
- 关注
原创 用scrapy框架爬取历年电影排名和出版
Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 Scrapy入门请看官方文档:scrapy官方文档 本爬虫爬取的是电影排名与放映时间和评分 成果图如下: 整体思路 1、新建项目和爬虫文件2、编写test1文件和main.py代码 3、修改middlewares.py/编写piplines.py 4、修改settings,items文件代码 5、启动 1.新建项目和爬虫文件 2.编写imdb.py文件 注意理解注释。 from y...
2021-12-14 11:20:38
918
2
原创 hadoop搭建好Hive-命令使用
在搭建好hive后,我们接下来看看hive的使用。 一、连接hive,查看现有多少个数据库; show databasese; 以上可以看出我有3个数据库; 二、创建数据库;数据库会以文件夹.db的形式存在hdfs里; create database tb202; 三、创建表;表会文件夹的形式存在; 前提是要先使用你创建的数据库。 create table put_class(id string,amount float); 四、在表里插入数据,可以看见会自动...
2021-12-04 19:47:22
227
1
原创 Hadoop-伪分布式单节点搭建hive
1.在搭建hadoop完成一台电脑后,hive是利用的MySQL数据库进行操作(推荐与Java技术不好MySQL学的好的学生使用)话不多说操作如下: 2.先把hive数据包和MySQL连接jar包放到Linux; 3.安装hive到/opt目录下; tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/ 4.hive安装完后名字太长我们改成hive ...
2021-12-01 21:09:43
1767
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人