自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 搭建hadoop集群格式化多了怎么搞

将datanode的clusterID改成和namenode一致。

2024-11-29 19:01:45 155

原创 ZooKeeper集群API操作

2.新建包org.zookeeper,类ZooKeeperDemo。

2024-11-29 18:31:14 145

原创 ZooKeeper搭建

hadoop1 创建myid文件。1.上传压缩包并解压。4.创建myid文件。

2024-11-29 17:16:03 118

原创 MapReduce倒排索引

倒排索引主要用来存储某个单词或者词组在一组文档中的存储位置的映射,提供了可以根据内容查找文档的方式,而不是根据文档确定内容。建立倒排索引的目的是更加方便的进行搜索。1.新建ii包和四个java类。5.测试 新建三个文本文档。

2024-11-26 22:12:37 158

原创 MapReduce经典案例TopN

TopN分析是指在研究对象中按照某一个指标进行倒序或者是正序排序,取其中最大的N个数据,并对这N 个数据以倒序或者是正序的方式进行数据分析的方法。1.新建一个包topN。

2024-11-26 21:49:29 249

原创 MapReduce数据去重

1.创建一个新包,三个java类。4.准备测试文件,上传,调用。

2024-11-26 21:20:22 227

原创 MapReduce词频统计的开发

6.准备一个用于测试hadoop词频统计的文本文档,将这个上传。1.新建包(java rg下新建一个mr包,添加三个java类。WordCountMapper中。5..启动hadoop集群。

2024-11-26 20:58:28 185

原创 hadoop集群搭建

start-all.sh (在hadoop1上启动) //自动启动HDFS和YARN。source /etc/profile (hadoop2、hadoop3都需要)ssh-copy-id hadoop1 //在hadoop1节点执行这三个命令。start-dfs.sh (在hadoop1上启动) //启动HDFS。Tips: hadoop1 hadoop2 hadoop3三个IP不一样。vi /etc/hosts //三台主机都要修改。start-yarn.sh(在hadoop1上启动)

2024-11-14 09:39:07 949

原创 爬取豆瓣电影排行榜页面信息,根据豆瓣电影TOP250榜单,构造抓取的起始页面地址,采集每一页的电影排行信息,具体包括每部电影的详情链接,影片图片,影片片名,影片评分,评价人数、影片概况、相关信息。

"影片人数":film_population,"影片概况":film_concepet,"影片图片":film_picture,"相关信息":film_context。"影片评分":film_score,"影片片名":film_name,"详情链接":lists,

2024-11-14 09:24:55 407

原创 使用Python语言,运用正则表达式编写代码 任务:爬取古诗文网站页面信息 要求:1、网址:https://www.gushiwen.cn/2、爬取内容为网站前五页,内容包括:诗文标题、作者名、年代、

print("第{}页爬取成功".format(i))"诗文正文": new_poems。"诗文标题": title,"朝代": dynasty,"作者": anthor,

2024-11-10 10:43:13 446

原创 抓取微博热搜榜的数据(并写入excel文档)

这里使用了re.findall方法,结合正则表达式,从响应内容中提取热搜关键词和对应的热力指数。#这里通过requests.get发送一个GET请求到指定的URL,并使用定义好的headers。获取响应后,将响应内容解码为UTF-8格式的字符串。#User-Agent模拟了浏览器发送请求,Cookie包含了用户身份认证的信息,这通常是为了模拟登录状态或者保持会话。"热力指数":hotnumber,#发起请求,通过http库向目标站点发起请求。"关键词":hotword,#re模块用于正则表达式匹配。

2024-11-06 20:13:08 576

原创 获取豆瓣网站前30个电影的名字

new_height = driver.execute_script(js) # 当前窗口总高度。height = 0 # 初始化现在滚动条所在高度为0。# 初始化一个driver,指定Chrome浏览器。# 将滚动条调整至页面底部。# 请求豆瓣电影剧情排行榜。

2024-11-01 12:02:01 291

原创 获取b站热门视频前100个标题(使用selenium)

import timefrom selenium import webdriverfrom selenium.webdriver.common.by import Bydef scroll_to_bottom(): js = "return document.body.scrollHeight" height = 0 # 初始化现在滚动条所在高度为0 new_height = driver.execute_script(js) # 当前窗口总高度 while he

2024-11-01 11:50:30 192

原创 当window11在C盘以外安装文件夹权限受阻

找到权限受阻的磁盘,右键点击属性。

2024-10-09 19:10:10 1045

原创 简单的编程练习

System.out.println("请输出三位整数的最大值"+max);System.out.println("输出前几行的斐波那契额数列");System.out.println("请输入杨辉三角的边数");System.out.println("请输入三个整数");System.out.println("请输入三个整数");7.1的1次方+2的2次方+3的3次方+...+10的10次方,结果是多少?printf("在1到%d中共有%d个质数",i-1,pow);6.求1到100的质数。

2024-09-26 16:07:53 239 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除