- 博客(15)
- 收藏
- 关注
原创 MapReduce倒排索引
倒排索引主要用来存储某个单词或者词组在一组文档中的存储位置的映射,提供了可以根据内容查找文档的方式,而不是根据文档确定内容。建立倒排索引的目的是更加方便的进行搜索。1.新建ii包和四个java类。5.测试 新建三个文本文档。
2024-11-26 22:12:37
158
原创 MapReduce经典案例TopN
TopN分析是指在研究对象中按照某一个指标进行倒序或者是正序排序,取其中最大的N个数据,并对这N 个数据以倒序或者是正序的方式进行数据分析的方法。1.新建一个包topN。
2024-11-26 21:49:29
249
原创 MapReduce词频统计的开发
6.准备一个用于测试hadoop词频统计的文本文档,将这个上传。1.新建包(java rg下新建一个mr包,添加三个java类。WordCountMapper中。5..启动hadoop集群。
2024-11-26 20:58:28
185
原创 hadoop集群搭建
start-all.sh (在hadoop1上启动) //自动启动HDFS和YARN。source /etc/profile (hadoop2、hadoop3都需要)ssh-copy-id hadoop1 //在hadoop1节点执行这三个命令。start-dfs.sh (在hadoop1上启动) //启动HDFS。Tips: hadoop1 hadoop2 hadoop3三个IP不一样。vi /etc/hosts //三台主机都要修改。start-yarn.sh(在hadoop1上启动)
2024-11-14 09:39:07
949
原创 爬取豆瓣电影排行榜页面信息,根据豆瓣电影TOP250榜单,构造抓取的起始页面地址,采集每一页的电影排行信息,具体包括每部电影的详情链接,影片图片,影片片名,影片评分,评价人数、影片概况、相关信息。
"影片人数":film_population,"影片概况":film_concepet,"影片图片":film_picture,"相关信息":film_context。"影片评分":film_score,"影片片名":film_name,"详情链接":lists,
2024-11-14 09:24:55
407
原创 使用Python语言,运用正则表达式编写代码 任务:爬取古诗文网站页面信息 要求:1、网址:https://www.gushiwen.cn/2、爬取内容为网站前五页,内容包括:诗文标题、作者名、年代、
print("第{}页爬取成功".format(i))"诗文正文": new_poems。"诗文标题": title,"朝代": dynasty,"作者": anthor,
2024-11-10 10:43:13
446
原创 抓取微博热搜榜的数据(并写入excel文档)
这里使用了re.findall方法,结合正则表达式,从响应内容中提取热搜关键词和对应的热力指数。#这里通过requests.get发送一个GET请求到指定的URL,并使用定义好的headers。获取响应后,将响应内容解码为UTF-8格式的字符串。#User-Agent模拟了浏览器发送请求,Cookie包含了用户身份认证的信息,这通常是为了模拟登录状态或者保持会话。"热力指数":hotnumber,#发起请求,通过http库向目标站点发起请求。"关键词":hotword,#re模块用于正则表达式匹配。
2024-11-06 20:13:08
576
原创 获取豆瓣网站前30个电影的名字
new_height = driver.execute_script(js) # 当前窗口总高度。height = 0 # 初始化现在滚动条所在高度为0。# 初始化一个driver,指定Chrome浏览器。# 将滚动条调整至页面底部。# 请求豆瓣电影剧情排行榜。
2024-11-01 12:02:01
291
原创 获取b站热门视频前100个标题(使用selenium)
import timefrom selenium import webdriverfrom selenium.webdriver.common.by import Bydef scroll_to_bottom(): js = "return document.body.scrollHeight" height = 0 # 初始化现在滚动条所在高度为0 new_height = driver.execute_script(js) # 当前窗口总高度 while he
2024-11-01 11:50:30
192
原创 简单的编程练习
System.out.println("请输出三位整数的最大值"+max);System.out.println("输出前几行的斐波那契额数列");System.out.println("请输入杨辉三角的边数");System.out.println("请输入三个整数");System.out.println("请输入三个整数");7.1的1次方+2的2次方+3的3次方+...+10的10次方,结果是多少?printf("在1到%d中共有%d个质数",i-1,pow);6.求1到100的质数。
2024-09-26 16:07:53
239
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人