- 博客(5)
- 收藏
- 关注
原创 python爬取豆瓣電影之影視電影分析
python爬取豆瓣電影之影視電影分析 1.獲取url 打開獲取數據網頁-->右鍵檢查-->進到如下界面-->找如下json類型的url網址(key:value) 2.查看Headers部分,獲取url,這個url就是你爬取數據源頭 3.分析url的參數: https://movie.doub...
2018-08-29 22:12:01
515
原创 利用MapReduce来实现文档全局搜索引擎
利用MapReduce来实现全局搜索引擎 根据内容来查看文档,可以统计每个单词在一些文档中出现了几次,来实现全文检索的这样的一个功能 预备文件: hadoop中分三步走: 1.mapper对文档初步处理, 获得每个单词以及单词的路径,设置每个单词出现的次数都初步设置为1; 输出格式 : 单词||文...
2018-08-15 00:38:43
1841
原创 Hdfs系统文件上传的机制
Hdfs系统文件上传的机制 访问的流程 client --namenode --client--datanode(机器1)--datanode(机器2)--机器.....(datanode通过管道传递)----namenode(datanode通过heart机制汇报信息) 客户端操作Hdfs系统文件读写操作必须向namenode来获取块信息,datanode信息,通过管道进行...
2018-07-28 19:06:29
716
原创 Mapreduce如何进行本地Hadoop测试
Mapreduce如何进行本地Hadoop测试 如果开发mapreduce,一定会进行测试一般情况下都是在本地进行测试,如何要进行本地测试,需要添加一个依赖包从如下网站下...
2018-07-22 21:05:42
808
原创 一个标准的大数据hadoop的mapredunce标准代码的开发
mapreduce的运算机制以及标准代码开发: 运行机制三部分 : 开发一个mapreduce的步骤: 开头 : extends Configured implements Tool,重写run方法 1. 开发一个类的继承mapper类,重写map...
2018-07-21 00:10:07
348
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人