- 博客(26)
- 收藏
- 关注
原创 有人玩这个游戏吗?第22关(斐波那契参观者)附游戏资源包
本篇文章为《人力资源机器》游戏第22关的个人过关思路(运行20个命令,平均156步骤)题目如图有9个绿色格子可以用于暂放数据,左边传送带为要处理的数据,可用操作:inbox(输入新数据)、outbox(输出数据)、copyfrom(从指定格子中复制数据)、copyto(将手上的数据复制到指定格子)、add(将手上数据与指定格子数据相加)、sub(将手上数据与指定格子数据相减)、bump+(在指定格子数据的基础上+1)、bump-(在指定格子数据的基础上-1)、
2025-07-23 15:23:28
449
4
原创 自用爬虫知识总结--第二章 再识网页
本文介绍了HTML的基本语法和文档结构。HTML通过标签定义元素边界,以元素作为最小功能单元,并通过嵌套关系构建网页整体结构。文章详细讲解了成对标签和自闭合标签的区别,以及元素如何包含属性、内容来实现网页功能。同时说明了HTML需要结合CSS和JavaScript才能实现完整网页效果,但爬虫主要关注HTML内容解析。最后阐述了HTML文档的标准结构,包括根元素、head和body部分的组成及作用,为后续学习网页爬虫技术打下基础。
2025-07-21 10:56:15
1376
原创 HTML常见标签
本文介绍了HTML常用标签分类及示例:①基础结构标签(html/head/body);②文本标签(h1-h6标题/p段落/strong加粗);③媒体标签(img图片/video视频);④链接(a)与列表(ul/ol)标签;⑤容器标签(div布局/span行内);⑥表单标签(input/textarea/select)。每种标签均配有代码示例,重点说明了核心属性及应用场景,帮助开发者快速掌握HTML页面构建基础。
2025-07-18 15:49:55
882
原创 自用爬虫知识总结--第一章 初识爬虫
本文介绍了网络爬虫的基本概念和工作原理。首先解释了URL的组成结构(协议、域名、路径)和两种路径映射方式:物理路径映射(直接对应服务器文件)和逻辑路径映射(通过路由规则动态生成内容)。其次详细讲解了浏览器开发者工具Network面板的使用方法,包括如何分析HTTP请求和响应状态码。最后阐述了爬虫的三个核心步骤:获取数据(发送请求)、处理数据(解析响应)、存储数据。文章为后续学习网页爬取技术奠定了理论基础,帮助读者理解从URL请求到数据获取的完整流程。
2025-07-17 15:52:03
1765
原创 酷狗音乐TOP500数据爬取(简单易操作)--完整课设报告
本文介绍了一个基于Python的酷狗音乐TOP500榜单数据采集系统。项目通过requests库发送HTTP请求,并使用BeautifulSoup解析网页内容,实现了对500首热门歌曲的名称、作者等信息的自动化采集。文章详细阐述了系统架构设计,包括数据采集、解析和存储三大模块,并探讨了调试过程中遇到的请求被拒、数据提取错误等问题及解决方案。测试结果表明系统能准确采集完整数据,同时提出了并发请求优化、异常处理完善等改进方向。该系统为音乐市场分析提供了可靠的数据支持,具有实际应用价值。附带完整Python实现
2025-07-17 09:40:47
1438
原创 HDFS基本操作训练(创建、上传、下载、删除)
本文介绍了Hadoop集群的启动与HDFS基本操作。首先通过sbin/start-dfs.sh、sbin/start-yarn.sh等命令启动HDFS和YARN服务,包括NameNode、DataNode等核心组件。然后详细讲解了HDFS操作:1)使用hdfs dfs -mkdir创建目录;2)通过hdfs dfs -put上传文件;3)使用hdfs dfs -get下载文件;4)通过hdfs dfs -rm删除文件。此外还介绍了hdfs dfs -ls查看目录、hdfs dfs -cat查看文件内容等辅助
2025-07-16 22:05:35
734
原创 豆瓣电影Top250数据爬取与可视化分析(简单好上手)
本文介绍了爬取豆瓣电影Top250数据并进行可视化分析的过程。首先使用Python的requests和BeautifulSoup库爬取电影信息(包括片名、评分、导演等),通过正则表达式提取结构化数据并保存为Excel文件。随后利用pandas和matplotlib对评分数据进行统计分析,可视化结果显示Top250电影的评分主要集中在8.7-8.8分区间,表明该评分段的影片具有较高认可度。整个流程涵盖数据获取、处理和分析三个环节,代码实现完整,为电影评分分布研究提供了有效方法。
2025-07-14 17:38:18
1409
原创 基于hadoop的竞赛网站日志数据分析与可视化(下)
讲解了如何用hadoop对数据进行初步处理,本篇主要讲解用python对结果数据进行可视化分析。
2025-07-14 15:32:36
1472
原创 基于Hadoop的竞赛网站日志数据分析与可视化(上)
摘要:本文基于Hadoop技术对某竞赛网站2020年5月至2021年3月期间的200万条用户访问日志(50GB)进行大数据处理与分析。研究采用Hadoop分布式架构,实现了每日访问次数统计(峰值识别)、用户/页面访问频次分析、特定月份数据筛选(11-12月及1-2月)等核心功能。通过MapReduce程序完成数据清洗、聚合与排序处理,并将结果序列化存储。
2025-07-14 15:06:05
1347
原创 学习算法第四天(python)---递归
好久不见,递归法就是在函数中通过对自身函数的调用来求解特定结果,通常把一个大型的复杂问题,转化为与该复杂问题相似但规模更小的问题来求解。和递推相比,递归代码可读性更强运用递归,主要需要考虑两个问题①递归出口②如何把一个复杂问题转化为多个简单问题先来两道简单题热热身(●ˇ∀ˇ●)
2024-04-08 19:35:58
725
原创 算法学习第三天(python)---递推
以一行为例,正方形边长增加后,为了能划出更多的正方形避免不了会有重叠(最好的情况下只和上一个正方形错开一行,这样看好像一行还是代表一个正方形),可到边界最后一个正方形时,不存在下一个正方形和他重叠,于是会浪费掉正方形边长数-1行。所以(1+2+3+......+m)*(1+2+3+......+n)=(1+m)*(1+n)*m*n/4。将以下情况相加,提取公因式,即(1+2+3+......+m)*(1+2+3+......+n)~~则宽为1的情况下,长方形个数为(1+2+3+......+m)*n。
2024-04-01 21:24:25
779
原创 算法学习第二天(python)---模拟
输入n行m列整数(1≤n,m≤100),每一个整数代表一个像素,对于每一个像素以它为中心3*3区域内的所有像素的平均值,就是这个像素模糊后的结果(涉及超出图像范围外的不算,如图像的四角只用算4个像素的平均值)。这样就有思路了,先用两重循环来遍历每一个作为中心点的(x,y),然后根据位置特点,再用两重循环遍历以(x,y)为中心,分别+1、+0、+(-1)位置的像素值。【对于初始购入的饮料数n,每喝三瓶兑换一瓶,n-3+1,然后继续喝,直到n<3。求均值后,将其值作为模糊后的像素存入新的二维数组中。
2024-03-31 22:30:55
478
1
原创 算法学习第一天(python)---枚举法
也就是求100~999范围内同时满足上面三个条件的数,除3余2,除5余3,除7余2。输入苹果的个数和它们分别的高度,人手能伸到的高度,板凳的高度,判断能摘到的苹果个数。六位数已知前两位,也就是求后四位的数字,范围0000~9999,最后两位数字相同00,11,22,33,44,55,66,77,88,99,且能被16和14整除。1.想要知道一个食品袋中鸡蛋的个数,就可以一个一个拿出来(循环),分别判断它是不是鸡蛋,是,就增加一个计数,不是就不计,然后判断食品袋中是否为空,为空则推出循环,不空则继续。
2024-03-30 22:13:58
880
1
人力资源机器游戏 是一个有助于锻炼代码思维的益智游戏,本人会同步跟新个人过关策略,大家一起来玩呀~
2025-07-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅