自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 有人玩这个游戏吗?第22关(斐波那契参观者)附游戏资源包

本篇文章为《人力资源机器》游戏第22关的个人过关思路(运行20个命令,平均156步骤)题目如图有9个绿色格子可以用于暂放数据,左边传送带为要处理的数据,可用操作:inbox(输入新数据)、outbox(输出数据)、copyfrom(从指定格子中复制数据)、copyto(将手上的数据复制到指定格子)、add(将手上数据与指定格子数据相加)、sub(将手上数据与指定格子数据相减)、bump+(在指定格子数据的基础上+1)、bump-(在指定格子数据的基础上-1)、

2025-07-23 15:23:28 449 4

原创 自用爬虫知识总结--第二章 再识网页

本文介绍了HTML的基本语法和文档结构。HTML通过标签定义元素边界,以元素作为最小功能单元,并通过嵌套关系构建网页整体结构。文章详细讲解了成对标签和自闭合标签的区别,以及元素如何包含属性、内容来实现网页功能。同时说明了HTML需要结合CSS和JavaScript才能实现完整网页效果,但爬虫主要关注HTML内容解析。最后阐述了HTML文档的标准结构,包括根元素、head和body部分的组成及作用,为后续学习网页爬虫技术打下基础。

2025-07-21 10:56:15 1376

原创 HTML常见标签

本文介绍了HTML常用标签分类及示例:①基础结构标签(html/head/body);②文本标签(h1-h6标题/p段落/strong加粗);③媒体标签(img图片/video视频);④链接(a)与列表(ul/ol)标签;⑤容器标签(div布局/span行内);⑥表单标签(input/textarea/select)。每种标签均配有代码示例,重点说明了核心属性及应用场景,帮助开发者快速掌握HTML页面构建基础。

2025-07-18 15:49:55 882

原创 自用爬虫知识总结--第一章 初识爬虫

本文介绍了网络爬虫的基本概念和工作原理。首先解释了URL的组成结构(协议、域名、路径)和两种路径映射方式:物理路径映射(直接对应服务器文件)和逻辑路径映射(通过路由规则动态生成内容)。其次详细讲解了浏览器开发者工具Network面板的使用方法,包括如何分析HTTP请求和响应状态码。最后阐述了爬虫的三个核心步骤:获取数据(发送请求)、处理数据(解析响应)、存储数据。文章为后续学习网页爬取技术奠定了理论基础,帮助读者理解从URL请求到数据获取的完整流程。

2025-07-17 15:52:03 1765

原创 酷狗音乐TOP500数据爬取(简单易操作)--完整课设报告

本文介绍了一个基于Python的酷狗音乐TOP500榜单数据采集系统。项目通过requests库发送HTTP请求,并使用BeautifulSoup解析网页内容,实现了对500首热门歌曲的名称、作者等信息的自动化采集。文章详细阐述了系统架构设计,包括数据采集、解析和存储三大模块,并探讨了调试过程中遇到的请求被拒、数据提取错误等问题及解决方案。测试结果表明系统能准确采集完整数据,同时提出了并发请求优化、异常处理完善等改进方向。该系统为音乐市场分析提供了可靠的数据支持,具有实际应用价值。附带完整Python实现

2025-07-17 09:40:47 1438

原创 HDFS基本操作训练(创建、上传、下载、删除)

本文介绍了Hadoop集群的启动与HDFS基本操作。首先通过sbin/start-dfs.sh、sbin/start-yarn.sh等命令启动HDFS和YARN服务,包括NameNode、DataNode等核心组件。然后详细讲解了HDFS操作:1)使用hdfs dfs -mkdir创建目录;2)通过hdfs dfs -put上传文件;3)使用hdfs dfs -get下载文件;4)通过hdfs dfs -rm删除文件。此外还介绍了hdfs dfs -ls查看目录、hdfs dfs -cat查看文件内容等辅助

2025-07-16 22:05:35 734

原创 豆瓣电影Top250数据爬取与可视化分析(简单好上手)

本文介绍了爬取豆瓣电影Top250数据并进行可视化分析的过程。首先使用Python的requests和BeautifulSoup库爬取电影信息(包括片名、评分、导演等),通过正则表达式提取结构化数据并保存为Excel文件。随后利用pandas和matplotlib对评分数据进行统计分析,可视化结果显示Top250电影的评分主要集中在8.7-8.8分区间,表明该评分段的影片具有较高认可度。整个流程涵盖数据获取、处理和分析三个环节,代码实现完整,为电影评分分布研究提供了有效方法。

2025-07-14 17:38:18 1409

原创 基于hadoop的竞赛网站日志数据分析与可视化(下)

讲解了如何用hadoop对数据进行初步处理,本篇主要讲解用python对结果数据进行可视化分析。

2025-07-14 15:32:36 1472

原创 基于Hadoop的竞赛网站日志数据分析与可视化(上)

摘要:本文基于Hadoop技术对某竞赛网站2020年5月至2021年3月期间的200万条用户访问日志(50GB)进行大数据处理与分析。研究采用Hadoop分布式架构,实现了每日访问次数统计(峰值识别)、用户/页面访问频次分析、特定月份数据筛选(11-12月及1-2月)等核心功能。通过MapReduce程序完成数据清洗、聚合与排序处理,并将结果序列化存储。

2025-07-14 15:06:05 1347

原创 简单有效的京东评论数据爬取,附python代码

用python完成京东评论数据爬取

2024-12-12 22:50:28 2631 10

原创 备战英语四级每日单词分享(30个)---第十天

英语四级单词背诵分享

2024-08-30 22:29:59 1036

原创 备战英语四级每日单词分享(30个)---第九天

英语单词背诵素材分享

2024-08-28 23:44:45 1020

原创 每日英语长难句分享---第一天

英语长难句练习素材分享

2024-08-28 17:32:39 1538

原创 备战英语四级每日单词分享(45个)---第八天

英语单词背诵素材分享

2024-08-26 23:51:28 818

原创 英语长难句分析---扇贝NPC分析法

英语长难句分析方法

2024-08-25 22:17:33 2804 1

原创 备战英语四级每日单词分享(45个)---第七天

英语四级单词背诵素材分享

2024-08-24 20:19:40 1751

原创 备战英语四级每日单词分享(45个)---第六天

备战四级英语单词素材分享

2024-08-23 22:10:08 896

原创 备战英语四级每日单词分享(45个)---第五天

备战英语四级每日单词素材分享

2024-08-22 19:55:50 1085

原创 备战英语四级每日单词分享(45个)---第四天

备战英语四级每日单词训练素材分享

2024-08-21 08:00:00 1006

原创 备战英语四级每日单词分享(45个)---第三天

每日英语单词背诵素材

2024-08-20 17:55:07 787

原创 备战英语四级每日单词分享(45个)---第二天

英语单词素材分享

2024-08-19 19:59:19 971

原创 备战英语四级每日单词分享(45个)---第一天

英语单词练习素材

2024-08-18 21:55:41 944

原创 学习算法第四天(python)---递归

好久不见,递归法就是在函数中通过对自身函数的调用来求解特定结果,通常把一个大型的复杂问题,转化为与该复杂问题相似但规模更小的问题来求解。和递推相比,递归代码可读性更强运用递归,主要需要考虑两个问题①递归出口②如何把一个复杂问题转化为多个简单问题先来两道简单题热热身(●ˇ∀ˇ●)

2024-04-08 19:35:58 725

原创 算法学习第三天(python)---递推

以一行为例,正方形边长增加后,为了能划出更多的正方形避免不了会有重叠(最好的情况下只和上一个正方形错开一行,这样看好像一行还是代表一个正方形),可到边界最后一个正方形时,不存在下一个正方形和他重叠,于是会浪费掉正方形边长数-1行。所以(1+2+3+......+m)*(1+2+3+......+n)=(1+m)*(1+n)*m*n/4。将以下情况相加,提取公因式,即(1+2+3+......+m)*(1+2+3+......+n)~~则宽为1的情况下,长方形个数为(1+2+3+......+m)*n。

2024-04-01 21:24:25 779

原创 算法学习第二天(python)---模拟

输入n行m列整数(1≤n,m≤100),每一个整数代表一个像素,对于每一个像素以它为中心3*3区域内的所有像素的平均值,就是这个像素模糊后的结果(涉及超出图像范围外的不算,如图像的四角只用算4个像素的平均值)。这样就有思路了,先用两重循环来遍历每一个作为中心点的(x,y),然后根据位置特点,再用两重循环遍历以(x,y)为中心,分别+1、+0、+(-1)位置的像素值。【对于初始购入的饮料数n,每喝三瓶兑换一瓶,n-3+1,然后继续喝,直到n<3。求均值后,将其值作为模糊后的像素存入新的二维数组中。

2024-03-31 22:30:55 478 1

原创 算法学习第一天(python)---枚举法

也就是求100~999范围内同时满足上面三个条件的数,除3余2,除5余3,除7余2。输入苹果的个数和它们分别的高度,人手能伸到的高度,板凳的高度,判断能摘到的苹果个数。六位数已知前两位,也就是求后四位的数字,范围0000~9999,最后两位数字相同00,11,22,33,44,55,66,77,88,99,且能被16和14整除。1.想要知道一个食品袋中鸡蛋的个数,就可以一个一个拿出来(循环),分别判断它是不是鸡蛋,是,就增加一个计数,不是就不计,然后判断食品袋中是否为空,为空则推出循环,不空则继续。

2024-03-30 22:13:58 880 1

人力资源机器游戏 是一个有助于锻炼代码思维的益智游戏,本人会同步跟新个人过关策略,大家一起来玩呀~

人力资源机器游戏。是一个有助于锻炼代码思维的益智游戏,本人会同步跟新个人过关策略,大家一起来玩呀~

2025-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除