自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 python爬虫

【代码】python爬虫。

2025-03-20 21:19:06 141

原创 数据分析——sql篇

定义:返回 左表的所有记录,以及右表中 匹配的记录。如果右表中没有匹配的记录,则返回 NULL。定义:返回 右表的所有记录,以及左表中 匹配的记录。适用场景:分区表适合有明显划分特征的数据,分桶表适合需要高效连接和聚合的场景。定义:按某一列或多列的值将数据划分为多个分区,每个分区存储在不同的目录中。适用场景:当需要查询左表的所有记录,即使右表中没有匹配的数据时使用。适用场景:当需要查询右表的所有记录,即使左表中没有匹配的数据时使用。定义:内部表由 Hive 完全管理,包括数据的存储和元数据的管理。

2025-02-17 14:55:59 983

原创 数据处理——图片

数据处理——图片数据处理--视觉方向

2025-01-22 15:35:16 180

原创 python爬取BOSS直聘代码分享

BOSS直聘爬虫代码分享,数据集分享

2024-11-08 10:29:28 639 1

原创 数据处理(numpy库的常见简单处理)

【代码】数据处理(numpy库的常见简单处理)

2024-11-06 11:12:39 223

原创 智联招聘爬虫

智联招聘爬虫在自动化信息收集、数据分析和挖掘、职位搜索和推荐、数据可视化,具有广泛价值。

2024-11-05 17:05:07 1964 2

原创 天气可视化系统

构建天气可视化系统:技术栈详解与实践

2024-10-15 09:56:25 256

原创 爬取1688商品数据并导出为CSV文件

在这篇文章中,我将向你展示如何使用Python的DrissionPage库来爬取1688网站上的商品数据,并将这些数据导出为CSV文件。DrissionPage是一个结合了Selenium和Requests库优点的库,它允许我们以更高效的方式进行网页数据的抓取。关键代码提取想要的字段,这里需要注意的是,我怎么去拿浏览器中对应数据的信息。自动化库的好处就是模拟人的行为进行操作。关键代码这里没有采取抓包。

2024-10-10 17:52:31 506 1

原创 数据开发---数据存储

DWS(Data Warehouse Summary):汇总数据层,存储汇总后的数据,提供高层次的分析和报表支持,通常基于详细数据层进行计算和聚合。同时,维度表之间的关系比较简单,不适合描述复杂的维度层次结构。优势:雪花模型在节省存储空间的同时,仍保持了较好的查询性能,适合需要更详细的维度信息和更复杂的维度结构的场景。概念:雪花模型在星型模型的基础上进一步规范化维度表,将维度表中的数据分解成更多的表,形成类似雪花的结构。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。

2024-09-29 14:20:52 1025

原创 数仓开发——数据采集

数仓开发——数据采集

2024-09-13 09:44:35 941

原创 全国天气数据集(2011-2024)

历时两年半,抓取了全国的天气数据集,在数据驱动的今天,天气数据作为重要的环境信息,对于农业、交通、旅游、健康等多个领域都具有极高的价值。我们选择的数据源是天气网历史天气频道,该网站提供了全国34个省、市所属的2290个地区的历史天气预报查询服务,包括历史气温、风向、风力等天气状况,以及生活指数、健康指数、旅游指数和天气预警等实用信息。使用API接口(如果可用):如果天气网提供了API接口,应优先考虑使用API进行数据获取,这样可以避免直接抓取网页带来的诸多问题。

2024-09-07 12:24:34 1929 10

原创 python面试基础问题

当内部函数被调用时,尽管外部函数的执行已经结束,但内部函数依然能够访问外部函数的变量。多线程:threading,使得某个线程的IO操作和另一个线程的CPU计算可以同时进行,避免CPU等待IO,提高CPU利用率。多CPU并行:需要多核CPU,可以并行地处理多个线程,充分利用现代CPU的多核性能。函数作为一等公民:在Python中,函数可以被赋值给变量、作为参数传递给其他函数,以及作为其他函数的返回值。异步IO:asyncio,在单线程利用CPU和IO同时执行的原理,实现函数的异步执行。

2024-09-04 20:18:13 650

原创 在线考试系统---多用户权限

通过该系统,管理员可以高效管理系统的各项功能,教师可以方便地发布和管理考试试题,用户可以随时随地参与在线学习和考试。用户管理:管理员可以管理系统中的所有用户角色和用户信息,包括登录、个人信息修改、密码重置等功能,保障系统安全。成绩管理:教师能够对学生提交的试卷进行评分,及时反馈学生的考试成绩,便于学生进行针对性的学习。在线考试:用户可以在线参加待考试的内容,系统提供多种题型供用户选择,满足用户不同的学习需求。资讯管理:管理员可以发布、编辑和删除系统资讯,为用户提供最新的学习动态和行业动态。

2024-08-30 16:15:48 439

原创 各个地级市的年度天气数据集

全国各个地级市天气数据集

2024-08-26 10:14:27 534 2

原创 淘宝,京东,京东评论爬虫项目

京东,淘宝,京东评论爬虫项目自动化工具Python和Selenium库,应浏览器的WebDriver,如ChromeDriver。

2024-08-24 17:03:21 1270

原创 电商用户行为可视化大屏--大数据项目

该项目通过Kafka、Zookeeper、Flume等工具实现高效的数据采集与传输,利用Hadoop、Hive构建四层数据架构(ODS、DWD、DWS、ADS)进行数据存储与管理,并借助Spark进行数据处理与分析,最终通过可视化大屏展示。

2024-08-22 21:39:30 1286 3

招聘数据,招聘活动频繁:据教育部消息,2024年9月以来,各地各高校已开展招聘活动5.5万场,提供岗位信息1093万条

人才分析,职位分析,4w左右数据

2024-11-19

全国天气数据采集+源代码

全国天气数据集(2011-2024):构建与分析 在数据驱动的今天,天气数据作为重要的环境信息,对于农业、交通、旅游、健康等多个领域都具有极高的价值。本文将介绍如何构建一个覆盖全国范围、时间跨度从2011年到2024年的天气数据集,并简要讨论其潜在的应用场景。 一、数据来源与选择 我们选择的数据源是天气网历史天气频道,该网站提供了全国34个省、市所属的2290个地区的历史天气预报查询服务,包括历史气温、风向、风力等天气状况,以及生活指数、健康指数、旅游指数和天气预警等实用信息。 注意: 在进行数据抓取之前,请确保你的行为符合该网站的使用条款以及相关法律法规。 考虑到数据量巨大,建议通过合法渠道申请数据接口或与数据提供商合作。 二、数据抓取策略 由于直接通过网页抓取大量历史数据可能面临技术挑战和法律风险,以下是一种可行的策略概述: 确定目标地区与时间范围:明确需要哪些城市和哪些年份的数据。 使用API接口(如果可用):如果天气网提供了API接口,应优先考虑使用API进行数据获取,这样可以避免直接抓取网页带来的诸多问题。 网页爬虫(仅作为概念说明):如果API不可用,编写Python爬虫

2024-11-07

boss直聘数据集,可以数据分析,选择合适的岗位

数据集字段职位链接 职位名称 薪资 地区 经验学历要求 公司名称 公司简介 技术栈要求 员工福利

2024-11-05

微博热门话题数据集大数据数据分析

可以舆情分析,大数据数据分析数据存储

2024-11-05

京东商品数据集数据量11w左右

京东商品数据集是一个包含了京东平台上商品详细信息的集合,这些数据集通常用于数据分析、市场调研、商品推荐等多种场景。根据您提供的字段(商品名称、价格、评论条数、店铺、id),以下是对京东商品数据集的一个详细描述: 数据集字段说明 商品名称: 描述:商品的正式名称,是用户识别商品的主要依据。 示例:“小米Redmi Note 12 Turbo” 价格: 描述:商品的当前销售价格,可能包括原价、促销价等信息。价格可能会随时间、促销活动等因素发生变化。 示例:¥1999 注意:价格可能包含货币符号(如¥、$等),具体取决于数据集的格式和来源。 评论条数: 描述:该商品收到的用户评论数量,反映了商品的市场反馈和受欢迎程度。 示例:2000+ 注意:评论条数可能以“+”结尾,表示具体数量超过了显示的数字。 店铺: 描述:销售该商品的店铺名称或标识,可能包括京东自营、第三方商家等。 示例:“京东自营旗舰店”或“XX品牌官方旗舰店” id: 描述:商品的唯一标识符(如SKU ID),用于在京东平台上唯一识别该商品。 示例:一个由数字和字母组成的字符串,如“1234567890”

2024-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除