- 博客(16)
- 收藏
- 关注
原创 数据分析——sql篇
定义:返回 左表的所有记录,以及右表中 匹配的记录。如果右表中没有匹配的记录,则返回 NULL。定义:返回 右表的所有记录,以及左表中 匹配的记录。适用场景:分区表适合有明显划分特征的数据,分桶表适合需要高效连接和聚合的场景。定义:按某一列或多列的值将数据划分为多个分区,每个分区存储在不同的目录中。适用场景:当需要查询左表的所有记录,即使右表中没有匹配的数据时使用。适用场景:当需要查询右表的所有记录,即使左表中没有匹配的数据时使用。定义:内部表由 Hive 完全管理,包括数据的存储和元数据的管理。
2025-02-17 14:55:59
983
原创 爬取1688商品数据并导出为CSV文件
在这篇文章中,我将向你展示如何使用Python的DrissionPage库来爬取1688网站上的商品数据,并将这些数据导出为CSV文件。DrissionPage是一个结合了Selenium和Requests库优点的库,它允许我们以更高效的方式进行网页数据的抓取。关键代码提取想要的字段,这里需要注意的是,我怎么去拿浏览器中对应数据的信息。自动化库的好处就是模拟人的行为进行操作。关键代码这里没有采取抓包。
2024-10-10 17:52:31
506
1
原创 数据开发---数据存储
DWS(Data Warehouse Summary):汇总数据层,存储汇总后的数据,提供高层次的分析和报表支持,通常基于详细数据层进行计算和聚合。同时,维度表之间的关系比较简单,不适合描述复杂的维度层次结构。优势:雪花模型在节省存储空间的同时,仍保持了较好的查询性能,适合需要更详细的维度信息和更复杂的维度结构的场景。概念:雪花模型在星型模型的基础上进一步规范化维度表,将维度表中的数据分解成更多的表,形成类似雪花的结构。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。
2024-09-29 14:20:52
1025
原创 全国天气数据集(2011-2024)
历时两年半,抓取了全国的天气数据集,在数据驱动的今天,天气数据作为重要的环境信息,对于农业、交通、旅游、健康等多个领域都具有极高的价值。我们选择的数据源是天气网历史天气频道,该网站提供了全国34个省、市所属的2290个地区的历史天气预报查询服务,包括历史气温、风向、风力等天气状况,以及生活指数、健康指数、旅游指数和天气预警等实用信息。使用API接口(如果可用):如果天气网提供了API接口,应优先考虑使用API进行数据获取,这样可以避免直接抓取网页带来的诸多问题。
2024-09-07 12:24:34
1929
10
原创 python面试基础问题
当内部函数被调用时,尽管外部函数的执行已经结束,但内部函数依然能够访问外部函数的变量。多线程:threading,使得某个线程的IO操作和另一个线程的CPU计算可以同时进行,避免CPU等待IO,提高CPU利用率。多CPU并行:需要多核CPU,可以并行地处理多个线程,充分利用现代CPU的多核性能。函数作为一等公民:在Python中,函数可以被赋值给变量、作为参数传递给其他函数,以及作为其他函数的返回值。异步IO:asyncio,在单线程利用CPU和IO同时执行的原理,实现函数的异步执行。
2024-09-04 20:18:13
650
原创 在线考试系统---多用户权限
通过该系统,管理员可以高效管理系统的各项功能,教师可以方便地发布和管理考试试题,用户可以随时随地参与在线学习和考试。用户管理:管理员可以管理系统中的所有用户角色和用户信息,包括登录、个人信息修改、密码重置等功能,保障系统安全。成绩管理:教师能够对学生提交的试卷进行评分,及时反馈学生的考试成绩,便于学生进行针对性的学习。在线考试:用户可以在线参加待考试的内容,系统提供多种题型供用户选择,满足用户不同的学习需求。资讯管理:管理员可以发布、编辑和删除系统资讯,为用户提供最新的学习动态和行业动态。
2024-08-30 16:15:48
439
原创 淘宝,京东,京东评论爬虫项目
京东,淘宝,京东评论爬虫项目自动化工具Python和Selenium库,应浏览器的WebDriver,如ChromeDriver。
2024-08-24 17:03:21
1270
原创 电商用户行为可视化大屏--大数据项目
该项目通过Kafka、Zookeeper、Flume等工具实现高效的数据采集与传输,利用Hadoop、Hive构建四层数据架构(ODS、DWD、DWS、ADS)进行数据存储与管理,并借助Spark进行数据处理与分析,最终通过可视化大屏展示。
2024-08-22 21:39:30
1286
3
全国天气数据采集+源代码
2024-11-07
京东商品数据集数据量11w左右
2024-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人