小楼一夜听春雨258-优快云博客

原创 Streamlit可视化之设计案例分析小助手

本文设计了一个设计案例分析小助手，旨在通过对设计网的信息爬取与可视化呈现，结合大模型的语言能力，对设计案例进行简单分析。可视化通过Streamlit框架实现，爬虫通过requests+BeautifulSoup实现，大模型是调用openai接口，数据来源于设计网站。地理位置是根据项目地址调用百度地图API。

2025-01-21 19:56:18 479

原创 PySpark之金融数据分析（Spark RDD、SQL练习题）

本文使用的数据来源于天池大赛数据集，由蚂蚁金服提供，包含用户基本信息、申购赎回记录、收益率、银行间拆借利率等多个维度，本文通过PySpark实现对该数据集的简单分析。

2025-01-21 19:02:37 1592

原创 Python人脸识别库DeepFace使用教程及源码解析

DeepFace 是 Python 中一款功能强大且应用广泛的库，专注于面部分析任务，在计算机视觉和人工智能领域有着显著的地位。它基于深度学习技术，为开发者提供了简洁易用的接口，使得面部分析的复杂操作变得相对简单。文章介绍DeepFace API的基本使用和及源码解析，并介绍了DeepFace二次开发。

2025-01-20 22:24:15 2243

Redis是一个不错的缓存工具，可以作为应用程序和后端数据库之间的缓存层，把频繁访问的数据放在Redis，可以大大减少对后端数据库的访问压力。Redis中的有序列表、Pub/Sub功能也可以用来实现简单的消息队列系统，例如用于异步处理任务、解耦系统组件等。Redis中的有序集合可以实现排行榜功能，能够实时更新排名数据并快速查询排名情况。Redis的原子特性可以用来实现计数器功能，如网站的访问量计数、用户点赞数计数等，能够保证在高并发情况下计数的准确性。

2025-01-02 11:16:59 974

原创 Spark区分应用程序 Application、作业Job、阶段Stage、任务Task

在Apache Spark中，有几个核心概念用于描述应用程序的执行流程和组件，包括应用程序 Application、作业Job、阶段Stage、任务Task

2024-12-05 15:21:17 624

原创 PySpark3：pyspark.sql.functions常见的60个函数

PySpark3：pyspark.sql.functions常见的60个函数

2024-11-20 15:28:00 1384

原创 PySpark3：Row对象常见操作以及Row、RDD、DataFrame互相转换

Row对象常见操作以及Row、RDD、DataFrame互相转换

2024-11-15 16:37:53 518

原创（六）Spark大数据开发实战：豆瓣电影数据处理与分析（scala版）

本项目对电影信息数据进行处理和分析，实现了对电影演员、电影类型、上映时间等多维度的统计分析。同时考察了DataFrame操作、Spark SQL操作、聚合与数据转换、窗口函数、日期和时间处理、数据清洗、写入写出等等。由于Scala是直接运行在JVM上，因此它的运行速度通常比Python快。经测试，本项目的scala版本代码运行总用时22.8秒，而python版本代码运行总用时24.6秒，scala运行比python稍快一点，总的来说相差不大，在大规模数据量的项目中，scala的优势会更加明显。

2024-11-12 10:03:55 3510

原创（五）Spark大数据开发实战：豆瓣电影数据处理与分析（python版）

Spark大数据开发实战：灵活运用PySpark常用DataFrame API。本文数据来自采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别所有电影的相关信息并存储为csv文件。

2024-10-31 15:29:05 1305

原创 Python连接Neo4j（py2neo）并创建4万节点电影演员关系图

本项目实现了一个Neo4jDatabase类，基于py2neo操作Neo4j图数据库。然后从豆瓣电影网爬取相关信息，在Neo4j数据库中创建相应的节点和关系，实现了电影数据的结构化存储。

2024-10-28 09:34:07 1463 1

原创 Python+whisper/vosk实现语音识别

Whisper 是一个由 OpenAI 开发的人工智能语音识别模型，它能够将语音转换为文本。Whisper 模型特别之处在于它的设计目标是能够理解和转录多种语言的语音，包括但不限于英语。Whisper 模型在训练时使用了大量不同语言的语音数据，这使得它具有很好的跨语言能力。Vosk 是一个开源的语音识别库，它可以在离线环境下工作，不依赖于任何外部服务。Vosk 基于Kaldi语音识别框架，支持多种语言，包括中文。Vosk提供了多种预训练模型，可以根据需求选择适合的模型进行语音识别。

2024-10-09 13:46:05 3666

原创 Python连接Kafka收发数据等操作

Apache Kafka 是一个开源流处理平台，由 LinkedIn 开发，并于 2011 年成为 Apache 软件基金会的一部分。Kafka 广泛用于构建实时的数据流和流式处理应用程序，它以高吞吐量、可扩展性和容错性著称。kafka-python 是一个用 Python 编写的 Apache Kafka 客户端库。

2024-09-24 17:00:03 1615

原创 HDFS常用命令及Python连接HDFS操作

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是Hadoop集群中的一部分，用于存储大量数据，并运行在商用硬件集群上。

2024-09-09 09:56:29 1665

原创 Linux CentOS安装PySpark3.5（单机版）详细教程及机器学习实战

PySpark 是 Apache Spark 的 Python 接口，提供了一套丰富的 API，用于进行分布式数据处理、机器学习和复杂的数据分析任务。它允许 Python 开发者利用 Spark 的并行计算和内存计算能力，处理大规模数据集。PySpark 提供了 DataFrame、DataSet 和 RDD 等数据结构，以及各种算子，用于数据的读取、转换和计算。

2024-09-05 14:11:37 1928

原创 Linux CentOS安装Hadoop3.1.3（单机版）详细教程

Hadoop是一个开源的分布式计算框架，主要用于大数据处理。它包括HDFS分布式文件系统和MapReduce计算模型，能够高效地存储和处理大规模数据集，广泛用于数据挖掘、分析和机器学习。

2024-08-30 13:48:42 2802 3

原创 BUG解决：postman可以请求成功，但Python requests请求报403

使用Python的requests库对接物联数据的接口之前一直正常运行，昨天突然请求不通了，通过进一步验证发现凡是使用代码调用接口就不通，而使用postman就能调通，请求参数啥的都没变。

2024-07-10 10:00:24 4362 2

原创 Python任务调度的几种方式

Python任务调度的几种方式：1、通过time.sleep(n)。2、通过Linux Crontab。3、通过APScheduler。4、通过AirFlow框架

2024-03-26 10:42:55 2262 2

原创 python编写API接口实现数据筛选、查询与分页

接口可以通过python flask框架实现。Flask是一个轻量级的Web框架，它提供了足够的灵活性来构建定制的RESTful API。开发者可以根据需求轻松地设计和实现接口。数据的查询可以通过pymysql连接MySQL数据库实现。数据的筛选和分页可以通过堆叠where条件、row_number实现。以下代码中连接的数据库用的是我电脑本地之前做学生管理系统的测试数据，可自行替换为自己的数据库、表、字段。由于系统上需要分页展示数据，并提供按字段筛选数据的功能，于是需要我写个接口，以供前端使用。

2024-03-25 16:59:26 919

原创基于ALBERT 进行文本向量化

ALBERT (A Lite BERT) 是一种改进的 BERT 模型，旨在减少参数数量并提高训练速度，同时保持或提高性能。“albert_chinese_large”是 ALBERT 模型的一个版本，它是在中文数据集上预训练的。

2024-03-22 11:10:56 785

原创 Python实现ANSI CRC16校验算法

循环冗余校验（CRC）算法是一种广泛应用于数据传输和存储中的错误检测方法。它通过利用多项式除法及余数的原理，对传输或存储的数据进行校验，以确保数据的完整性和准确性。CRC16是CRC算法中的一种常见标准，例如ANSI CRC16。

2024-03-20 16:44:28 902

原创豆瓣电影信息爬取与可视化分析

利用requests库采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别前100部电影的相关信息。本项目主要考察的是对requests爬虫、pandas数据处理、matplotlib绘图等Python模块的使用，难度不大。

2024-03-17 15:36:23 1457

原创（四）PySpark3：Mlib机器学习实战-信用卡交易数据异常检测

Spark Mlib实现了在分布式大数据环境下的机器学习训练，并且可以通过Spark SQL对数据集进行数据预处理以及特征工程，可以高效处理大规模数据集。但是Spark Mlib目前支持的算法还比较少，支持的机器学习算法有限，而且并不直接支持深度学习算法。所以，选择Spark进行机器学习训练与预测，可能更多考量的是成本与时间优势，但是对于复杂建模场景或者对模型精度要求较高的场景，Spark将难以胜任。

2024-03-17 01:45:42 1378

原创（三）PySpark3：SparkSQL40题

SQL笔试经典40题，使用PySpark SQL代码实现。

2024-03-15 15:35:18 1487

原创 Python对头发二维建模（考虑风力、重力）

数值方法被用于创建电影、游戏或其他媒体中的计算机图形。例如，生成“逼真”的烟雾、水或爆炸等动画。本文内容是对头发的模拟，要求考虑重力、风力的影响。3、作用在每根头发上的力包括重力（在-z方向上）和恒定的风力（在+x方向上）。1、人的头部是一个半径为10厘米的球体。2、每根头发都与球体的表面垂直相交。

2024-03-11 16:57:07 495

原创爬虫：爬取新闻内容及图片，存入数据库

然后，依次访问每一个新闻链接，并解析标题、内容，需要对空格、特殊字符等做一下清洗。根据子频道路径进行分类，并爬取像素值大于阈值的图片（避免爬取到页面上的二维码等小图），图片保存在服务器本地某个文件夹下，如果没有符合条件的图片，则会报错，在main函数中抛出异常，跳过此新闻链接的爬取。首先，对新华网主页进行爬取，获取页面上所有的新闻链接，存放进入link_list列表中。1、对新闻主页上的新闻进行爬取，要求解析出标题、内容、新闻类型、图片并存入数据库。2、只爬取带有图片的新闻，一张即可。

2024-03-11 15:43:12 2333

原创 python连接数据库与增删改查（MySQL、GBase）

psycopg2用于连接和操作PostgreSQL数据库，它是对libpq（PostgreSQL的C语言库）的封装，为Python提供了一个高效且功能丰富的接口来与PostgreSQL数据库进行交互。由于工作中需要用到pandas对数据库表的查询、计算、插入、删除等操作，需要使用Python连接数据库并进行操作，于是写了一个DataBase类，实现对MySQL、Gbase数据库的连接，用到的Python库主要是pymysql、psycopg2。

2024-03-11 13:44:40 824

原创（二）PySpark3：SparkSQL编程

总的来说，Spark SQL是一个功能强大的工具，适合于处理大规模数据集和进行复杂的数据分析。Spark SQL能够访问多种数据源，包括本地数据集、HDFS、Hive、HBase等，并且通过集成类RDD、类Excel、类SQL的数据处理操作，增强了数据处理的易用性和多样性。

2024-03-07 14:44:34 2059

原创（一）PySpark3：安装教程及RDD编程

Apache Spark是一个用于大数据处理的开源分布式计算框架，而PySpark则是Spark的Python 实现。PySpark允许使用Python编程语言来利用Spark的强大功能，使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择：PySpark：使用简洁而易学的Python作为编程语言，这使得PySpark学习难度大大降低。Spark-Scala：使用Scala作为主要编程语言。

2024-01-30 10:51:18 2960

原创 streamlit中文开发手册（详细版）

Streamlit 是一个用于创建数据科学和机器学习应用的Python框架。它的目标是使数据应用的开发变得更加简单，无需繁琐的前端代码。Streamlit的主要设计目标是让数据科学家和分析师能够轻松快速地构建数据科学和机器学习应用。它专注于简单性和快速迭代，使用户能够使用几行代码即可创建交互性应用。即使不懂前端知识HTML、CSS等，也能通过Streamlit框架提供的函数构建一个漂亮的web页面。

2024-01-12 14:15:15 51894 4

原创 python+requests+BeautifulSoup使用教程及爬虫实战

BeautifulSoup提供了简洁而直观的API，能够自动纠正不规范的HTML代码，并处理嵌套标签、缺失标签等问题，还支持多种解析器（如lxml、html5lib等），可以根据需要选择不同的解析器来提高解析速度和效果，被广泛应用于爬虫中。是一个使用Python + Flask编写的HTTP Request & Response Service，该服务主要用于测试HTTP库，你可以向他发送请求，然后他会按照指定的规则将你的请求返回（查看你所发送请求中的信息）。是HTTP请求响应的字符编码方式。

2023-11-30 08:36:56 1345

原创 leetcode力扣第11题：盛最多水的容器（算法题中等难度）

leetcode力扣第11题：盛最多水的容器（算法题中等难度）

2023-08-10 09:39:49 410

原创 leetcode力扣第8题：字符串转换整数 (atoi)（算法题中等难度）

leetcode力扣第8题：字符串转换整数 (atoi)（算法题中等难度）

2023-08-09 09:04:56 207

原创 leetcode力扣第6题：N 字形变换（算法题中等难度）

leetcode力扣第6题：N 字形变换（算法题中等难度）

2023-08-07 09:41:44 306

原创 leetcode力扣第262题：行程和用户（困难难度SQL题）

leetcode力扣第262题：行程和用户（困难难度SQL题）

2023-08-04 11:26:58 333

原创 leetcode力扣第180题：连续出现的数字（SQL中等难度）

leetcode力扣第180题：连续出现的数字（SQL中等难度）

2023-08-03 10:02:17 246

原创 leetcode力扣第3题：无重复字符的最长子串（中等）

leetcode力扣第3题：无重复字符的最长子串（中等）

2023-08-02 23:02:16 171 1

原创 SQL优化总结

另外，MySQL中执行 from 后的表关联查询是从左往右执行的（Oracle相反），所以尽量用小表驱动大表，左边表数据结果尽量小。如果无重复数据，不必使用distinct和union all，省去排序运算的时间。如有重复数据，分析重复原因，在表关联前先去除重复数据。，索引并不是越多越好，虽会提高查询效率，却会降低插入和更新的效率，所以在插入和更新表时一般先删掉索引，待操作结束后再。如果不是用于聚合函数的过滤，可以用where先过滤数据，减少分组时的数据量，而不是在分组后用having过滤。

2023-03-24 14:10:13 174

原创 SQL笔试经典40题

SQL是我接触的第二门编程语言，学得挺早，但到现在已经好几年没用过SQL了，因为搞机器学习用python（numpy/pandas），最近刷笔试题遇到SQL题都有点忘了，故再次拾起，回顾回顾。本文所使用的数据库为Oracle19c。SQL (Structured Query Language) 是具有数据操纵和数据定义等多种功能的数据库语言，这种语言具有交互性特点，能为用户提供极大的便利，数据库管理系统应充分利用SQL语言提高计算机应用系统的工作质量与效率。SQL 语句可以单行或多行书写，以分号结尾；

2023-03-23 15:27:50 10317 3

原创阅读笔记（FedGraphNN: A Federated Learning Benchmark System for Graph Neural Networks）

(Graph Neural Networks，GNNs)都是基于大量的图数据进行训练的，然而在许多现实场景中，例如医疗保健系统中的住院预测，图数据通常存储在多个数据所有者处，由于涉及患者的隐私和相关法律法规限制，不同数据所有者的数据不能直接共享。每个参与图联邦学习的客户端都持有一组图数据，例如在生物化学行业中，一个分子可以表示为一个图，其中节点表示原子，边表示化学键，客户端持有的图数据包括多个分子图，典型的应用是图分类。每个客户端拥有整张图的一部分数据（即子图），典型应用为链接预测、节点分类。

2023-02-20 17:39:46 631

原创图卷积网络（Graph Convolution Network，GCN）

在图神经网络出现之前，一般的神经网络只能对常规的欧式数据进行处理，其特点就是节点有固定的排列规则和顺序，如２维网格和１维序列。近几年来，将深度学习应用到处理和图结构数据相关的任务中越来越受到人们的关注。图神经网络的出现使其在上述任务中取得了重大突破，比如在社交网络、自然语言处理、计算机视觉甚至生命科学等领域得到了非常广泛的应用。图神经网络可以把实际问题看作图中节点之间的连接和消息传播问题，对节点之间的依赖关系进行建模，从而能够很好地处理图结构数据。

2023-02-16 16:20:40 17358

空空如也

空空如也