麻辣清汤-优快云博客

原创 MySQL 索引类型及其必要性与优点

MySQL提供多种索引类型以优化查询性能和数据完整性。主要索引包括：普通索引（加速查询）、唯一索引（保证数据唯一性）、主键索引（表唯一标识）、复合索引（多列查询优化）、全文索引（高效文本搜索）、空间索引（地理数据处理）和前缀索引（节省长文本存储）。索引的必要性体现在提高查询速度、确保数据完整性、加速表连接和优化排序分组操作。优点包括减少I/O、保证唯一性、优化执行计划和降低锁争用。使用时需注意：索引并非越多越好，应考虑维护成本，遵循最左前缀原则，并定期优化。小表和频繁更新的列需谨慎使用索引。

2025-06-12 16:13:33 465

原创 MySQL 中利用 mysql.help_topic 实现行转列的深入剖析

利用mysql.help_topic表实现行转列是一种巧妙而高效的方法，它充分利用了 MySQL 系统表的特性，通过简单的 SQL 语句就能完成复杂的数据格式转换。这种方法不仅适用于处理以逗号分隔的值，对于其他分隔符分隔的数据，也可以通过相应地修改substring_index函数中的分隔符参数来实现。在实际的数据库开发和数据分析工作中，掌握这种行转列的技巧能够大大提高我们处理数据的效率和灵活性。希望通过本文的介绍，读者们能够深入理解并熟练运用这种方法，为自己的数据库操作带来更多便利。

2025-03-19 11:41:14 1199

原创 kettle篇：发送邮件到qq邮箱

在ETL流程中，除了数据抽取和转换，及时的通知与沟通同样至关重要。在这篇文章中，我们将探讨如何在Kettle（Pentaho Data Integration）中实现邮件发送功能。邮件发送在ETL中的重要性显而易见。它能够帮助我们及时监控数据流程，提供任务成功或失败的即时反馈，并支持定期发送报告，确保团队间的信息传递高效有序。引用我的博客中《kettle篇：增量更新》中的作业，在该作业后面添加一个发送邮件组件。

2025-02-07 17:06:21 694

原创 kettle篇：增量更新

kettle篇：增量更新。

2025-02-07 16:25:29 896

原创文本评论情感分析（正负向情感判断，测验最准模型）

在如今这个信息爆炸的时代，用户生成的内容（UGC）如评论、反馈和社交媒体帖子等，扮演着越来越重要的角色。无论是企业还是个人，理解这些文本中的情感信息对决策和行为都有着深远的影响。文本评论情感分析，作为自然语言处理（NLP）中的一个关键应用领域，旨在通过分析和处理文本数据，自动识别和分类其中的情感倾向。情感分析的应用场景非常广泛，从企业监控品牌声誉、提升客户满意度，到政治分析、市场研究以及产品推荐等，几乎涵盖了所有需要理解用户情感的领域。

2024-09-12 17:36:41 5180 2

原创 kettle学习（利用jsonPath定位，json文件转换）

.zpData.jobList…jobName 和 $.zpData.jobList【*】.jobName 的区别。JSONPath 和 XPath 都是用于在数据结构中进行查询和导航的路径语言，但它们针对不同的数据格式。获取到该页面的json数据之后，双击进入源代码内，按住crtl+s保存json文件到本地。josn文件取自，boss直聘中的城市数据。不过两种用法在某些情况结果可能不一样。】.jobName 使用了方括号（【后面实验可知道下面这种方法也可以。

2024-06-11 15:27:26 1245

转载数据分析学习网站

w3school 学SQL https://www.w3school.com.cn/sql互联网数据资讯网 https://www.199it.com/CDA数据分析师官网 https://www.cda.cn/网易云课堂 https://study.163.com/CDA网校 https://edu.cda.cn/

2024-05-23 17:30:01 493

原创 python多线程的使用

在 Python 编程中，多线程是一项强大的技术，它允许我们同时执行多个任务，从而提高程序的效率和响应性。线程是进程中的一个执行单元，可以与其他线程共享进程的资源。在 Python 中，我们可以使用threading模块来创建线程。当多个线程访问共享资源时，可能会出现数据不一致的问题。为了解决这个问题，我们可以使用锁。线程之间可以通过一些机制进行通信，例如使用队列。

2024-05-20 17:43:50 270

原创 # Selenium 与浏览器自动化

Selenium 是一个用于自动化 Web 应用程序测试的工具。Selenium 支持多种编程语言，包括 Python、Java、C# 和Ruby，并且可以与主流的 Web 浏览器进行交互，以实现自动化测试。以下是关于 Selenium 和浏览器自动化的一些介绍。

2024-05-17 18:19:54 544

原创 Python 获取当前IP地址（爬虫代理）

在Python中，获取当前的公网IP地址通常涉及到发送一个请求到外部服务，因为本地IP地址通常只在你的私有网络内部是可见的，而公网IP地址是由你的ISP（互联网服务提供商）分配的。如果你的计算机连接到多个网络或具有多个网络接口，你可能需要检查每个接口来找到正确的IP地址。一个常见的方法是使用第三方API或服务，如 httpbin.org 提供的 ip 端点。以下是使用 requests。获取公网IP的方法可能会因网络环境和地理位置而异，如果你在一个受限制的网络环境中，你可能需要使用不同的服务或API。

2024-05-17 17:51:40 2066 1

原创 BOSS直聘定时投递岗位脚本~~

建立在已经爬取所需要的岗位信息之后，筛选出来我们需要投递的岗位的信息放到指定的目录之后。以下是关键代码，想要获取完整代码，关注公众号：“麻不辣青汤" 点击获取源码。

2024-05-17 16:05:30 1250 2

原创【BOSS直聘爬取系统功能介绍】

执行完函数“查看每个区存在多少页岗位(存放文件夹位置)”之后，在存放文件夹位置下会生成一个文件“对应页码表”，后续需要根据这个文件来确定不同区需要爬取的页码数，防止爬取重复数据。既然每个岗位只能爬取10页，我们可以采取一个岗位分10个地区，比如我需要爬取长沙市的xx岗位，直接爬取只能出现10页总共300个岗位，但是可以。确定好爬取需求之后，会在当前目下创建一个根据岗位和城市名的文件，后续爬取好的岗位信息都会保存在该文件内。，每个区假设都有10页，就可能爬取到80页数据。防止页面需要验证来中断爬取，采用。

2024-05-15 12:09:26 1620

原创最新Boss直聘爬虫系统（在跟~）

BOSS直聘爬虫经常会限制IP，我们采取控制浏览器的方法获取源码爬取例子:以爬取杭州市 “BI“岗位为例需要源码的v+: marshal_wz。

2024-04-26 11:50:35 1569

原创获取boss直聘城市地区josn数据

获取boss直聘地区josn数据

2024-04-25 16:43:11 758 1

原创 Python爬虫的基本概念和工作原理

简单了解一下Python爬虫的基本概念和工作原理。Python爬虫是一种自动化抓取互联网信息的程序。它通过网络请求模拟用户操作，将获取到的网页数据解析并提取所需要的信息。爬虫可以帮助我们高效地获取海量数据，并进行相应的分析和处理。1、发送请求 2、解析网页 3、数据处理总结前言Python爬虫的基本工作流程如下：1、发送请求2、解析网页3、数据处理现在让我们来具体了解一下Python爬虫的基本技术点。

2024-04-19 15:32:50 448

原创爬取2345天气数据

方法：利用Selenium 库，用于模拟浏览器操作，获取每个页面的源码，毕竟，有源码不愁数据。

2024-04-19 15:16:06 1396 4

原创效率工具：企业微信机器人完成脚本工作-异常监控（sql篇）

背景：elon在公司需要人工查看某些数据是否异常，并发送到指定企业微信群中。

2024-04-18 13:51:28 675

原创 VBA：批量复制sheet内指定内容

【代码】VBA：批量复制sheet内指定内容。

2024-02-20 13:52:23 926

原创 BOSS直聘岗位python爬取2（完整代码+详细介绍）

引用上篇对boss直聘每个岗位的源代码获取了之后，对字段的爬取前言：https://blog.youkuaiyun.com/weixin_52001949/article/details/135452969如有问题可私信关注博主。

2024-01-10 14:32:57 3730 2

原创 BOSS直聘岗位python爬取思路1（完整代码+详细介绍）

- 爬取字段：详情链接、岗位名、岗位年限、岗位薪资范围、职位描述、岗位关键字、岗位地区、岗位地址- 爬取工具：Python- 所需第三方库：selenium，BeautifulSoup，json- !！注意selenium必须要提前安装和浏览器版本一样的驱动器（本人在这步卡了好久，具体请看链接：）- 思路：（这样分段有利于中途报错不需要所有都重新跑） - 先利用selenium获取每个岗位的链接 - 再遍历页面的链接获取每个岗位招聘信息的源代码 - 再利用beautifulSoup对每个岗位

2024-01-09 14:53:47 13430 10

原创数据仓库入门介绍框架（附带完整项目实战）

一、诞生背景- 企业数据分析需要：各个部门自己建立独立的数据抽取系统，导致数据不一致

2024-01-03 14:36:07 1574

原创爬虫技巧1：6.6s内获取爬虫需要的cookie和header

转换工具网站：https://www.lddgo.net/convert/curl-to-code。（一定要关注博主，多学轻松，技巧不是偷懒，多学不懒）

2023-12-11 11:15:44 1253

原创 excel轻松实现一对多

1. 替换模板，更换数据2. 加载vba3. 执行程序

2023-12-05 12:12:24 1105

原创 SQL留存率问题

留存率（retention_ rate）通常用来衡量用户或客户的忠诚度和粘性。-留存率指的是在特定时间段内，有多少人保持了对某个产品、服务、平台或应用程序的使用并继续付费或进行其他有价值的操作。-通常情况下，留存率会作为一个百分比表示，并根据不同的时间段进行计算。1.直接从数据出发数据。

2023-05-26 15:59:21 1667

原创 Jupyter Notebook主题皮肤库

jupyter美化主题最详细设置 jupyterthemes

2023-05-15 16:06:32 1251

转载 word选中所有表格

word选中所有表格

2023-03-16 12:59:59 2759 4

原创 sql 查询--计算用户会在第二天登录的平均概率

sql查询（小白之家）--计算用户会在第二天登录的平均概率

2023-03-12 15:59:49 362

原创 SQL篇- 最大连续登录天数

sql小白最懂，最大连续登录天数

2023-02-27 10:54:41 2319

原创 powerbi 实现 RFM用户模型

powerbi 实现RFM模型

2022-12-07 08:53:56 503

原创利用pandas 读取pdf中的表格文件

利用pandas 读取pdf 中的指定表格文件实例pdf文件中的表格了解表格所在pdf具体页数（第四页）加载所需要的库pip install pdfplumberpip install pandas import pdfplumberimport pandas as pd with pdfplumber.open("文化软实力与中国对外抗疫援助_余伟斌.pdf") as pdf: page = pdf.pages[3] # 按照列表的规则，第四页 tab

2022-05-13 13:48:42 2025

原创利用pandas.read_html()直接读取网页中的表格数据

利用pandas.read_html()直接读取网页中的表格数据read_html() 函数是最简单的爬虫，可以爬取静态网页表格数据。但只适合于爬取 table 表格型数据首先分析pandas.read_html() 函数的参数import pandas as pddf=pd.read_html()# 常用的参数io：url、html文本、本地文件等header：标题行flavor：解析器skiprows：跳过的行attrs：属性，例如：attrs = {'id':'table'}

2022-05-12 11:12:29 5466

原创 pandas导入excel文件内容不一致的问题

当excel文件里面含有多个表时，用pandas导入会出现生成的dateframe表不一样。错误import pandas as pddf=pd.read_xlsx('文件名.xlsx')整体代码pd.read_excel(path, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False,dtype=None, engine=None,

2022-05-01 15:10:31 2456 1

原创 dataframe数据处理（字符串截取）

dataframe数据处理（字符串截取）要求：获取该工资的范围的最高工资和最低工资 df.salary.apply(lambda x:x.split('-')[0])对salary 列执行函数每行都以‘-’为分割符选取前面字符df.salary.apply(lambda x:x.split('-')[1][:-1])对salary 列执行函数每行都以‘-’为分割符选取后面字符...

2022-04-16 11:50:13 7812

原创利用python库 pandas完成数据分析（持续更新中~）

利用python库 pandas完成数据分析导读Pandas是一个强大的分析结构化数据的工具集，它的使用基础是Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也提供数据清洗功能。本文收集了Python数据分析库Pandas及相关工具的日常使用方法，备查，持续更新中。缩写说明df：任意的 Pandas DateFrame 对象s：任意的Pandas Series对象注：有些属性方法df和s都可以使用。推荐资源：pandas在线教程https://www.gai

2022-04-16 11:26:44 3743

原创树状结构分析方法论 +零售商实例

方法论从数据中发现经营问题，且数据分析师需要主导分析内容，输出业务问题发现由于数据维度的丰富性，使用第一类分析需求思路往往会在第二布，如果每个维度都尝试下探会非常耗时，这是可以从总体指标入手，逐层分解总体指标，形成下钻式树结构。分析思路如下：-----1. 梳理行业内经常谈及的指标-----2. 将指标拆解为另外两个指标的和或乘积（或同一指标不同维度），逐层下钻，直至无法分解-----3. 将指标按照拆解思路排放成树状结构，增加同比和环比值，通过观察变化比率快速定位问题。实例...

2022-04-08 08:40:48 1144

原创 ecxce制作帕累托的详细绘制

利用数据透视表得到每个用户分类的计数项（计数项2得到折线图需要的百分比）将表复制出来，降序计数添加占比（0%）选中数据，制作组合表刻度线的范围将占比线移到左下方将字段名改为 “占比”，将0%列入数据行里面...

2022-04-06 15:29:08 501

原创 excel 基于RFM模型、帕累托分析的用户画像项目实战

一、项目名称：电商行业用户画像搭建二、项目背景：某线上母婴平台发现最近一年各类营销活动的效果不佳，且总体销售额没有明显的增长。据了解，以往的营销活动面向所有用户，部分用户无论有无营销活动均稳定的消费，而有些用户很常时间未消费可能已转变为流失人群。三、分析目的和价值平台逐渐意识到用户分类的重要性。实现用户分类后，可针对不同用户实施组合促销、会员卡充值、满减等营销活动。四、分析要求以 2019 年 8 月 3 日为分析时点统计每个用户的 R 值、F 值、M 值运用平均值作为 RFM

2022-04-06 15:11:14 1650

原创数据分析方法论之RFM模型详解

RFMRFM模型是衡量客户价值和客户创利能力的重要工具和手段；帮助企业判断哪些用户有异动，是否有流失的预兆，从而增加相应的运营措施。Recency：最近一次消费，统计用户最近一次消费时点和当前时点的时间差Frequency：消费频次，指定时间区间内统计用户的购买次数Money：消费金额，指定时间区间内统计用户的消费总金额。根据用户历史行为数据，结合业务理解，实现用户分类，助力用户的精准营销。实现步骤获取R、F、M三个维度下的原始数据。定义R、F、M的评估模型与分界值进行数据处理，获

2022-04-05 20:19:02 2082

原创 [牛客面试题 SQL16 零食类商品中复购率top3高的商品]

牛客面试题 SQL16 零食类商品中复购率top3高的商品问题：请统计零食类商品中复购率top3高的商品。定义：某商品复购率=近90天购买它至少两次的人数/购买它的总人数。（近90天指包含最大日期（记为当天）在内的近90天）近90天购买它两次的人数。 select t.product_id,uid,count(*) as 用户购买的次数 from tb_product_info t join tb_order_overall t1 join tb_order_detail t2

2022-03-28 23:36:33 926

原创牛客sql面试题 SQL15 某店铺的各商品毛利率及店铺整体毛利率

牛客sql面试题 SQL15 某店铺的各商品毛利率及店铺整体毛利率问题：请计算2021年10月以来店铺901中商品毛利率大于24.9的商品信息及店铺整体毛利率。商品毛利率=（1-进价/平均单件售价）*100%-店铺毛利率=（1-总进价成本/总销售收入）*100%思路，先计算店铺汇总再纵向连接商品毛利率。1.店铺毛利率=(1-总进价成本/总销售收入)*100%。– 观察三表#店铺901，2021年10月以来...

2022-03-28 23:11:43 1681

数据库实操.pdf

数据库实操

2021-09-14

BOSS直聘爬取代码最新在更~

该Python脚本是一个用于爬取BOSS直聘网站上岗位信息的工具。它具备以下主要功能： 1. **配置和初始化**：导入必要的库，设置浏览器选项，禁用图片加载，禁用GPU，设置窗口大小等，以优化爬虫性能。 2. **发送企业微信消息**：当遇到需要验证的情况时，脚本会自动发送消息到企业微信。 3. **等待元素出现**：定义了一个函数，用于等待页面上的特定元素出现。 4. **获取城市各区区号**：通过请求BOSS直聘API，获取不同城市各区的区号信息，并保存到CSV文件。 5. **查看每个区的岗位页数**：爬取每个区域的岗位列表页面，获取总页数，并保存到CSV文件。 6. **爬取岗位信息**：访问每个岗位的列表页面，爬取岗位名称、工资、位置、公司信息等，并保存到CSV文件。 7. **获取岗位职责**：对已爬取的岗位链接进行访问，爬取岗位职责描述，并更新到CSV文件。 8. **获取和使用Cookies**：自动获取BOSS直聘网站的Cookies，并保存到文件，用于之后的自动登录和数据爬取。 9. **自动投递简历**：读取包含岗位链接的CSV文件，自动访问链接

2024-05-21

boss直聘爬取代码(有问题联系作者)

boss直聘爬取代码__________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

2024-04-03

Pandas 从入门到精通

Pandas是一个强大的数据分析和操作工具，它为Python提供了高效的数据结构和数据分析功能。下面是一个从入门到精通Pandas的学习路径，您可以按照以下步骤逐渐提升您的Pandas技能： 1. 学习基本概念： - 了解Pandas的数据结构：Series和DataFrame。 - 学习如何创建、访问和操作Series和DataFrame对象。 - 掌握Pandas中的索引和标签操作。 2. 数据导入和导出： - 学习如何从不同的数据源（例如CSV文件、Excel文件、数据库）中导入数据到Pandas的DataFrame中。 - 掌握如何将DataFrame数据导出到不同的格式（例如CSV、Excel、数据库）。 3. 数据清洗和预处理： - 学习如何处理缺失值、异常值和重复数据。 - 掌握数据类型转换和重命名列名。 - 学习如何进行数据筛选、排序和分组。 4. 数据分析和统计： - 学习如何进行描述性统计分析，包括计算均值、中位数、标准差等统计指标。 - 掌握如何进行数据透视表和交叉表分析。

2024-01-03

power bi 孙兴华火力全开版所有学习课件和笔记

资源来自b站up主-孙新华zz 非常适合新手入手power Bi商业智能分析

2022-05-29

详细介绍python作图工具 seaborn

导读：前期，分别对python数据分析三剑客（numpy、pandas、matplotlib）进行了逐一详细入门介绍，今天推出系列第4篇教程：seaborn。这是一个基于matplotlib进行高级封装的可视化库，相比之下，绘制图表更为集成化、绘图风格具有更高的定制性。绘图接口更为集成，可通过少量参数设置实现大量封装绘图多数图表具有统计学含义，例如分布、关系、统计、回归等对Pandas和Numpy数据类型支持非常友好风格设置更为多样，例如风格、绘图环境和颜色配置等最后简要总结seaborn制作可视化图表的几个要点：绝大多数绘图接口名字均为XXXXplot形式绘图数据对象主要区分连续型的数值变量和离散型的分类数据绘图接口中的传参类型以pandas.dataframe为主，当提供了dataframe对象作为data参数后，x、y以及hue即可用相应的列名作为参数，但也支持numpy的数组类型和list类型绘图接口底层大多依赖一个相应的类来实现，但对外开放的只有3个类：PairGrid、JointGrid和FacetGrid 接口包括了常用的分布、关系、统计、回归类图表

2022-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据库实操.pdf

BOSS直聘爬取代码最新在更~

boss直聘爬取代码(有问题联系作者)

Pandas 从入门到精通

power bi 孙兴华火力全开版 所有学习课件和笔记

详细介绍python作图工具 seaborn

JavaEE开发环境的搭建(终稿).pptx

数据库的配置.pdf

数据库的安装.pdf

空空如也

power bi 孙兴华火力全开版所有学习课件和笔记