- 博客(49)
- 资源 (6)
- 收藏
- 关注
原创 MySQL 中利用 mysql.help_topic 实现行转列的深入剖析
利用mysql.help_topic表实现行转列是一种巧妙而高效的方法,它充分利用了 MySQL 系统表的特性,通过简单的 SQL 语句就能完成复杂的数据格式转换。这种方法不仅适用于处理以逗号分隔的值,对于其他分隔符分隔的数据,也可以通过相应地修改substring_index函数中的分隔符参数来实现。在实际的数据库开发和数据分析工作中,掌握这种行转列的技巧能够大大提高我们处理数据的效率和灵活性。希望通过本文的介绍,读者们能够深入理解并熟练运用这种方法,为自己的数据库操作带来更多便利。
2025-03-19 11:41:14
917
原创 kettle篇:发送邮件到qq邮箱
在ETL流程中,除了数据抽取和转换,及时的通知与沟通同样至关重要。在这篇文章中,我们将探讨如何在Kettle(Pentaho Data Integration)中实现邮件发送功能。邮件发送在ETL中的重要性显而易见。它能够帮助我们及时监控数据流程,提供任务成功或失败的即时反馈,并支持定期发送报告,确保团队间的信息传递高效有序。引用我的博客中《kettle篇:增量更新》中的作业,在该作业后面添加一个发送邮件组件。
2025-02-07 17:06:21
470
原创 文本评论情感分析(正负向情感判断,测验最准模型)
在如今这个信息爆炸的时代,用户生成的内容(UGC)如评论、反馈和社交媒体帖子等,扮演着越来越重要的角色。无论是企业还是个人,理解这些文本中的情感信息对决策和行为都有着深远的影响。文本评论情感分析,作为自然语言处理(NLP)中的一个关键应用领域,旨在通过分析和处理文本数据,自动识别和分类其中的情感倾向。情感分析的应用场景非常广泛,从企业监控品牌声誉、提升客户满意度,到政治分析、市场研究以及产品推荐等,几乎涵盖了所有需要理解用户情感的领域。
2024-09-12 17:36:41
3500
2
原创 kettle学习(利用jsonPath定位,json文件转换)
.zpData.jobList…jobName 和 $.zpData.jobList【*】.jobName 的区别。JSONPath 和 XPath 都是用于在数据结构中进行查询和导航的路径语言,但它们针对不同的数据格式。获取到该页面的json数据之后,双击进入源代码内,按住crtl+s保存json文件到本地。josn文件取自,boss直聘中的城市数据。不过两种用法在某些情况结果可能不一样。】.jobName 使用了方括号(【后面实验可知道下面这种方法也可以。
2024-06-11 15:27:26
1135
转载 数据分析学习网站
w3school 学SQL https://www.w3school.com.cn/sql互联网数据资讯网 https://www.199it.com/CDA数据分析师官网 https://www.cda.cn/网易云课堂 https://study.163.com/CDA网校 https://edu.cda.cn/
2024-05-23 17:30:01
446
原创 python多线程的使用
在 Python 编程中,多线程是一项强大的技术,它允许我们同时执行多个任务,从而提高程序的效率和响应性。线程是进程中的一个执行单元,可以与其他线程共享进程的资源。在 Python 中,我们可以使用threading模块来创建线程。当多个线程访问共享资源时,可能会出现数据不一致的问题。为了解决这个问题,我们可以使用锁。线程之间可以通过一些机制进行通信,例如使用队列。
2024-05-20 17:43:50
263
原创 # Selenium 与浏览器自动化
Selenium 是一个用于自动化 Web 应用程序测试的工具。Selenium 支持多种编程语言,包括 Python、Java、C# 和Ruby,并且可以与主流的 Web 浏览器进行交互,以实现自动化测试。以下是关于 Selenium 和浏览器自动化的一些介绍。
2024-05-17 18:19:54
527
原创 Python 获取当前IP地址(爬虫代理)
在Python中,获取当前的公网IP地址通常涉及到发送一个请求到外部服务,因为本地IP地址通常只在你的私有网络内部是可见的,而公网IP地址是由你的ISP(互联网服务提供商)分配的。如果你的计算机连接到多个网络或具有多个网络接口,你可能需要检查每个接口来找到正确的IP地址。一个常见的方法是使用第三方API或服务,如 httpbin.org 提供的 ip 端点。以下是使用 requests。获取公网IP的方法可能会因网络环境和地理位置而异,如果你在一个受限制的网络环境中,你可能需要使用不同的服务或API。
2024-05-17 17:51:40
1995
1
原创 BOSS直聘定时投递岗位脚本~~
建立在已经爬取所需要的岗位信息之后,筛选出来我们需要投递的岗位的信息放到指定的目录之后。以下是关键代码,想要获取完整代码,关注公众号:“麻不辣青汤" 点击获取源码。
2024-05-17 16:05:30
1126
2
原创 【BOSS直聘爬取系统功能介绍】
执行完函数“查看每个区存在多少页岗位(存放文件夹位置)”之后,在存放文件夹位置下会生成一个文件“对应页码表”,后续需要根据这个文件来确定不同区需要爬取的页码数,防止爬取重复数据。既然每个岗位只能爬取10页,我们可以采取一个岗位分10个地区,比如我需要爬取长沙市的xx岗位,直接爬取只能出现10页总共300个岗位,但是可以。确定好爬取需求之后,会在当前目下创建一个根据岗位和城市名的文件,后续爬取好的岗位信息都会保存在该文件内。,每个区假设都有10页,就可能爬取到80页数据。防止页面需要验证来中断爬取,采用。
2024-05-15 12:09:26
1442
原创 最新Boss直聘爬虫系统(在跟~)
BOSS直聘爬虫经常会限制IP,我们采取控制浏览器的方法获取源码爬取例子:以爬取 杭州市 “BI“岗位为例需要源码的v+: marshal_wz。
2024-04-26 11:50:35
1493
原创 Python爬虫的基本概念和工作原理
简单了解一下Python爬虫的基本概念和工作原理。Python爬虫是一种自动化抓取互联网信息的程序。它通过网络请求模拟用户操作,将获取到的网页数据解析并提取所需要的信息。爬虫可以帮助我们高效地获取海量数据,并进行相应的分析和处理。1、发送请求 2、解析网页 3、数据处理总结前言Python爬虫的基本工作流程如下:1、发送请求2、解析网页3、数据处理现在让我们来具体了解一下Python爬虫的基本技术点。
2024-04-19 15:32:50
422
原创 BOSS直聘岗位python爬取2(完整代码+详细介绍)
引用上篇对boss直聘每个岗位的源代码获取了之后,对字段的爬取前言:https://blog.youkuaiyun.com/weixin_52001949/article/details/135452969如有问题可私信关注博主。
2024-01-10 14:32:57
3534
2
原创 BOSS直聘岗位python爬取思路1(完整代码+详细介绍)
- 爬取字段:详情链接、岗位名、岗位年限、岗位薪资范围、职位描述、岗位关键字、岗位地区、岗位地址- 爬取工具:Python- 所需第三方库:selenium,BeautifulSoup,json- !! 注意selenium必须要提前安装和浏览器版本一样的驱动器(本人在这步卡了好久,具体请看链接:)- 思路:(这样分段有利于中途报错不需要所有都重新跑) - 先利用selenium获取每个岗位的链接 - 再遍历页面的链接获取每个岗位招聘信息的源代码 - 再利用beautifulSoup对每个岗位
2024-01-09 14:53:47
12606
10
原创 爬虫技巧1:6.6s内获取爬虫需要的cookie和header
转换工具网站:https://www.lddgo.net/convert/curl-to-code。(一定要关注博主,多学轻松,技巧不是偷懒,多学不懒)
2023-12-11 11:15:44
1221
原创 SQL留存率问题
留存率(retention_ rate)通常用来衡量用户或客户的忠诚度和粘性。-留存率指的是在特定时间段内,有多少人保持了对某个产品、服务、平台或应用程序的使用并继续付费或进行其他有价值的操作。-通常情况下,留存率会作为一个百分比表示,并根据不同的时间段进行计算。1.直接从数据出发数据。
2023-05-26 15:59:21
1645
原创 利用pandas 读取pdf中的表格文件
利用pandas 读取pdf 中的指定表格文件实例pdf文件中的表格了解表格所在pdf具体页数(第四页)加载所需要的库pip install pdfplumberpip install pandas import pdfplumberimport pandas as pd with pdfplumber.open("文化软实力与中国对外抗疫援助_余伟斌.pdf") as pdf: page = pdf.pages[3] # 按照列表的规则,第四页 tab
2022-05-13 13:48:42
1964
原创 利用pandas.read_html()直接读取网页中的表格数据
利用pandas.read_html()直接读取网页中的表格数据read_html() 函数是最简单的爬虫,可以爬取静态网页表格数据。但只适合于爬取 table 表格型数据首先分析pandas.read_html() 函数的参数import pandas as pddf=pd.read_html()# 常用的参数io:url、html文本、本地文件等header:标题行flavor:解析器skiprows:跳过的行attrs:属性,例如:attrs = {'id':'table'}
2022-05-12 11:12:29
5339
原创 pandas导入excel文件内容不一致的问题
当excel文件里面含有多个表时,用pandas导入会出现生成的dateframe表不一样。错误import pandas as pddf=pd.read_xlsx('文件名.xlsx')整体代码pd.read_excel(path, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False,dtype=None, engine=None,
2022-05-01 15:10:31
2325
1
原创 dataframe数据处理(字符串截取)
dataframe数据处理(字符串截取)要求:获取该工资的范围的最高工资和最低工资 df.salary.apply(lambda x:x.split('-')[0])对salary 列 执行函数 每行都以‘-’为分割符选取前面字符df.salary.apply(lambda x:x.split('-')[1][:-1])对salary 列 执行函数 每行都以‘-’为分割符选取后面字符...
2022-04-16 11:50:13
7765
原创 利用python库 pandas完成数据分析(持续更新中~)
利用python库 pandas完成数据分析导读Pandas是一个强大的分析结构化数据的工具集,它的使用基础是Numpy(提供高性能的矩阵运算),用于数据挖掘和数据分析,同时也提供数据清洗功能。本文收集了Python数据分析库Pandas及相关工具的日常使用方法,备查,持续更新中。缩写说明df:任意的 Pandas DateFrame 对象s: 任意的Pandas Series对象注: 有些属性方法df和s都可以使用。推荐资源:pandas在线教程https://www.gai
2022-04-16 11:26:44
3721
原创 树状结构分析方法论 +零售商实例
方法论从数据中发现经营问题,且数据分析师需要主导分析内容,输出业务问题发现由于数据维度的丰富性,使用第一类分析需求思路往往会在第二布,如果每个维度都尝试下探 会非常耗时,这是可以从总体指标入手,逐层分解总体指标,形成下钻式树结构。分析思路如下:-----1. 梳理行业内经常谈及的指标-----2. 将指标拆解为另外两个指标的和或乘积(或同一指标不同维度),逐层下钻,直至无法分解-----3. 将指标按照拆解思路排放成树状结构,增加同比和环比值,通过观察变化比率快速定位问题。实例...
2022-04-08 08:40:48
1081
原创 ecxce制作帕累托的详细绘制
利用数据透视表得到每个用户分类的计数项(计数项2得到折线图需要的百分比)将表复制出来, 降序计数 添加 占比(0%)选中数据,制作组合表刻度线的范围将占比线移到左下方将字段名改为 “占比”,将0%列入数据行里面...
2022-04-06 15:29:08
490
原创 excel 基于RFM模型、帕累托分析的用户画像项目实战
一、 项目名称:电商行业用户画像搭建二、 项目背景:某线上母婴平台发现最近一年各类营销活动的效果不佳,且总体销售额没有明显的增长。据了解,以往的营销活动面向所有用户,部分用户无论有无营销活动均稳定的消费,而有些用户很常时间未消费可能已转变为流失人群。三、 分析目的和价值平台逐渐意识到用户分类的重要性。实现用户分类后,可针对不同用户实施组合促销、会员卡充值、满减等营销活动。四、 分析要求以 2019 年 8 月 3 日为分析时点统计每个用户的 R 值、F 值、M 值运用平均值作为 RFM
2022-04-06 15:11:14
1606
原创 数据分析方法论之RFM模型详解
RFMRFM模型是衡量客户价值和客户创利能力的重要工具和手段;帮助企业判断哪些用户有异动,是否有流失的预兆,从而增加相应的运营措施。Recency:最近一次消费,统计用户最近一次消费时点和当前时点的时间差Frequency:消费频次,指定时间区间内统计用户的购买次数Money:消费金额,指定时间区间内统计用户的消费总金额。根据用户历史行为数据,结合业务理解,实现用户分类,助力用户的精准营销。实现步骤获取R、F、M三个维度下的原始数据。定义R、F、M的评估模型与分界值进行数据处理,获
2022-04-05 20:19:02
2047
原创 [牛客面试题 SQL16 零食类商品中复购率top3高的商品]
牛客面试题 SQL16 零食类商品中复购率top3高的商品问题:请统计零食类商品中复购率top3高的商品。定义:某商品 复购率=近90天购买它至少两次的人数/购买它的总人数。(近90天指包含最大日期(记为当天)在内的近90天)近90天 购买它两次的人数。 select t.product_id,uid,count(*) as 用户购买的次数 from tb_product_info t join tb_order_overall t1 join tb_order_detail t2
2022-03-28 23:36:33
897
原创 牛客sql面试题 SQL15 某店铺的各商品毛利率及店铺整体毛利率
牛客sql面试题 SQL15 某店铺的各商品毛利率及店铺整体毛利率问题:请计算2021年10月以来店铺901中商品 毛利率大于24.9的商品信息及店铺整体毛利率。商品毛利率=(1-进价/平均单件售价)*100%-店铺毛利率=(1-总进价成本/总销售收入)*100%思路,先计算店铺汇总 再纵向连接商品毛利率。1.店铺毛利率=(1-总进价成本/总销售收入)*100%。– 观察三表#店铺901,2021年10月以来...
2022-03-28 23:11:43
1639
原创 sql面试题 连续签到领金币(连续登录问题)
牛客面试题问题:计算每个用户2021年7月以来每月获得的金币数问题一:连续登录问题 select uid,date(in_time) as dt, row_number() over(partition by uid order by date(in_time)) 编号, date(in_time)-(row_number() over(partition by uid order by date(in_time))) dt2 from tb_user_log where
2022-03-26 21:51:28
1484
BOSS直聘爬取代码最新在更~
2024-05-21
boss直聘爬取代码(有问题联系作者)
2024-04-03
Pandas 从入门到精通
2024-01-03
详细介绍python作图工具 seaborn
2022-04-27
JavaEE开发环境的搭建(终稿).pptx
2021-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人