- 博客(270)
- 资源 (9)
- 收藏
- 关注

原创 常见的数据分析师的面试问题 完整文件放在GitHub链接上了!!!擅用crtl + F
文章目录前言1.常见的数据分析师的面试问题1.1 基础知识考查**1.1.1概率论与数理统计:**(1)用简洁的话语简述**随机变量**的含义。(2) 随机变量和随机试验间有什么关系(3) 划分连续型随机变量和离散型随机变量的依据。(4)变量独立和不相关的区别(5) 常见分布的分布函数/概率密度函数,以及分布的特性,如指数分布的无记忆性。:smile:(6) 协方差和相关系数的区别(7) 随机变量常用特征的解释(期望,方差等)。(8) 中位数是否等于期望。(9) 常见分布的期望和方差是什么?(10)如何给没
2021-03-24 21:59:49
9760

原创 Python数据分析实践项目 教育平台的线上课程智能推荐
文章目录摘要关键词:数据分析;数据可视化;数据预处理;协调过滤1.问题描述1.1问题背景1.2所需关键技术2.数据分析任务 1 数据预处理任务1.1对照附录1,理解各字段的含义,进行缺失值、重复值等方面的必要处理。任务1.2对用户信息表中 recently_logged 字段的“--”值进行必要的处理,并在报告中描述处理过程。任务 2 平台用户活跃度分析任务2.1分别绘制各省份与各城市平台登录次数热力地图,并分析用户分布情况。任务2.2分别绘制工作日与非工作日各时段的用户登录次数柱状图,并分析用户活跃的主要
2021-01-14 22:33:57
21463
7

原创 使用Pandas进行数据预处理 笔记1 任务5.1 合并数据
文章目录使用pandas进行数据预处理任务5.1 合并数据代码5-1 索引完全相同时的横向堆叠5-2 表名完全相同时的concat纵向堆叠5-3 使用append方法的参数及其说明5.1.2 主键合并数据5-4 使用merge函数合并数据表5-5 使用join方法实现主键合并5.1.3 重叠合并数据5-6 重叠合并5-7 将多张菜品订单详情表纵向合并1.堆叠不同时间的订单详情表5-8 订单详情表,订单信息表,客户信息表主键合并使用pandas进行数据预处理任务5.1 合并数据import numpy
2020-12-16 17:25:42
2790
1

原创 python数据分析项目有趣 新零售-无人智能售货机商务数据分析
import warningswarnings.filterwarnings('ignore')import datetimeimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport reimport os#数据探索#1 获取所有文件的名称和路径data_path = './data/' #数据存储路径data_names = os.listdir(data_path) #列举出data
2020-06-10 16:20:25
15382
24
原创 cannot import name ‘just_fix_windows_console‘ from ‘colorama‘
cannot import name 'just_fix_windows_console' from 'colorama'
2022-12-01 15:48:16
3263
3
原创 在使用scikit-optimize中No module named ‘skopt‘
在使用scikit-optimize中No module named 'skopt'
2022-11-30 14:23:12
662
原创 泪目!一天终于解决了这个bug Pyspark: Exception: Java gateway process exited before sending the driver its port
Pyspark: Exception: Java gateway process exited before sending the driver its port number
2022-09-15 15:00:40
1251
原创 搭建 bitnami/spark里面不能通过vi创建脚本文件 (/var/lib/dpkg/lock-frontend), are you root?
搭建 bitnami/spark里面不能通过vi创建脚本文件 (/var/lib/dpkg/lock-frontend), are you root?
2022-09-13 16:36:57
935
原创 利用selenium框架爬取京东省市区数据时,网页里面内嵌的一个窗口遇到的NoSuchElementException的 bug,原因是iframe
利用selenium框架爬取京东省市区数据时,网页里面内嵌的一个窗口遇到的NoSuchElementException的 bug,原因是iframe
2022-07-21 16:08:34
294
原创 pyspark连接mysql出现An error occurred while calling o283.load: java.sql.SQLException: No suitable driver
pyspark连接mysql出现An error occurred while calling o283.load: java.sql.SQLException: No suitable driver
2022-06-17 14:42:52
762
原创 AttributeError: ‘RDD‘ object has no attribute ‘toDF‘
AttributeError: ‘RDD‘ object has no attribute ‘toDF‘
2022-06-17 09:42:43
1267
原创 Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai
jupyter搭建spark环境遇到的bug
2022-06-16 10:49:13
2006
1
原创 Windows10 下jupyter配置pyspark + jupyterlab 已下载好所有配置文件
Windows10 下jupyter配置pyspark + jupyterlab 已下载好所有配置文件
2022-06-13 18:18:20
598
原创 /usr/bin/gzip: 1: ELF: not found /usr/bin/gzip: 3: : not found /usr/bin/gzip: 4: Syntax erro
root@DESKTOP-9LANUGK:/opt# tar -zxvf spark-3.2.1-bin-hadoop3.2-scala2.13.tgz/usr/bin/gzip: 1: ELF: not found/usr/bin/gzip: 3: : not found/usr/bin/gzip: 4: Syntax error: "(" unexpectedtar: Child returned status 2tar: Error is not recoverable:
2022-06-09 17:47:15
2106
1
原创 Tableau 看板搭建小技巧
情景:在多个筛选器一起筛选的时候 第一步:先创建字段,设置index 第二步:再创建一个字段:page设置代码如下: 第三个:将page字段放上筛选器,并设置显示 情景:我想统计一个字段,在某个维度下统计去重后的某个维度数据(不是最小颗粒度的维度,例如不是唯一id列)。 遇到问题:在仪表板进行kk_tiny_category筛选时候,不会自动筛选掉,进行自动更新变化数字,即使在筛选器里面已经将筛选器设置为仅相关。 解决方法:将筛选器设置为添加到上下文 解决效果:完美解决...
2022-06-06 17:22:16
713
原创 【面试】insta360面试-12-26
💡 笔试交付邮箱:yumingliang@insta360.com温馨提醒:如有不诚信行为会直接取消资格。交付格式可以选用 sql 文件格式或者 word 文档格式,不要用 PDF 等不好复制代码的格式。SQL 等答案请先自行运行过再提交。以下 6 题选 4 题作答即可,如果你有能力完成全部,那会更棒:1、你之前数据分析的职业生涯或者项目中,是否有数据分析结果和预期结果不相符的情况。如有请说明背景,并且聊聊你是怎么处理的。微博与小红书水军识别模型的 参数定义2、Excel 处理exc
2022-05-19 23:19:10
1689
1
原创 【需求】DBeaver中使用with as,下面使用as出来的表却报错说不存在,ERROR: relation “new_dppp“ does not exist
bugbug如下:Navicat中同样的语句可以使用,但是DBeaver中却不能使用,折腾半天,终于把问题解决了,但是不知道为什么,可能是软件本身设置如此吧解决bug解决方法:不要有换行,猜测是换行是独立片段,没有联系(这估计是DBeaver的特性,Navicat中不会这样)拓展那么的就像换行,空着美观一点怎么办,可以解决,加注释行就可以解决了...
2022-05-07 09:45:17
1989
6
转载 postagsql中统计一个表的大小
Postgresql查询表的大小这个转载过来自己看的哈哈--数据库中单个表的大小(不包含索引)select pg_size_pretty(pg_relation_size('表名'));--查出所有表(包含索引)并排序SELECT table_schema || '.' || table_name AS table_full_name, pg_size_pretty(pg_total_relation_size('"' || table_schema || '"."' || table_name
2022-04-28 12:02:07
319
原创 python中构造出一个空的DataFrame,并在循环中不断往dataframe里面添加内容
这是管培期间的一个学习任务里面其中解决问题用到的方法关键是下面的result.loc()巧妙地利用len()获取dataframe数据长度import pandas as pd import numpy as np # 构造表格2数据data = pd.DataFrame({'product_num':['A','B'], 'kk_big_category':['美妆','食品'], 'kkv_big_catego
2022-04-20 17:32:33
5928
原创 jupyter notebook如何实现连接PostgreSQL,并进行取数的操作
前言 工作中如果我们公司有数据库,那么就经常需要用jupyter notebook连接数据库,把数据拉取进来用python语言进行数据探索,数据处理甚至是数据建模的操作。PostgreSQL介绍PostgreSQL 教程如何连接?# 导入数据库import psycopg2import pandas as pdfrom sqlalchemy import create_engine# postgres:数据库
2022-04-12 14:59:32
2750
原创 【Bug】偶遇LAG函数,相见恨晚,告别拉链表中的left join,开启微妙时刻
前言背景是实习期间,需要完成一个拉链表,大概长下面这个样子需求:实现拉链表(对start_date列进行)在我没有遇见LAG函数之前,我在这里足足研究了一整个下午!!!现在想象都觉得难以想象,是我太菜了,我一直在想store_inventory_qty里面有重复,我怎么对start_date进行拉链呢?,一直group by什么都不是,row_number(),rank(),dense_rank(),都用上了,还是解决不了,一直在想,还在吐槽,sql没有python灵活啊,最后把问题归因到怎么对st
2022-04-12 12:12:05
376
原创 python中dataframe某列按照指定批量索引修改其单元格内容
文章目录1 需求2 举例搬代码3 突破进展4 感想1 需求 我有一份关于地理位置的数据,但是地理位置信息是用户填写的,所以五花八门都有,如下location.xlsx我需要根据另外一份一二三四五线城市数据,如下city.xlsx我想location.xslx的location列字符串中包含city.xlsx中city列数据字眼就在location.xslx中打上新的一列作为标签(城市维度)2 举例搬代码pr
2022-04-05 10:07:34
3195
原创 Input contains NaN, infinity or a value too large for dtype(‘float64‘).
what:建模之前数据预处理,用Smote处理样本不平衡问题,出现这个bugwhy:根据报错提示输入包含NaN、infinity或一个对dtype来说太大的值(‘float64’)经过sum(data.isnull().sum())然后查找最大df.max()找到原因处理掉就可以了...
2022-04-03 21:34:32
1232
原创 写sql中where限制timestamp类型筛选数据用不了“”,要用‘’?
遇到了个bug,where里面进行个筛选我也卡住了害,见下图一下子把自己愣住了,修改后如下不要用“”,用‘’,至于是为什么?目前不太清楚,如有大佬路过,请告知一下下~感谢
2022-04-01 17:29:31
748
原创 半只脚踏进了ETL,详说一下下这两天的踩的sql的坑
文章目录01 What:这篇文章写的是什么02 Why:为什么有写这篇博客03 正文:“坑”01 What:这篇文章写的是什么 现在工作的公司,管培实习的方向是写sql语句解决学习任务,其中因为自己菜,跌跌撞撞踩的坑,在此记录一下下sql坑。02 Why:为什么有写这篇博客 深刻记录一下下自己对sql与·python在数据清洗中的认知。
2022-03-30 17:16:57
1421
原创 python中对dataframe格式的某列进行匹配替换,apply与lambda结合,或整列replace替换
前言自己想对dataframe某列进行替换正文前面是有data.insert(11,'discovery_like_count',-10)data.insert(12,'discovery_collect_count',-10)data.insert(13,'discovery_comment_count',-10)(1)apply与lambda结合data['discovery_like_count'] = data['discovery_like_count'].apply(lambd
2022-03-26 16:20:28
4112
数据挖掘进阶流程.xmind
2022-11-03
SQL语句优化.xmind 一些小技巧
2022-11-03
SQL.xmind 【SQL的执行顺序】【SQL常用语句】常考要点
2022-11-03
AI面试百题-集成学习算法.xmind,包含各集成算法介绍,优缺点
2022-11-03
AB测试.xmind-从实验设计到流量分配......更加复杂的实验设计
2022-11-03
常见的数据分析师的面试问题【两万字辛勤整理】实战技能
2022-11-03
网页版顺丰网站地址填写的省市区数据.csv
2022-11-02
腾讯大数据分析通道职业等级标准.xlsx
2022-11-02
滴滴数据科学家分享:数据如何驱动业务增长 - 知乎.pdf
2022-11-02
慕课上嵩天老师课程【Python语言程序设计】课件集合
2022-11-02
慕课上嵩天老师课程【Python网络爬虫与信息提取】PPT集合
2022-11-02
慕课上嵩天老师课程【Python数据分析与展示】所有PPT集合
2022-11-02
某游戏数据分析的笔试题
2022-11-02
随机森林 【Bagging算法】
2022-11-02
数据挖掘(二)监督学习梯度下降
2022-11-02
数据挖掘入门 【数据集划分】、【代价函数(损失函数)】
2022-11-02
模型选择.xmind 分类与回归的评价指标
2022-11-02
朴素贝叶斯模型.xmind 思维脑图
2022-11-02
某公司的产品数据分析师面试题
2022-11-02
使用Pandas进行数据预处理 笔记2 任务 5.2 清洗数据代码数据
2022-11-02
数据科学与大数据专业课程安排(仅供参考)
2022-06-21
python数据分析项目有趣 新零售-无人智能售货机商务数据分析 的数据
2022-06-21
2020年全国城市几线城市划分名单
2022-06-18
小红书用户运营策略分析报告.pdf
2021-09-06
python数据分析项目有趣 新零售-无人智能售货机商务数据分析
2020-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人