
Python数据分析
文章平均质量分 72
Python数据分析及可视化学习笔记
slaythedragon
Shut up and Run
展开
-
Pyecharts地图标点+表格可视化
Pyecharts地图标点+表格可视化1.代码2.效果1.代码from pyecharts.charts import Geo, Pagefrom pyecharts.globals import ChartTypefrom pyecharts.components import Tablefrom pyecharts import options as opts# area会在https://github.com/pyecharts/pyecharts/blob/master/pyechart原创 2022-04-13 13:05:19 · 2155 阅读 · 2 评论 -
Excel小技巧
Excel小技巧1.拼接字符串CONCATENATE函数1.拼接字符串CONCATENATE函数要将一列都变为固定的格式:在excel中旁边一列第一个单元格输入=CONCATENATE(),点左上角fx函数图标,在Text1输入前面需要拼接的字符串,在Text2中选中原始数据第一个单元格,在Text3输入后面需要拼接的字符串,双击旁边一列第一个单元格右下角,数据即全拼接完成。...原创 2021-08-23 11:18:51 · 346 阅读 · 0 评论 -
利用pandas实现类似sql中的left join操作
使用pandas的merge函数import pandas as pddf1 = pd.read_csv(r"1.csv",index_col=0)df2 = pd.read_csv(r"2.csv",index_col=0)# on中填写根据哪个字段来进行连接,how为left代表left joindf = pd.merge(df1,df2, on='LocationID',how='left')# print(df)# 只取出这些列,组成新的DataFrame,带有col_name原创 2021-08-23 11:03:08 · 5285 阅读 · 0 评论 -
Python远程连接mysql和sqlserver数据库
Python远程连接mysql和sqlserver数据库1.mysql2.sqlserver1.mysqlimport pymysql#打开数据库连接conn = pymysql.Connect( host='填写数据库名', port=3306, user='填写用户名', passwd='填写密码', db='具体的库名(子目录)', charset='utf8')print (conn)print (type(conn))# 获取游标原创 2021-08-23 10:56:09 · 755 阅读 · 0 评论 -
滴滴数据分析实习SQL笔试题
一、有两个数据表,请通过SQL实现下面题目学生表(tb_student)学生姓名(name)学号(id班级(class)入学时间(in_time)年龄(age)性别(sex)专业(major)张三2017C33010012017C3301201718男计算机李四2017C33010022017C3301201719男计算机学生成绩表(tb_score)学号(id)课程(course)分数(score)2017C33原创 2021-06-15 16:31:41 · 2776 阅读 · 8 评论 -
特斯拉技术支持工程师实习笔试题
1.Task1题目:建表语句:create table tasks ( id integer not null, name varchar(40) not null, unique(id) ); create table reports ( id integer not null, task_id integer not null, candidate varchar(40) not null, score integer n原创 2021-06-15 15:57:31 · 6215 阅读 · 13 评论 -
新闻数据分析:jieba关键词提取、LDA主题生成、贝叶斯新闻分类
news_analysis.ipynbimport pandas as pdimport jiebaimport numpy#pip install jieba数据源:http://www.sogou.com/labs/resource/ca.phpdf_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'], encoding='utf-8')#按字段来命名df_news = df_n原创 2021-06-01 20:35:40 · 1680 阅读 · 1 评论 -
数据分析面经整理:业务分析方面
目录1.指标异动分析1.指标异动分析指标异动分析五步骤:1.确认数据以及统计来源的准确性2.了解清楚数据指标具体业务情况和异常情况3.将数据指标进行拆解。4.异常范围定位,根据业务进一步做假设,具体情况具体分析。5.预测未来是否还会下跌?应该采取什么方式避免下跌?与业务沟通反馈分析结论,探讨后续方案的执行。再针对原因解决问题,制定优化策略。...原创 2021-05-31 20:21:46 · 740 阅读 · 0 评论 -
数据分析面经整理:机器学习方面
目录1.KNN的算法原理2.xgboost原理3.Adaboost1.KNN的算法原理KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。2.xgboost原理XGBoost的核心算法思想基本就是:1.不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。2.当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是原创 2021-05-31 20:11:45 · 2121 阅读 · 1 评论 -
数据分析面经整理:SQL方面
目录1.left、right、inner joint的区别?2.union和union all区别?3.sql语句的执行顺序4.sql三个排序函数区别(窗口函数)5.sql substring6.sql中where和having区别7. sql中where和on区别1.left、right、inner joint的区别?2.union和union all区别?纵向合并两个表的数原创 2021-05-31 15:55:51 · 749 阅读 · 0 评论 -
数据分析面经整理:统计学方面
目录1.因果推断因果推断的方法(1)A/B Test(2)断点回归Regression discontinuity(3)倾向得分匹配Propensity score matching2.模型的参数估计方法3.使用平均数和使用中位数的区别4.回归分析的五个基本假设5.CLT中心极限定理6.小数定律和大数定律7.期望8.正态分布、指数分布8.1正态分布8.2指数分布9.参数估计10.置信区间11.假设检验1.因果推断事件/变量之间的关系,最主要的有相关性和因果性。相关性是指在观测到的数据分布中,X与Y相关原创 2021-05-31 15:04:42 · 1371 阅读 · 0 评论 -
口红数据分析及pyecharts可视化
口红.ipynbimport pandas as pd import jsonimport gcwith open("./taobao.json", encoding='utf-8') as f: data = f.read()data[:1000]'[{\n "img_url": "http://g-search3.alicdn.com/img/bao/uploaded/i4/i2/2379306225/O1CN01kN44fC1vr67mvZCNG_!!0-item_pic.j原创 2021-05-29 15:35:48 · 8546 阅读 · 2 评论 -
Python简单的自动化报表生成
1原创 2021-05-29 15:10:27 · 430 阅读 · 0 评论 -
数据分析思维:分析方法和业务知识
数据分析思维:分析方法和业务知识1.业务指标1.1 数据分类1.2 常用指标1.2.1 用户数据指标1.2.2 行为数据指标1.2.3 产品数据指标1.2.4 推广付费指标1.3 如何选择指标1.4 指标体系和报表1.4.1 什么是指标体系1.4.2 指标体系有什么用1.4.3 如何建立指标体系1.4.4 建立指标体系的注意事项2.分析方法2.1 5W2H分析方法2.2 逻辑树分析方法2.3 行业分析方法2.4 多维度拆解分析方法2.5 对比分析法A/B Test2.6 假设检验分析方法2.7 相关分析方法原创 2021-05-28 15:06:05 · 4278 阅读 · 0 评论 -
窗口函数
窗口函数一、窗口函数二、hive窗口函数1.over()窗口函数的语法结构1.1 over()函数中的三个函数讲解1.order by2.partition by3.rows between 开始位置 and 结束位置2.常与over()一起使用的分析函数2.1 聚合类2.2 排名类2.3 其他一、窗口函数窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库数据进行实时分析处理。窗口函数的基本语法如下:<窗口函数> over原创 2021-05-17 23:09:31 · 3546 阅读 · 0 评论 -
SQL基础语法
一、SELECT 查询1.Select 查询某些属性列(specific columns)的语法:SELECT column(列名), another_column, …FROM mytable(表名);Select 查询所有列SELECT *FROM mytable(表名);2.条件查询 (constraints)条件查询语法SELECT column, another_column, …FROM mytableWHERE conditionAND/OR another_condi原创 2021-04-18 20:18:03 · 941 阅读 · 0 评论 -
将html页面部署到阿里云服务器
阿里云服务器部署一、购买阿里云服务器ECS并选择镜像二、进行配置1.配置安全组2.宝塔Linux面板配置三、进行部署1.安装Nginx四、效果展示一、购买阿里云服务器ECS并选择镜像镜像-镜像市场-搜索宝塔Linux面板进行安装,其余参数选择默认即可若镜像选择错误也可以进行如下操作:1.先将实例停止2.再更换操作系统3.搜索宝塔Linux面板4.自定义密码二、进行配置1.配置安全组配置安全组,使得之后的端口可以访问点击配置规则手动添加80和8888端口80为外部访问端口原创 2020-12-20 14:39:05 · 8408 阅读 · 7 评论 -
使用Python分析处理数据并用pyecharts进行可视化
使用Python分析处理数据并用pyecharts进行可视化一、数据文件二、使用pyecharts进行可视化1.各岗位占比饼图2.各岗位平均起薪柱状图3.各城市招聘量柱状图及平均薪资折线图组合4.各城市岗位薪资分布热力图5.数据科学工具要求排行柱状图和岗位技能要求词云6.不同岗位对学历和工作经验要求分布柱状图7.将以上所有图组合在一个页面中,并做出选项卡补充以及GitHub链接一、数据文件包括各种岗位类别、城市、薪资水平、岗位要求等信息。work_all.xlsx过滤词表(只在p5.py绘制词云中用原创 2020-12-19 21:35:49 · 16658 阅读 · 15 评论 -
使用Python处理Excel数据并生成词云
文章目录前言一、pandas是什么?二、使用步骤1.引入库前言一、pandas是什么?二、使用步骤1.引入库原创 2020-12-17 14:09:31 · 20519 阅读 · 11 评论