
大数据分析
文章平均质量分 72
In GOD WE Trust, all ohers bring data
你隔壁的小王
专注于数据分析,是要成为数据大咖的男人!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据分析那点事
写在前文,首先声明博主对数据分析领域也在不断学习当中,文章中难免可能会出现一些错误,欢迎大家及时指正,博主在此之前也曾对不同量级、不同领域的数据进行过分析,但是在过程中总是感觉有许多困惑,即自己也会问自己?自己分析的是否全面,是否有价值,从哪些方面出发?对于这些问题博主做了思考。归根到底还是在理论上,在阅读了相关的专业书籍和材料的基础上总结出本文,希望能给大家带来收获,同时由于内容过多,计划分三次完成全部内容,同时如果大家感觉对自己有帮助的话,记得收藏,博主会不断完善本文的缺陷和不足,希望真正能给大家带来收原创 2022-01-25 18:24:14 · 15063 阅读 · 110 评论 -
Python大数据-电商产品评论情感数据分析
一、项目背景网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品并购物,产生了海量的用户行为数据,用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据,将有利于企业在电商平台上的持续发展,同时,对这部分数据进行分析,依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。 分析产品:韶音 AfterShokz Aeropex AS800骨传导蓝牙耳机运动无线耳骨传导耳机跑步骑行 环法特别版(Aeropex AS800是AfterShokz韶音的网红新品,很多国内外原创 2022-01-19 19:01:38 · 31084 阅读 · 151 评论 -
Python大数据-对淘宝用户的行为数据分析
数据获取本次数据是在网上获取的来源于: 数据集-阿里云天池 ,不在进行抓取或收集,大家可以看这篇文章Python爬虫-抓取数据到可视化全流程的实现,详细的写了数据抓取的过程数据清洗首先该数据是在多个文件下的CSV文件,通过递归对文件夹内所有文件进行查询,并合并了所有的指定文件,具体的操作步骤大家可以看数据集-阿里云天池这篇文章,里边详细的写了如何遍历所有文件夹,如何组合,如何批量的打开文件目录下的所有文件,并对多文件下的文件进行合并,本文就不再赘述数据合并的过程了,直接采用合并后的数据,大家不懂可原创 2022-01-16 11:18:54 · 9671 阅读 · 75 评论 -
一文看懂阿里云端数据库配置+Navicat premium安装
这篇文章详细的介绍了如何配置阿里云云端数据库,大家感兴趣的可以查看,并且配了Navicat premium安装详解(需要软件也可以练习博主),博主也安装和配置了DataGrip,DataGrip只要试用30天,最主要的是配置起来超级麻烦,要改很多东西,大家如果有问题也可以问我原创 2022-01-12 23:04:55 · 811 阅读 · 0 评论 -
Python自动化办公--邮件发送全过程详解
使用Python实现自动化邮件发送,可以让你摆脱繁琐的重复性业务,可以节省非常多的时间。(以较为复杂的QQ邮箱举例,其他邮箱操作类似),简单又有趣,能大大的增大大家的工作效率,大家快试试把,最后还是想说,Python np!原创 2022-01-07 14:51:06 · 3601 阅读 · 36 评论 -
matplotlib可视化绘图详解
更新(加入坐标轴刻度设置方法)Matplotlib 简介Matplotlib 是一个python的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形,matplotlib 对于图像美化方面比较完善,可以自定义线条的颜色和样式,可以在一张绘图纸上绘制多张小图,也可以在一张图上绘制多条线,可以很方便地将数据可视化并对比分析。原创 2022-01-02 11:22:20 · 3866 阅读 · 21 评论 -
Python爬虫-抓取数据到可视化全流程的实现
(ps:我也是在学习的过程中,欢迎各位小伙伴跟我一起交流,一起学习)1、爬取目标网站:业绩预告_数据中心_同花顺财经(ps:headers不会设置的可以看这篇:Python——爬虫 用requests.get获取网页内容为空 ’ ’_你隔壁的小王的博客-优快云博客)import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport reimport requests##把各种可能用到的包提前导好he.原创 2022-01-04 13:58:01 · 5806 阅读 · 4 评论 -
SQL语句练习-入门篇
所有题目来自牛客网:SQL入门篇,整理了入门篇全部题目,配以相应的代码解析和思考,不足之处还请指正,所有题目配以目录超链接方便大家查询,有些难懂的知识配了相关的查询链接。原创 2022-01-06 22:58:55 · 6274 阅读 · 23 评论 -
Python遍历目录下的所有文件、读取、千万条数据合并详解
使用Python进行递归文件和文件夹的判断使用Python完整的获取所有文件及文件夹并读取相应的文件使用Python合并数据总共1000多万条数据,如果我们用Excel的话估计要很多时间将这么多表格合并,而且会很卡,最后总结,python NP!不足之处还请大家多多指正!原创 2022-01-07 13:20:47 · 8897 阅读 · 8 评论 -
excel回归分析结果解读
对于简单数据使用excel进行回归分析,操作简单,方法数据-分析工具-点击回归(ps.如果你的excel中没有数据分析这一选项,需要设置一下 方法:文件-选项-加载项-勾选数据分析)根据需要进行相关勾选设置运算后一共出现三个表格,我们逐一来看第一个表格-回归统计:其中,Multiple R:相关系数R,值在-1与1之间,越接近-1,代表越高的负相关,反之,代表越高的正相关关系。R Square:测定系数,也叫拟合优度。是相关系数R的平方,同时也等于表2中回归...原创 2021-12-31 19:25:34 · 52216 阅读 · 7 评论 -
SQL26 计算25岁以上和以下的用户数量
题目:现在运营想要将用户划分为25岁以下和25岁及以上两个年龄段,分别查看这两个年龄段用户数量本题注意:age为null 也记为 25岁以下示例:user_profile根据示例,你的查询应返回以下结果:第一种方法:select (case when age>=25 then '25岁及以上' else '25岁以下' end) age_cut,count(device_id) as number from user_profilegroup by age_Cu..原创 2022-01-04 19:18:22 · 1223 阅读 · 0 评论 -
python词云图绘制
词云图是数据可视化的一种形式,其视觉冲击力比较强,迎合着现在快节奏的生活,让人一眼就看出这是主题,而不是像以前一样要看密密麻麻的文字报告。 import jieba #导包recomment = pl['content']text = ''for r in recomment: if r == ' ': continue text += rdata_cut = " ".join(jieba.lcut(text)) #连接文本from wordcloud im原创 2022-01-04 08:23:07 · 484 阅读 · 1 评论 -
SQL29 计算用户的平均次日留存率
题目:现在运营想要查看用户在某天刷题后第二天还会再来刷题的平均概率。请你取出相应数据。根据示例,你的查询应返回以下结果: (滞后一天日期且前一天上线的唯一id的总数量) / (前一天上线的唯一id的总数量), 用datediff区分第一天和第二天在线的device_id 用left outer join做自表联结 SELECT COUNT(distinct q2.device_id,q2.date)/count(DISTINCT q1.device_id,q1.date)...原创 2022-01-04 19:54:28 · 605 阅读 · 1 评论 -
Python——爬虫 用requests.get获取网页内容为空 ’ ’
import requestsresult=requests.get("http://data.10jqka.com.cn/financial/yjyg/")result输出结果:表示成功处理了请求,一般情况下都是返回此状态码; 报200代表没问题继续运行,发现返回空值,在请求网页爬取的时候,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取,需要通过反爬机制去解决这个问题。headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本...原创 2022-01-03 19:10:13 · 10426 阅读 · 2 评论 -
Python-正则表达式总结+常用示例
目录正则的含义正则表达式的应用场景常用的格式校验元字符反义代码限定符分组匹配贪婪与非贪婪分支条件匹配零宽断言正则的含义正则表达式就是用来操作字符串的一种逻辑公式正则表达式的应用场景数据分析时数据获取的文本筛选 进行爬虫时,网页数据的匹配 写前端代码的时候,用户输入数据的验证 测试人员对请求结果的数据验证 批量文本编辑,比如Sublime Text或nodepad++、EditPlus等记事本软件全都支持正则表达式的使用常用的格式校验邮.原创 2022-01-04 09:33:16 · 920 阅读 · 1 评论