
数据分析
文章平均质量分 83
lbship
工科专业转行大数据分析
展开
-
Python选基金(爬虫+策略)
代码如下import requestsimport timeimport reimport pymysql#获得所有基金代码def getfundCode(): url = 'http://fund.eastmoney.com/js/fundcode_search.js' r = requests.get(url) fundcodelist=re.findall(re.compile('\[(.*)\]',re.S),r.text)[0].strip('[').str原创 2021-06-25 11:33:55 · 8773 阅读 · 12 评论 -
SuperSet安装与使用
一、安装1.安装docker如果没有安装docker可以看这里K8S原理、安装和部署2.安装dockers-composesudo curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-composesudo chmod +x /usr/local/bin/docker-comp原创 2021-05-26 14:10:39 · 1398 阅读 · 2 评论 -
基于机器学习预测用户流失
一、背景和目标 用户运营是CRM运营中重中之重的一项工作,在人工智能时代,我们可以探索用AI帮助我们做一些用户运营的工作,之前我写了几篇关于快消行业与AI技术相结合的文章:1.利用RFM模型对餐饮客户进行分析2.利用Apriori关联算法看看客户最喜欢买什么3.利用ARMA算法对销售进行预测4.利用深度学习和机器学习对餐饮客户进行分类本次探索一下利用AI来预测用户流失。二、数据采集和准备 数据采集分为几个模块:用户基本信息、消费产品偏好、消费渠道偏好、LBS信息...原创 2021-03-04 14:06:46 · 2214 阅读 · 2 评论 -
Flink解析kafka的json字段并利用Flink CEP实时监控订单数据写入MySQL
上篇博客写了Flink接入Kafka数据并实时写入数据库实时展示,这次利用Flink CEP进行实时监控。实现目标如下:1.如果同一个顾客买了5次牛奶,输出用户id,时间2.如果2分钟内某个产品被卖了10个,输出商品,时间3.如果一个顾客来了10次,输出用户id,初始消费时间,最后消费时间先了解一下Flink CEP 开发过程:a.定义Patternb.把pattern应用于输入流CEP.pattern(inputstream, pattern) 变成patternstr..原创 2021-01-07 16:38:00 · 5004 阅读 · 0 评论 -
Flink实时读取Kafka数据写入Clickhouse并实时展示
1.启动ZooKeeper./zkServer.sh start.2.启动Kafka./kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties3.创建topic./kafka-topics.sh --create --zookeeper 192.168.226.10:2181 --replication-factor 1 --partitions 1 --topic test查看是否成功./kafka-原创 2020-10-30 17:43:05 · 8667 阅读 · 6 评论 -
利用Spark构建分布式电影协同过滤推荐系统
一、数据采集使用MovieLen的开放数据集作为数据源,包含了6000个用户对4000个电影的评分数据,大概有100万条评分数据。数据集也可以从这个网址下载。数据集一共有3个文件:movie.date(电影ID::电影名称::标签)1::Toy Story (1995)::Animation|Children's|Comedy2::Jumanji (1995)::Adventure...原创 2019-04-09 10:16:35 · 1641 阅读 · 0 评论 -
数据分析之利用ARMA算法对销售进行预测
一、目标 销售数据是随着时间变化的序列,通过对未来的销售进行预测,方便对人员、物料等各种资源投入的把控,控制好库存,减少浪费,也可以制定未来的营运策略,提高管理效率。 这里使用ARMA(AutoRegressive Moving Average)算法,不仅与前P期的序列值有关,也与前q期的随机扰动有关。二、数据采集和处理1.数据采集采集随着时间变化的销售数据,为了...原创 2019-03-31 16:15:48 · 7823 阅读 · 8 评论 -
数据分析之利用Apriori关联算法看看客户最喜欢买什么
一、背景和目标源于沃尔玛的啤酒和尿布的经典营销案例,把这两个看似并无太大关系的商品联系到一起了。这里就用到了关联算法。我们今天就用关联算法对某餐饮连锁企业的商品进行关联分析,观察用户的消费习惯。环境:python3.5+pycharm算法:Apriori二、数据采集和处理原始数据是长这样的,不过这样的数据并不利于进行关联分析:不过阿里云分析型数据库ADB提供了强大的gr...原创 2019-03-30 20:12:47 · 842 阅读 · 0 评论 -
数据分析之利用深度学习和机器学习对餐饮客户进行分类
一、目标 在上一篇博客中,利用RFM模型,使用Kmeans算法,把客户分成了三类,并打好标签,生成了带标签的训练数据。接下来利用这些打好标签的分类数据,使用深度学习和机器学习方法对未打标签的客户进行分类。环境:python3.5机器学习:随机森林深度学习:基于TensorFlow的TFlearn,这个用起来跟sklearn比较相似二、数据采集和分析代码...原创 2019-03-17 19:25:36 · 2203 阅读 · 0 评论 -
数据分析之利用RFM模型对餐饮客户进行分析
一、背景和目标随着大数据时代的到来,很多公司都建立了数据仓库,对分散在各处的数据进行收集,这只是解决了数据应用中的数据孤岛问题,但是不知道如何对数据进行使用。博主打算利用经典的RFM模型来挖掘数据,对某连锁餐饮行业客户进行分类,分成高价值客户、一般价值客户和普通价值客户,方便针对不同客户制定不同的营销策略利用的工具:1.Python3.52.SQL Server20143.Ta...原创 2019-03-17 16:10:10 · 4257 阅读 · 0 评论 -
python爬取前程无忧和拉勾数据分析岗位并分析
一、明确需求分析数据分析岗位的招聘情况,包括地区分布、薪资水平、职位要求等,了解最新数据分析岗位的情况。环境:python 3.6设计的工具:Tableau工具(主要是生成图方便,用matplotlib也可以达到同样的效果)二、数据采集首先编写爬虫,这里主要是爬取前程无忧和拉勾网,直接上前程无忧的代码:关于前程无忧爬虫代码,网上有很多教程,不过大部分只取了地区、职位、工资...原创 2018-03-05 23:14:40 · 32916 阅读 · 201 评论 -
利用python深度分析微信朋友圈好友
最近看了wxpy这个包,感觉还不错,分析一下微信的好友。分析的目的:1.看看好友的性别占比、地域分布2.分析好友的个性签名3.对好友的签名进行情感分析环境:python 3.6需要的包wxpy、jieba、snownlp、scipy、wordcloud(这个pip可能直接安装不了,会提示需要c++之类的错误,直接去官网下载whl文件,用pip离线安装就好了,命令:pip i...原创 2018-03-22 00:44:41 · 3165 阅读 · 11 评论 -
用python调用百度AI进行情感分析探索与股票之间的关系
听闻有人在Twitter上分析股民的情绪来炒股,盈利不少。就来试试看。具体过程:一、数据采集通过采集东方财富上某只股票一段时间内股票的评论,这里以恒生电子为例。我自己编写了爬虫代码。如下:import re,requests,codecs,time,randomfrom lxml import html#proxies={"http" : "123.53.86.133:6...原创 2018-03-28 00:15:32 · 12185 阅读 · 21 评论 -
python多进程爬取上海房价并画出热力图分析
一、分析目的1.探索上海市的房价区域分布2.看看购房者都喜欢购买哪里的房子二、数据采集采集我爱我家上海区域的一万两千个小区的数据,采集的字段有小区、位置、最近30条成交套数、在售、在租、成交均价、成交总价、小区详细介绍等数据。直接上代码:import requests,codecsimport pymongo,timefrom lxml import htmlfrom ...原创 2018-04-25 12:59:20 · 6242 阅读 · 13 评论