
Python
文章平均质量分 75
lbship
工科专业转行大数据分析
展开
-
BI自动化之Python自动发报告(查询数据库生成报表和图片嵌入邮件)
先看看效果图代码:1.生成图片新建generate_picture.py,主要功能是查询数据库,生成图片和附件用于嵌入邮件import matplotlib.pyplot as pltfrom odps import ODPSimport datetimeimport timeimport osimport shutilfrom matplotlib import style# print(plt.style.available)#先清除文件夹底下所有文件p...原创 2022-02-15 10:27:42 · 3106 阅读 · 0 评论 -
Python选基金(爬虫+策略)
代码如下import requestsimport timeimport reimport pymysql#获得所有基金代码def getfundCode(): url = 'http://fund.eastmoney.com/js/fundcode_search.js' r = requests.get(url) fundcodelist=re.findall(re.compile('\[(.*)\]',re.S),r.text)[0].strip('[').str原创 2021-06-25 11:33:55 · 8773 阅读 · 12 评论 -
基于机器学习预测用户流失
一、背景和目标 用户运营是CRM运营中重中之重的一项工作,在人工智能时代,我们可以探索用AI帮助我们做一些用户运营的工作,之前我写了几篇关于快消行业与AI技术相结合的文章:1.利用RFM模型对餐饮客户进行分析2.利用Apriori关联算法看看客户最喜欢买什么3.利用ARMA算法对销售进行预测4.利用深度学习和机器学习对餐饮客户进行分类本次探索一下利用AI来预测用户流失。二、数据采集和准备 数据采集分为几个模块:用户基本信息、消费产品偏好、消费渠道偏好、LBS信息...原创 2021-03-04 14:06:46 · 2214 阅读 · 2 评论 -
Python请求微信公众号解析json写入Maxcompute
实现过程: Python发送请求获得微信公众号返回的json数据,微信公众号接口看这里。利用Python的json包解析出来需要的字段,利用阿里云的pyODPS包,写入阿里云的maxcompute代码如下:from odps import ODPSfrom odps.models import Schema, Column, Partitionimport requestsimport jsonimport datetimeimport redis#参数定义#r = redis.原创 2020-12-15 10:33:35 · 526 阅读 · 2 评论 -
数据分析之利用深度学习和机器学习对餐饮客户进行分类
一、目标 在上一篇博客中,利用RFM模型,使用Kmeans算法,把客户分成了三类,并打好标签,生成了带标签的训练数据。接下来利用这些打好标签的分类数据,使用深度学习和机器学习方法对未打标签的客户进行分类。环境:python3.5机器学习:随机森林深度学习:基于TensorFlow的TFlearn,这个用起来跟sklearn比较相似二、数据采集和分析代码...原创 2019-03-17 19:25:36 · 2203 阅读 · 0 评论 -
数据分析之利用RFM模型对餐饮客户进行分析
一、背景和目标随着大数据时代的到来,很多公司都建立了数据仓库,对分散在各处的数据进行收集,这只是解决了数据应用中的数据孤岛问题,但是不知道如何对数据进行使用。博主打算利用经典的RFM模型来挖掘数据,对某连锁餐饮行业客户进行分类,分成高价值客户、一般价值客户和普通价值客户,方便针对不同客户制定不同的营销策略利用的工具:1.Python3.52.SQL Server20143.Ta...原创 2019-03-17 16:10:10 · 4257 阅读 · 0 评论 -
python处理Excel数据串行串列问题
接到一个任务,要获取药监局所有的进口药材,国产药材名录。写好爬虫,一共有十几万条的数据,爬下来一看,简直不忍直视。各种串列,有的在第一行,有的在第三行,有的第五行,没有任何规律可言。要想用Excel处理,难度很大啊,所以就写了python脚本来处理了。思路是这样的:1.用python读取整行的数据2.把一整行的数据连成一个字符串3.找出规律(比如表中每一行都有几个关键字,如药品...原创 2018-01-25 11:13:41 · 3414 阅读 · 0 评论 -
python爬取前程无忧和拉勾数据分析岗位并分析
一、明确需求分析数据分析岗位的招聘情况,包括地区分布、薪资水平、职位要求等,了解最新数据分析岗位的情况。环境:python 3.6设计的工具:Tableau工具(主要是生成图方便,用matplotlib也可以达到同样的效果)二、数据采集首先编写爬虫,这里主要是爬取前程无忧和拉勾网,直接上前程无忧的代码:关于前程无忧爬虫代码,网上有很多教程,不过大部分只取了地区、职位、工资...原创 2018-03-05 23:14:40 · 32916 阅读 · 201 评论 -
python爬取51job职位并写入mysql
只获取公司、职位、地区、薪水,没有其他详细的信息,所以代码很简单。体验体验python和mysql的交互,刚开始插进去的数据都是乱码,在连接mysql的时候指定utf8编码就解决了。# -*- coding:utf-8 -*-import requestsimport re,pymysqldef get_content(page): url ='http://search.5...原创 2018-03-17 22:53:13 · 1752 阅读 · 0 评论 -
python生成词云
利用python的wordcloud包生成词云,分析前程无忧数据分析岗位的岗位职责和岗位要求。import pandas as pdimport jieba,refrom scipy.misc import imreadfrom wordcloud import WordCloud, ImageColorGenerator,STOPWORDSimport matplotlib.pyp...原创 2018-03-20 00:35:53 · 4806 阅读 · 4 评论 -
利用python深度分析微信朋友圈好友
最近看了wxpy这个包,感觉还不错,分析一下微信的好友。分析的目的:1.看看好友的性别占比、地域分布2.分析好友的个性签名3.对好友的签名进行情感分析环境:python 3.6需要的包wxpy、jieba、snownlp、scipy、wordcloud(这个pip可能直接安装不了,会提示需要c++之类的错误,直接去官网下载whl文件,用pip离线安装就好了,命令:pip i...原创 2018-03-22 00:44:41 · 3165 阅读 · 11 评论 -
用python调用百度AI进行情感分析探索与股票之间的关系
听闻有人在Twitter上分析股民的情绪来炒股,盈利不少。就来试试看。具体过程:一、数据采集通过采集东方财富上某只股票一段时间内股票的评论,这里以恒生电子为例。我自己编写了爬虫代码。如下:import re,requests,codecs,time,randomfrom lxml import html#proxies={"http" : "123.53.86.133:6...原创 2018-03-28 00:15:32 · 12185 阅读 · 21 评论 -
爬取国家药监局器材名录
写个小爬虫,爬取药监局13万条医疗器材名录。# -*- coding:utf-8 -*-from lxml import htmlimport requestsproxies = { "https": "219.138.58.13:3128",}for i in range(1,135999): url='http://db.pharmcube.com/databas...原创 2018-04-08 14:53:50 · 6707 阅读 · 7 评论 -
python多进程爬取上海房价并画出热力图分析
一、分析目的1.探索上海市的房价区域分布2.看看购房者都喜欢购买哪里的房子二、数据采集采集我爱我家上海区域的一万两千个小区的数据,采集的字段有小区、位置、最近30条成交套数、在售、在租、成交均价、成交总价、小区详细介绍等数据。直接上代码:import requests,codecsimport pymongo,timefrom lxml import htmlfrom ...原创 2018-04-25 12:59:20 · 6242 阅读 · 13 评论 -
爬取贝壳租房信息存储到mongoDB
前几天链家网升级成贝壳找房了,融合了十几家知名公寓的租房信息,太赞了,正好有多方面数据来源可以分析。代码是存储到mongoDB上(忍不住吐槽一下,mongoDB对32位的系统真不友好,各种问题,要么要安装补丁,每次打开都要更改存储位置,有时候还要解除进程锁),也可以改成存储到Excel中,把注释去掉就行了。下面是贝壳找房的代码:import pymongoimport requests,c...原创 2018-05-01 00:09:22 · 2180 阅读 · 3 评论 -
人脸检测
忘了哪里看到的了,保存一个,亲测可用,简单有效,有时间改进一下。import cv2img = cv2.imread(r"C:\Users\lbship\Desktop\cc.jpg")color = (0, 255, 0)grey = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)classfier = cv2.CascadeClassifier(r...转载 2018-05-02 23:05:34 · 356 阅读 · 0 评论 -
验证码识别
爬虫有时候遇到验证码识别,试了一下,简单纯数字的识别率还是很高的。先要在电脑安装tesseractOCR软件,然后调用pytesseract库就可以了。from PIL import Imageimport pytesseractim=Image.open('a.jpg')gray=im.convert('L')#图像灰度化threshold=150table=[]#图像二...原创 2018-05-02 23:03:16 · 246 阅读 · 0 评论 -
python 3.5 群发多联系人多附件邮件
import time,datetimeimport smtplibimport tracebackfrom email.mime.text import MIMETextfrom email.mime.application import MIMEApplicationfrom email.mime.multipart import MIMEMultipartdef send...原创 2018-08-08 11:03:15 · 673 阅读 · 0 评论