- 博客(13)
- 资源 (1)
- 收藏
- 关注

原创 用python数据分析来解密新经济(IT桔子)死亡公司的内幕
前言在一次日常上网过程中,无意间发现了IT桔子死亡公司有个有趣的新经济死亡公司数据库的专栏,因此对于刚学习了数据分析相关工具的我,对此产生了极大的兴趣,想要通过分析这些死亡公司的数据来发现点有趣的东西,同时也是将其作为一个数据分析实战的案例,数据来源:IT桔子死亡公司数据库(网络爬虫获取,具体实现请参照我的个人博客文章:python爬取IT桔子死亡公司数据库),特此声明:此数据仅用于个人数据...
2019-12-22 16:38:54
1421
原创 机器学习算法之逻辑回归总结
简介逻辑回归虽然名字中有回归两字,但其属于分类算法的一种,常用于二分类问题,但其也可以适用于多分类,本文主要针对二分类进行说明,逻辑回归因其形式简单,模型的可解释性非常好,资源占用小,尤其是内存等优势在工业中界应用比较广泛,逻辑回归用一句话可以概括为:逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到二分类的目的,可以看到其包含了挺多知识点:假设、极大似然函数(损失函数)、梯度下降(求解方法)、二分类(目的)等,在介绍逻辑回归算法原理之前先来复习几个数学知识点。相
2020-08-11 17:24:23
1022
原创 机器学习实战之Kaggle泰坦尼克初尝试
项目简介项目说明:泰坦尼克号的沉没是历史上最臭名昭著的海难之一,1912年4月15日,在她的处女航中,被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没。不幸的是,船上没有足够的救生艇供所有人使用,导致2224名乘客和机组人员中的1502人死亡。虽然幸存有一些运气,但似乎有些人比其他人更有可能生存。本次主要是根据提供的数据来判断什么样的人更容易生存。数据来源:Kaggle泰坦尼克生存预测数据说明:PassengerId 乘客编号 Survived 是否生还(0、1)
2020-08-04 15:27:06
846
2
原创 Python数据结构之链表基本功能实现
链表是属于线性表的一种数据结构,其优势在于可以实现快速的插入、删除,但对于查询,其相比于数组时间复杂度大,链表主要是通过指针将一组零散的内存块连接起来,我们可以把每个内存块当成一个节点,与数组不同,链表不需要连续的内存空间,链表的结构多种多样,我们常用的有单链表、循环链表、双链表,接下来我们会一一进行介绍,对于链表,我们一般实现以下基本的功能:头部添加元素 add_head() 尾部添加元素 add_tail() 中间添加元素 insert() 查看链表是否为空 is
2020-07-23 23:22:05
412
原创 Git相关学习总结
前言Git(读音为/gɪt/。)是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理,在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术,可以实现项目多人协作开发,对相关话术进行说明:工作区:可以理解为git仓库所在的目录,工作区有一个隐藏目录.git,这个不算工作区,而是Git的版本库。 版本库:Git的版本库里存了很多东西,其中最重要的就是称为stage(或者叫index)的暂存区,还有Git为我
2020-07-21 09:17:13
371
原创 数据分析实战之用户消费行为分析
一、分析目的本次主要根据淘宝用户的行为数据,分析挖掘有价值的信息,通过数据清洗、数据分析、数据可视化、最后结合使用相关算法模型挖掘数据价值,从而为营销提供相应的数据支撑二、数据来源本次使用的数据来源于阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1数据结构如下:三、数据清洗1、导入相关的第三方模块import numpy as npimport pandas as pdimp.
2020-07-15 14:53:29
6170
5
原创 使用python进行北京二手房信息数据分析及可视化展示
之前我们爬取了贝壳找房上的北京二手房信息,具体可以查看python爬取贝壳找房之北京二手房源信息,现在我们针对获取的数据进行分析及可视化的展示,本文代码和数据均存放在github上数据预处理由于我们爬取的数据有的会存在缺失及错乱,先对原始数据进行清洗及格式化的处理,具体代码如下:首先进行加载数据并且对其进行列名重命名:import pandas as pdimport num...
2020-04-02 10:33:25
7065
4
原创 python爬取贝壳找房之北京二手房源信息
所用库requests xpath解析库 multiprocessing多进程 pandas库用于保存csv文件实战背景主要是为了做北京二手房数据分析与挖掘,所以对贝壳找房公司数据进行相关获取,通过requests请求库进行爬取,xpath进行解析,并用pandas将数据保存成csv文件爬取的url为:https://www.bj.ke.com/ershoufang/源码及...
2020-03-12 11:36:26
1527
原创 【APP爬虫】mitmproxy抓包工具和夜神模拟器爬虫
mitmproxy抓包工具和夜神模拟器爬取得到APP的数据一、相关软件的安装工欲善其事,必先利其器,要实现我们的需求,当然是先准备我们所需的工具,本次主要主要用的工具有:python(这个在此处不提,自行百度进行安装,注意环境变量的配置)pycharm(代码编辑器,博主采用的pycharm专业破解版,安装步骤参考博客:pycharm破解2019)Visual Studio Code(这...
2019-12-23 13:24:10
4411
2
原创 【知乎热榜爬虫】python爬取知乎热榜问题及答案
所用库 requests xpath解析库 multiprocessing多进程 pymysql数据库操作库 实战背景主要是爬取知乎热榜的问题及点赞数比较高的答案,通过requests请求库进行爬取,xpath进行解析,并将结果存储至mysql数据库中爬取的url为:https://www.zhihu.com/hot源码保存在我的github上:...
2019-12-18 21:26:09
3623
原创 【壹品仓App爬虫】charles、mitmproxy和appium联合爬取壹品仓App商品数据
mitmproxy和appium联合爬取壹品仓App商品数据一、项目介绍:本次主要是想爬取壹品仓APP里的发布的品牌数据信息(图片、品牌介绍、活动截止时间等)和相应品牌的产品的具体信息(包括图片、商品介绍、商品库存、商品尺码、商品原价、商品现价等)二、所使用的工具:本次爬虫所使用的工具有:pycharm、python、mitmproxy、appium、夜神模拟器、mongodb数据库,其...
2019-08-03 20:20:30
1178
1
原创 mItmproxy的使用(应用于爬虫)
Mitmproxy的使用本文主要是对mitmproxy的使用做基本的整理,方便后续自己的使用查询。基本介绍首先我们定义一个函数,如下:def request(flow): flow.request.headers['User-Agent'] = 'Mitmproxy' print(flow.request.headers)参数flow,我们可以通过flow.requ...
2019-07-26 15:17:10
3146
原创 Pycharm连接github上传和下载源码
Pycharm连接github上传和下载源码首先确保本机电脑已安装git插件(没安装请访问git插件下载地址)打开pycharm软件1、点击file—Settings打开设置:在Git里的设置自己的git.exe路径(如下图蓝色框内所示)2、点击VCS—Checkout from Version control—git如下图所示3、设置git仓库的url以及自己本地的存储文件地址(如...
2019-07-12 13:48:21
1013
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人