自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42964610的博客

原创用python数据分析来解密新经济(IT桔子)死亡公司的内幕

前言在一次日常上网过程中，无意间发现了IT桔子死亡公司有个有趣的新经济死亡公司数据库的专栏，因此对于刚学习了数据分析相关工具的我，对此产生了极大的兴趣，想要通过分析这些死亡公司的数据来发现点有趣的东西，同时也是将其作为一个数据分析实战的案例，数据来源：IT桔子死亡公司数据库（网络爬虫获取，具体实现请参照我的个人博客文章：python爬取IT桔子死亡公司数据库），特此声明：此数据仅用于个人数据...

2019-12-22 16:38:54 1421

原创机器学习算法之逻辑回归总结

简介逻辑回归虽然名字中有回归两字，但其属于分类算法的一种，常用于二分类问题，但其也可以适用于多分类，本文主要针对二分类进行说明，逻辑回归因其形式简单，模型的可解释性非常好，资源占用小，尤其是内存等优势在工业中界应用比较广泛，逻辑回归用一句话可以概括为：逻辑回归假设数据服从伯努利分布，通过极大似然函数的方法，运用梯度下降来求解参数，来达到二分类的目的，可以看到其包含了挺多知识点：假设、极大似然函数（损失函数）、梯度下降（求解方法）、二分类（目的）等，在介绍逻辑回归算法原理之前先来复习几个数学知识点。相

2020-08-11 17:24:23 1022

原创机器学习实战之Kaggle泰坦尼克初尝试

项目简介项目说明：泰坦尼克号的沉没是历史上最臭名昭著的海难之一，1912年4月15日，在她的处女航中，被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没。不幸的是，船上没有足够的救生艇供所有人使用，导致2224名乘客和机组人员中的1502人死亡。虽然幸存有一些运气，但似乎有些人比其他人更有可能生存。本次主要是根据提供的数据来判断什么样的人更容易生存。数据来源：Kaggle泰坦尼克生存预测数据说明：PassengerId 乘客编号 Survived 是否生还（0、1）

2020-08-04 15:27:06 846 2

原创 Python数据结构之链表基本功能实现

链表是属于线性表的一种数据结构，其优势在于可以实现快速的插入、删除，但对于查询，其相比于数组时间复杂度大，链表主要是通过指针将一组零散的内存块连接起来，我们可以把每个内存块当成一个节点，与数组不同，链表不需要连续的内存空间，链表的结构多种多样，我们常用的有单链表、循环链表、双链表，接下来我们会一一进行介绍，对于链表，我们一般实现以下基本的功能：头部添加元素 add_head() 尾部添加元素 add_tail() 中间添加元素 insert() 查看链表是否为空 is

2020-07-23 23:22:05 412

原创 Git相关学习总结

前言Git(读音为/gɪt/。)是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理，在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史，方便查看更改历史记录，备份以便恢复以前的版本的软件工程技术，可以实现项目多人协作开发，对相关话术进行说明：工作区：可以理解为git仓库所在的目录，工作区有一个隐藏目录.git，这个不算工作区，而是Git的版本库。版本库：Git的版本库里存了很多东西，其中最重要的就是称为stage（或者叫index）的暂存区，还有Git为我

2020-07-21 09:17:13 371

原创数据分析实战之用户消费行为分析

一、分析目的本次主要根据淘宝用户的行为数据，分析挖掘有价值的信息，通过数据清洗、数据分析、数据可视化、最后结合使用相关算法模型挖掘数据价值，从而为营销提供相应的数据支撑二、数据来源本次使用的数据来源于阿里天池：https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1数据结构如下：三、数据清洗1、导入相关的第三方模块import numpy as npimport pandas as pdimp.

2020-07-15 14:53:29 6170 5

原创使用python进行北京二手房信息数据分析及可视化展示

之前我们爬取了贝壳找房上的北京二手房信息，具体可以查看python爬取贝壳找房之北京二手房源信息，现在我们针对获取的数据进行分析及可视化的展示，本文代码和数据均存放在github上数据预处理由于我们爬取的数据有的会存在缺失及错乱，先对原始数据进行清洗及格式化的处理，具体代码如下：首先进行加载数据并且对其进行列名重命名：import pandas as pdimport num...

2020-04-02 10:33:25 7065 4

原创 python爬取贝壳找房之北京二手房源信息

所用库requests xpath解析库 multiprocessing多进程 pandas库用于保存csv文件实战背景主要是为了做北京二手房数据分析与挖掘，所以对贝壳找房公司数据进行相关获取，通过requests请求库进行爬取，xpath进行解析，并用pandas将数据保存成csv文件爬取的url为：https://www.bj.ke.com/ershoufang/源码及...

2020-03-12 11:36:26 1527

原创【APP爬虫】mitmproxy抓包工具和夜神模拟器爬虫

mitmproxy抓包工具和夜神模拟器爬取得到APP的数据一、相关软件的安装工欲善其事，必先利其器，要实现我们的需求，当然是先准备我们所需的工具，本次主要主要用的工具有：python（这个在此处不提，自行百度进行安装，注意环境变量的配置）pycharm（代码编辑器，博主采用的pycharm专业破解版，安装步骤参考博客：pycharm破解2019）Visual Studio Code（这...

2019-12-23 13:24:10 4411 2

原创【知乎热榜爬虫】python爬取知乎热榜问题及答案

所用库 requests xpath解析库 multiprocessing多进程 pymysql数据库操作库实战背景主要是爬取知乎热榜的问题及点赞数比较高的答案，通过requests请求库进行爬取，xpath进行解析，并将结果存储至mysql数据库中爬取的url为：https://www.zhihu.com/hot源码保存在我的github上：...

2019-12-18 21:26:09 3623

原创【壹品仓App爬虫】charles、mitmproxy和appium联合爬取壹品仓App商品数据

mitmproxy和appium联合爬取壹品仓App商品数据一、项目介绍：本次主要是想爬取壹品仓APP里的发布的品牌数据信息（图片、品牌介绍、活动截止时间等）和相应品牌的产品的具体信息（包括图片、商品介绍、商品库存、商品尺码、商品原价、商品现价等）二、所使用的工具：本次爬虫所使用的工具有：pycharm、python、mitmproxy、appium、夜神模拟器、mongodb数据库，其...

2019-08-03 20:20:30 1178 1

原创 mItmproxy的使用（应用于爬虫）

Mitmproxy的使用本文主要是对mitmproxy的使用做基本的整理，方便后续自己的使用查询。基本介绍首先我们定义一个函数，如下：def request(flow): flow.request.headers['User-Agent'] = 'Mitmproxy' print(flow.request.headers)参数flow，我们可以通过flow.requ...

2019-07-26 15:17:10 3146

原创 Pycharm连接github上传和下载源码

Pycharm连接github上传和下载源码首先确保本机电脑已安装git插件（没安装请访问git插件下载地址）打开pycharm软件1、点击file—Settings打开设置：在Git里的设置自己的git.exe路径（如下图蓝色框内所示）2、点击VCS—Checkout from Version control—git如下图所示3、设置git仓库的url以及自己本地的存储文件地址（如...

2019-07-12 13:48:21 1013

超市会员管理系统数据库设计

超市会员管理系统数据库设计，适合需要课程设计的你

2021-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除