
数据分析与挖掘
beyond_upup
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
URL网址,电话号码,电子邮件地址及所有链接地址的正则表达式匹配
URL网址,电话号码,电子邮件地址及所有链接地址的正则表达式匹配 文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍1.匹配.com或.cn后缀的URL网址pattern="[a-zA-Z]+://[^\s]*[.com|.cn]"[^\s]:表示不能有空格2.匹...原创 2018-07-09 09:08:16 · 1548 阅读 · 0 评论 -
数据缺失值处理之missingno模块
数据缺失值处理之missingno模块文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍!import missingno as msnomsno.matrix(data, labels=True)#无效数据密度显示msno.bar(data...原创 2018-10-11 19:43:59 · 4752 阅读 · 0 评论 -
利用BeautifulSoup和Xpath爬取赶集网北京二手房房价信息
利用BeautifulSoup和Xpath爬取赶集网北京二手房房价信息文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍!1.BeautifulSoup实现#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Fri Oct ...原创 2018-10-12 20:34:33 · 475 阅读 · 0 评论 -
python面试题——python常见数据结构
python面试题——python常见数据结构文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍Python中常见的数据结构可以统称为容器(container)。序列(如列表和元组)、映射(如字典)以及集合(set)是三类主要的容器。1.序列...原创 2018-10-13 10:31:20 · 1958 阅读 · 0 评论 -
爬取链家网北京房源及房价分析
爬取链家网北京房源及房价分析文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍1.数据获取# 获取某市区域的所有链接def get_areas(url): print('start grabing areas') headers = { ...原创 2018-10-14 10:16:29 · 1206 阅读 · 1 评论 -
爬虫笔记之BeautifulSoup模块官方文档笔记
爬虫笔记之BeautifulSoup模块官方文档笔记文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍几个简单的浏览结构化数据的方法:soup.titlesoup.title.namesoup.title.stringsoup.title...原创 2018-10-26 10:58:13 · 277 阅读 · 0 评论