kris-luo-优快云博客

原创 Python爬虫数据分析实战项目--爬取并分析100+微淘KOL账号表现（上）

Python爬虫数据分析实战项目----爬取并分析100+微淘KOL账号表现前言作者将在本文中带领大家完成一次全栈似的数据分析实战项目，包括前期的需求分析，中期的爬虫程序编写以及后期的数据分析及其可视化。作者希望可以借此启发读者，理解数据分析的工作。需要注意的是，爬虫程序是有一定的时效性的，因目标网址架构时常变化，因此若读者要还原项目时，需要结合当时网站的架构，修改爬虫程序（常见于URL以及正则表达式的改写）。需求分析随着dell游戏本架构的升级，dell准备在中国市场投放一个全新的

2021-04-20 13:42:51 1915

原创机器学习与数据挖掘基础概念

（一）概念及主要任务机器学习与数据挖掘重点在于寻找模式，这些模式应该是有意义的、有用的、自动的或半自动的。两个主要任务： · 监督学习：分类和回归给予已分类的数据集（x, y），找寻一个公式，可将x映射到y。（1）分类：y为分类变量（2）回归：y为连续数值变量 · 非监督学习：聚类给予一个数据集，只包含x向量，找寻一个方法将数据分组，要求（1）组内数据尽可能相似（2）不同组的数据尽

2021-04-09 09:05:28 416

原创基于sklearn的K-Nearest Neighbor算法实现

基于sklearn的K-Nearest Neighbor算法实现编程环境· python 3.7.7· scikit-learn 0.22.1· pandas 1.0.3· numpy 1.18.1· Graphviz 2.40.1· jupyternotebook基于鸢尾花数据的K近邻算法实现初始设置，导入相关包from IPython.display import set_matplotlib_formats, display import pandas as pd # 导入

2021-03-08 14:57:56 377

原创 Python数据分析绘图包--matplotlib速查笔记

Matplotlib语法笔记1.matplotlib包的两种导入方式# 从matplotlib导入pyplot包，同时重命名为plt# 方法1from matplotlib import pyplot as plt# 方法2import matplotlib.pyplot as plt2.解决中文无法显示问题# 显示中文from pylab import mplplt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 显示中文，选

2020-11-24 15:11:12 414

原创 Python爬虫自动化办工实战案例--借助xlwings实现excel调用Python爬虫

Python爬虫自动化办工实战案例----借助xlwings实现excel调用Python爬虫前言本案例将实现excel集成用户自定义Python函数（xlwings UDFs），并从excel中通过调用函数，轻松爬取对应微博博文的转评赞数据。1. excel安装xlwings 首先在命令行窗口，卸载掉原来可能存在的xlwingspip uninstall xlwingsconda uninstall xlwings 在命令行窗口下载并安装xlwingspip install

2020-09-21 16:29:53 986

原创 Python爬虫项目实战--模拟手机登录微博爬取博文转发评论点赞数据

Python爬虫实战项目----爬取博文转评赞数据import bs4 # 网页解析，获得数据import re # 正则表达式，进行文字匹配import urllib.request,urllib.error # 指定URL，获取网页数据import xlwt # 进行excel操作from bs4 import BeautifulSoupimport json # 导入json包weibo_url = 'https://m.weibo.cn/statu

2020-09-15 15:13:01 1105

原创手把手教你入门Python爬虫（三）

手把手教你入门Python爬虫前言在上一篇文章中，作者带领大家完成了爬取中国银行外汇牌价的项目，相信大家已经对爬取静态网页的步骤有了一定的理解。今天，作者将带领大家完成爬取“微博电影信息”的项目。本次项目在数据处理上，与上一个项目略有不同，作者希望可以借此项目启发读者。1. 观察网页，找寻规律本次我们要爬取的网页网址为：http://ent.sina.com.cn/ku/movie_search_index.d.html点开网页链接后，可以看到网页的设计如下：经分析发现，我们需要的信息为每一部

2020-08-23 11:21:41 568

原创手把手教你入门Python爬虫（二）

手把手教你入门Python爬虫前言在上一篇文章中，我们讲解到了基础的计算机网络知识，并完成了“爬取豆瓣Top250电影信息”的项目。那么这一次，作者将带领大家完成“爬取中国银行外汇牌价”项目。1. 观察网站，寻找规律我们首先登录中国银行外汇牌价网站： https://www.boc.cn/sourcedb/whpj/index.html 可以看出，我们今天要爬取的网站，在页面设计上大体分为三大块：顶部的功能区、中部的外汇牌价数据和底部的描述信息。我们切换到第二页，网站显示出如

2020-08-03 21:33:08 1235

原创手把手教你入门Python爬虫（一）

手把手教你入门Python爬虫前言本文通过介绍基本的html、计算机网络等知识，带领读者了解访问网页时发生了什么；并通过“爬取豆瓣Top250电影信息”的项目，向读者展示了一个最基本的爬虫过程。本文适合作为读者入门爬虫的文章，需要读者有一定的Python语法基础（包括但不限于条件判断、循环语句、定义函数、基本数据类型、函数调用等知识）。作者的开发环境如下：...

2020-08-02 16:38:57 1018

Master_gogogo的博客