
python
文章平均质量分 78
Z_Coding
这个作者很懒,什么都没留下…
展开
-
数据分析——pandas
为什么学习pandasnumpy帮助我们处理数值,pandas处理数值之外(基于numpy)还能帮我们处理其他类型的数据。Seriespandas的Series是一个带标签的数组创建SeriesSeries的创建方法有两种,一种是使用list创建,另一种是使用字典创建。import pandas as pdimport string#使用list创建Seriest1=pd.Series([1,2,3,4])#自定义索引t2=pd.Series([1,2,3,4,5],index=lis原创 2021-02-08 15:46:58 · 188 阅读 · 0 评论 -
每日推送情话
#!/usr/bin/python3#coding=utf-8import requestsfrom bs4 import BeautifulSoupimport randomimport osimport timefrom fake_useragent import UserAgentfrom lxml import etreeSKEY='' #CoolPush酷推KEY 获取网站:https://cp.xuthus.cc/ips = [] # 装载有效 IPdef getIP(原创 2021-02-06 16:18:04 · 683 阅读 · 0 评论 -
使用GitHub的action将每日天气推送到微信和QQ
main.yml# name属性用来指定这个工作流的名字name: HELLO GITHUB ACITON# 这个部分用来指定能够触发工作流执行的事件on: # 当对分支main进行push操作的时候,这个工作流就被触发了 push: branches: [ main ]# 工作流是由一个或多个的jobs构成的,在jobs里来说明要交给GitHub aciton执行的任务jobs: # 这个jobs中的一个任务,名字叫build(随便怎么取) build:原创 2021-02-05 16:43:22 · 4203 阅读 · 0 评论 -
数据分析——numpy
前言什么是numpypython中做科学计算的基础库,重在数值计算,也是大部分python科学计算库的基础库,多用于在大型、多维数组上执行数值计算。创建数组np.array([1,2,3])np.arange(12)import numpy as npt1 = np.array([1,2,3,4,5])print(t1)print(type(t1))t2 = np.array(range(10))print(t2)print(type(t2))t3 = np.arange原创 2021-02-03 14:52:31 · 288 阅读 · 0 评论 -
Anacanda安装/使用教程+Pycharm配置
1原创 2021-01-30 15:48:47 · 3455 阅读 · 0 评论 -
2、数据分析——matplotlib
为什么要学习matplotlib能将数据进行可视化,更直观使数据更加客观,更具说服力什么是matplotlibmatplotlib:最流行的python底层绘图库,主要做数据可视化图标,名字取材于MATLAB,模仿MATLAB构建。matplotlib基本要点使用matplotlib可绘制的折线图from matplotlib import pyplot as plt #导入matplotlib的pyplot并取别名pltx=[2,4,8] #数据在x轴的位置y=[2,3,4原创 2021-01-27 14:56:15 · 322 阅读 · 0 评论 -
1、数据分析——基础知识
为什么学习数据分析方便从大量数据中直观的获取结论什么是数据分析使用适当的方法对手机的大量数据进行分析,帮助人们做出判断,以便采取适当行动。数据分析的步骤提出问题——》准备数据——》分析数据——》获取结论——》成果可视化数据分析主要包括:matplotlibnumpypandas...原创 2021-01-26 14:18:41 · 173 阅读 · 1 评论 -
多进程/多线程/协程爬虫的性能比较
进程、线程、协程首先我们先来了解一下python中的进程、线程和协程。进程和线程从计算机硬件角度:计算机的核心是CPU,承担了所有的计算任务。一个CPU,在一个时间切片里只能运行一个程序。从操作系统的角度:进程和线程,都是一种CPU的执行单元。进程: 表示一个程序的上下文执行活动(打开、执行、保存)线程: 进程执行程序时的最小调度单位(执行a,执行b…)一个程序至少有一个进程,一个进程至少有一个线程。打个比方,我们打开QQ,这就创建了一个进程,而在QQ里打开多个聊天窗口和别人聊天,这就原创 2021-01-25 11:51:04 · 997 阅读 · 0 评论 -
反爬虫机制处理
常用的反爬虫机制有浏览器的动态加载如果爬取的网页是动态网页,数据就是ajax动态加载的,如果ajax没有参数验证的话,那么就简单了,只是从解析html变成了解析json。如果ajax需要参数验证的话,需要一定的 JS 逆向能力。IP封禁当我们爬取的速率比较快的时候,就可能被对方拉黑 IP, 这时候有可能是临时性拉黑,有可能是持续性拉黑,有可能是永久性拉黑。这时,我们就需要进行IP代理了。代理 IP 按照质量和来源又分为几类:比较垃圾的公用 IP比较稳定的机房 IP民用网段 IP网上有一原创 2021-01-23 09:17:31 · 485 阅读 · 0 评论 -
Ajax数据爬取
什么是Ajax全称为 Asynchronous Javascript And XML And HTML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。举个例子,我们在刷微博的时候,一直往下滑就由新的内容出现,而网页本身的链接没有变化,这是因为利用了Ajax技术将新的内容的数据从服务器中获取到了。Ajax分析方法这里我们采用美团商家评论举例,测试链接为:https://www.mei原创 2021-01-22 10:09:19 · 480 阅读 · 1 评论 -
scrapy框架
参考资料:https://blog.youkuaiyun.com/qq_37758925/article/details/108607592https://blog.youkuaiyun.com/weixin_42572590/article/details/103629254更新pip安装1.不要直接win+R然后cmd,而是要选择“开始”—“Windows系统”—“命令提示符”—右键“以管理员身份运行”!!!2.不要用家用WiFi,开手机热点连接!!!3.管理员身份运行命令提示符后,使用镜像下载升级!!!代码如下:原创 2021-01-18 19:43:47 · 348 阅读 · 0 评论 -
5.文件存储
文件存储TXT文本打开方式r:只读rb:二进制打开文件r+:读写方式打开文件rb+:二进制读写方式打开文件w:写入方式打开文件wb:二进制写入方式打开文件w+:读写方式打开文件a:追加方式打开文件ab:二进制追加方式打开文件a+:读写方式打开文件ab+:二进制追加方式打开文件#方法一open('html.txt','w',encoding='utf-8').write('123')#方法二with open('html.txt','w',encoding='utf-8')a原创 2021-01-17 20:15:00 · 131 阅读 · 0 评论 -
3.解析库的使用
使用XPathXPath,全称XML Path Language,即XML路径语言。它是一门在XML文档中查找信息的语言。准备工作安装lxml库基本用法from lxml import etreeselector=etree.HTML(源码) #将源码转化为能被XPath匹配的格式selector.xpath(表达式) #返回为一列表实例讲解from lxml import etreehtml="""<!DOCTYPE html><html><原创 2021-01-16 21:03:00 · 237 阅读 · 2 评论 -
2.基本库的使用【静态网页抓取】
使用urllib在python2中有urllib和urllib2,而在python3中只有urlliburllib是python中内置的http请求库。它包含了4个模块。requests:最基本的http请求模块,可以用来模拟发送请求。error:异常处理模块,如果请求错误,我们可以捕捉这些异常。parse:一个工具模块,提供了许多URL处理方法,如拆分、解析、合并等。robotparse:识别网站的robots.txt文件。然后判断哪些网站可以爬,哪些网站不可以爬。发送请求1.urop原创 2021-01-16 16:03:51 · 305 阅读 · 0 评论 -
动态页面抓取
动态页面抓取前面爬取的页面都是静态页面,页面展示的内容都存储在HTML源代码中。但是,现在主流的网站都使用JavaScript 展现网页内容,和静态网页不一样的是,使用JavaScript时,很多内容都不会出现在HTML源码中。因此,我们需要用到爬取动态网页的两种技术:通过浏览器审查元素解析真实网页地址使用selenium模拟浏览器获取动态网页数据动态抓取的实例在爬取动态网页之前,我们需要先了解一种异步更新技术——AJAX(异步JavaScript和XML)它的价值在于通过在后台与服务器原创 2020-12-28 20:46:23 · 1766 阅读 · 0 评论 -
【爬虫】 静态网页抓取
静态页面抓取在网站设计中,纯粹HTML格式的网页通常被称为静态网页。对于静态网页,所有的数据呈现在网页的HTML代码中;相对而言使用AJAX动态加载网页的数据不一定出现在HTML代码中,这就给爬虫增加了困难。本节主要介绍静态网页数据的抓取。安装Requestspip install requests获取响应内容import requestsr=requests.get('http://www.santostang.com/')print("文件编码:",r.encoding)print("原创 2020-12-27 14:14:52 · 3308 阅读 · 0 评论