- 博客(28)
- 资源 (7)
- 问答 (1)
- 收藏
- 关注
原创 爬虫:csdn首页的超链接
import reimport requestsdef getlink(url): headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36'} req=req...
2018-06-21 09:46:29
439
原创 爬虫:糗事百科
#思路#1.请求抓取网页#2.根据正则爬取关键内容#3.解析出用户名和内容#4.循环赋值进行输出import urllib.requestimport redef getcontent(url,page): headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...
2018-06-21 09:46:15
315
原创 爬虫:爬取京东手机图片
# 思路# 1.爬取网页# 2.根据正则表达式爬取关键内容# 3.根据关键内容,再次使用正则匹配出图片地址# 4.存储图片#import urllib.requestimport reimport urllib.errordef craw(url,page): html1=urllib.request.urlopen(url).read() html1=str(...
2018-06-21 09:46:03
1252
原创 词云
from wordcloud import WordCloud,ImageColorGeneratorimport matplotlib.pyplot as pltfrom scipy.misc import imreadimport pymysql#处理中文乱码问题plt.rcParams['font.sans-serif']=['SimHei'] #设置默认字体plt.rcPar...
2018-06-21 09:45:49
391
原创 爬虫:熊猫电影前一百:电影名、主演、评分、上映时间。并存取数据库
import urllib.requestfrom lxml import etreeimport pymysql# 获取所有的页面的HTMLdef get_all_html(url): for i in range(0,100,10): Url='' Url=url+str(i) html=urllib.request.urlope...
2018-06-21 09:45:36
849
原创 爬虫实例--菜鸟教程
1、第一种方法# 第一种方式:requests 和 lxml结合使用import requestsfrom lxml import etree#1、拿到所有的页面链接,并使用yield返回完整的超链接def get_html(url):# 获取页面HTML html=requests.get(url)# 使用etree格式化HTML seq=etree....
2018-06-21 09:45:26
16444
原创 爬虫实例--百度贴吧图片爬取
# 1、获取网页HTML# 2、分析标签特征,抓取所有图片的url连接# 3、保存图片#import urllib.requestimport re# 获取网页HTMLdef get_html(url): html=urllib.request.urlopen(url) return html.read().decode('utf-8')# 用正则抓取图片url,c...
2018-06-21 09:44:40
323
原创 linux系统用户以及用户组的管理
1、etc/passwd、etc/group和etc/shadowlinux中非常重要的2个文件,如果此2文件没有或者损坏,则无法登陆到linux系统。etc/passwd 此文件被:分割成七个字段,每个字段的具体含义如下: (1)用户名:字母、数字、下划线、减号 (2)x:存放该用户的口令即密码,在早期的linux系统中密码存放在这里,但出于安全因素只用‘x'代替,实...
2018-03-25 19:36:35
274
原创 linux的目录管理与文件
1、目录及文件的增删改查pwd:打印当前所在目录cd:进入到某一个目录。 ./ 表示当前目录 ../ 表示进入上一级目录 cd ~或者cd进入家目录mkdir:创建一个目录 ...
2018-03-25 19:36:31
329
原创 Flask之路由
路由在MVC架构的web架构中重要的概念:在Flask框架中,路由表示用户请求的URL找出其对应的处理函数1、注册路由用户请求的URL与视图函数之间的映射,flask框架根据HTTP请求的URL在路由表中匹配预定义的URL规则,找到对应的视图函数,并将函数执行的结果返回给服务器,route装饰器:绑定url规则与视图函数from flask import Flask# 导入了类 Flask...
2018-03-25 14:37:56
304
原创 print格式化输出
python的print格式化输出有2种模式1、Formatting Expression类似于c语言的printf输出方式,基本是前文格式控制%,后面使用%()输出2、String Formatting Method Calls类似于c#的输出方式,基本是前文使用{num}表示位置,后面使用.format()表示输出的内容# 打印整数import mathprint('my name is ...
2018-03-24 18:32:03
4445
原创 Flask之路由
路由在MVC架构的web架构中重要的概念:在Flask框架中,路由表示用户请求的URL找出其对应的处理函数1、注册路由用户请求的URL与视图函数之间的映射,flask框架根据HTTP请求的URL在路由表中匹配预定义的URL规则,找到对应的视图函数,并将函数执行的结果返回给服务器,route装饰器:绑定url规则与视图函数from flask import Flask# 导入了类 Flask...
2018-03-24 16:33:52
4835
原创 爬虫:python之lxml-Xpth语法
一、简介lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库。它与众不同的地方是它兼顾了这些库的速度和功能 完整性。通常使用lxml里etree库:from lxml import etree。lxml大部分功能都存在lxml.etree中,一些函数都是通过这个库来进行的。首先我们使用 lxml 的 etree 库,然后利用 etree.HTML 初始化,然后我们将其打...
2018-03-22 20:50:03
1486
原创 爬虫:python之BeautifulSoup(lxml)
一、简介一个灵活又方便的HTML解析库,处理高效,支持多种解析器,利用它不使用正则表达式也能抓取网页内容。解析器使用方法优势劣势python标准库BeautifulSoup(markup,"html.parser")python内置标准库执行速度适中文档纠错能力强python2.7.3以前的版本容错能力差lxml HTML解析器BeautifulSoup(markup,"lxml")速度快文档纠错...
2018-03-22 20:31:14
35292
2
原创 爬虫:python中的requests简单使用
一、requests.get()使用#Python 的标准库 urllib 提供了大部分 HTTP 功能,但使用起来较繁琐。#通常,我们会使用另外一个优秀的第三方库:Requests,它的标语是:Requests: HTTP for Humans。import requestsreponse=requests.get("https://www.baidu.com/")reponse.enc...
2018-03-22 18:46:57
1818
原创 爬虫:python中的urllib使用
一、urllib简介urllib是pythond的内置HTTP请求库,包含如下模块处理请求库:urllib.request:发送HTTP请求urllib.error:异常处理模块urllib.parse:URL解析模块二、urllib.request.urlopen()import urllib.requesturl="http://www.baidu.com"#urllib.request....
2018-03-21 20:53:55
453
原创 Flask简介与安装
一、Flask简介 python超级明星web框架Flask:是一个相对于Django而言轻量级的web框架,好比京东(Django)和淘宝(Flask),Flask使用了应用开发库,因此我们开发时,不需要关注太多网络通信方面的内容。和Django的大包大揽式操作不同,Flask建立于一系列的开源软件包之上,其中最重要的: (1)WSGI的应用开发库Werkzeug,WSGI服...
2018-03-19 19:31:31
401
原创 python 中的 random range arange
1、randomimport random# 返回一个(0,2**k)之间的一个整数print(random.getrandbits(4))# 返回(0,k)之间的一个整数print(random.randrange(3))# 返回[start,stop]之间的一个整数,可以指定步长stepprint(random.randrange(2,10,2))#返回[a,b]之间的一个整数...
2018-03-18 20:27:12
4701
原创 matplotlib 的基本使用
1、基本使用(1)使用import导入模块matplotlib.pyplot,并简写成plt 使用import导入模块numpy,并简写成np(2)接下来,我们调用plot的.plot方法绘制一些坐标。 这个.plot需要许多参数,但前两个是'x'和'y'坐标,我们放入列表。 这意味着,根据这些列表我们拥有 3 个坐标:1,5 2,7和3,4。(3)plt.plot在后台『...
2018-03-15 16:17:22
1806
原创 pandas基本功能
import pandas as pdimport numpy as np pandas基本功能 (1)数据文件读取/文本数据读取 (2)索引、选取和数据过滤 (3)算法运算和数据对齐 (4)函数的应用和映射 (5)重置索引1、pandas:数据文件读取通过pandas提供的read_xxx相关的函数可以读取文件中的数据,并形成DataFrame,常用的数据读取方法为:r...
2018-03-15 12:14:27
10128
原创 numpy
一、ndarrary 的创建import numpy as np数组的创建方式: (1)array函数:接收一个普通的python序列,并将其转换为ndarray (2)zeros函数:创建指定长度或者形状的全零数组。 (3)ones函数: 创建指定长度或者形状的全1数组。 ...
2018-03-14 19:51:36
344
原创 三 ndarray 数据基本操作
ndarray 数据基本操作 (1)数组与标量、数组之间的运算 (2)数组的矩阵积(matrix product) (3)数组的索引与切片 (4)数组的转置与轴对换 (5)通用函数:快速的元素级数组成函数 (6)聚合函数 (7)np.where函数 (8)np.unique函数 (1)数组与标量的运算arr1=np.random.ran...
2018-03-14 18:59:58
6431
原创 二、ndarray 的属性、数据类型
1、ndarray 的属性(1)ndim 数组轴(维度)的个数,轴的个数被称作秩(2)shape 数组的维度, 例如一个2排3列的矩阵,它的shape属性将是(2,3),这个元组的长度显然是秩,即维度或者ndim属性(3)size 数组元素的总个数,等于shape属性中元组元素的乘积。(4)dtype 一个用来描述数组中元素类型的对象,可以通过创造或指定...
2018-03-14 18:57:57
3746
原创 一、ndarrary 的创建
ndarrary 的创建¶import numpy as np数组的创建方式: (1)array函数:接收一个普通的python序列,并将其转换为ndarray (2)zeros函数:创建指定长度或者形状的全零数组。 (3)ones函数: 创建指定长度或者形状的全1数组。 ...
2018-03-14 18:55:49
888
原创 python 数据库的相关操作
1 安装pymysql1.使用命令窗口 pip install pymysql2.使用anaconda3的conda命令安装: Conda install pymysql3.在py文件中引入pymysql 4.检查是否安装成功: import pymysql2 常用操作3 连接数据库import pymysql# 获取连接,关键字+值db=pymysql.conn...
2018-03-14 18:48:30
274
原创 python 操作文件
1 open函数在python中,使用open函数,打开一个已经存在的文件,或者新建一个新文件。函数语法 open(name[, mode[, buffering[,encoding]]])name : 一个包含了你要访问的文件名称的字符串值(区分绝对路径和相对路径)。mode : mode决定了打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。这个参数是非强制的,默认文件访问模式为...
2018-03-14 18:45:33
438
原创 pandas中的DataFrame
import pandas as pdimport numpy as nppandas中主要有两种数据结构,分别是:Series和DataFrame。 (1)Series:一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。注意:Series中的索引值是可以重复的。 (2)DataFrame:一个...
2018-03-14 18:40:00
1992
原创 pandas 中的Series
import pandas as pdimport pandas as pdimport numpy as nppandas中主要有两种数据结构,分别是:Series和DataFrame。 (1)Series:一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。注意:Series中的索引值是可以重复...
2018-03-14 18:21:46
5689
8255VHDL语言波形问题
2015-04-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人