
Python
binarywz
Java
展开
-
Python环境
Python环境 1、官网下载 下载地址:https://www.python.org/getit/ 注意事项: 2、安装Anaconda(推荐) 下载地址:https://www.continuum.io/downloads/ 国内镜像地址(下载速度快):https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 3、ID原创 2017-03-31 09:52:43 · 421 阅读 · 0 评论 -
爬取虎扑NBA球员常规赛各项数据存储至MongoDB
博主平时没事喜欢看球赛,十几年的詹密,五一放假(五一表示十天假期)在家闲着没事爬爬本赛季NBA球员常规赛数据。虎扑还是比较友好,页面比较简单,使用requests库和正则表达式就可以完成爬取了,哈哈。首先看看要爬取哪些数据找到数据在哪些标签里面查看一共收录了几页的球员数据代码#spider程序import reimport requestsfrom requests.exceptions im原创 2017-05-04 11:46:44 · 2371 阅读 · 0 评论 -
分析Ajax请求抓取今日头条街拍美图
有一些网页直接请求得到的HTML代码并没有在网页中看到的内容,因为一些信息是通过Ajax加载,并通过js渲染生成的,这时就需要通过分析网页的请求来获取想要爬取的内容。通过抓取今日头条街拍美图讲解一下具体操作步骤。首先打开今日头条网页,搜索街拍选择图集,抓取组图 使用开发人员工具,查看网页html代码发现并没有想要的内容信息,接下来查看Ajax请求,注意我拿红圈圈出来的地方 查看Ajax请求url原创 2017-04-20 16:18:14 · 3446 阅读 · 1 评论 -
Python Selenium实现自动登录163邮箱
最近看了看Selenium,发现这个玩意是相当好用,于是我想自己写一个邮箱自动登录的小程序,下面以登录163邮箱为例,一开始遇到了很多问题,在网上看了很多教程,发现也都失效了,经过一下午的摸索,终于找到了原因——在Web应用中经常会遇到frame/iframe 表单嵌套页面的应用,WebDriver 只能在一个页面上对元素识别与定位,对于frame/iframe 表单内嵌页面上的元素无法直接定位。这原创 2017-04-27 17:32:31 · 10622 阅读 · 4 评论 -
Python3简单操作MySQL(增删改查)
Python3使用pymysql操作数据库 操作时遇到的“难点” ①查询时的中文编码问题 ②数据库的增删改查,提交到数据库执行import pymysql#导入pymysql库con = pymysql.connect(host='localhost',user='root',password='572939586',port=3306,db='db_dictionary',charset=原创 2017-04-15 10:50:40 · 1668 阅读 · 0 评论 -
Python3连接MySQL
通过pip安装PyMysql模块 进入命令行 pip install pymysql示例代码import pymysqlcon = pymysql.connect(host='localhost',user='root',password='****',port='3306',db='mysql')cursor = con.cursor()cursor.execute('select *原创 2017-03-31 19:00:13 · 816 阅读 · 2 评论 -
Python3导入Excel文件
准备工作 安装所需要的模块,xlrd模块 操作步骤 ①打开文件的工作簿 ②根据名称找到工作表 ③打印出读取的数据集合代码:import xlrdfrom pprint import pprintfile = '1.xlsx'wb = xlrd.open_workbook(filename=file)ws = wb.sheet_by_name('Sheet1')dataset = [原创 2017-04-14 15:17:38 · 5186 阅读 · 1 评论 -
Python3导入CSV文件(跟Python2有些许的不同)
导入CSV文件导入数据的步骤 ①打开xxx.csv文件 ②首先读取文件头 ③然后读取剩余头 ④当发生错误时抛出异常 读取完所有内容后,打印文件头和剩余所有行 代码:import csvfilename = 'enrollments.csv'data = []try: with open(filename)as f: reader = csv.reader(f)原创 2017-04-14 15:02:03 · 2755 阅读 · 0 评论 -
爬取猫眼电影榜单Top100
废话不多说,直接上代码import jsonimport requestsfrom requests.exceptions import RequestExceptionimport redef get_one_page(url): try: response = requests.get(url) if response.status_code ==原创 2017-04-05 16:49:54 · 4248 阅读 · 1 评论 -
Python各种库安装
1、大多数库都可以通过pip安装pip install ***2、使用wheel安装 安装Scrapy库把我搞得崩溃,各种报错,在网上参考了各路大神的解决办法,终于找到了一种最简单的方法–通过wheel安装。基本上所有的库都可以通过此方法安装(下面通过安装numpy的过程进行讲述)。 先去下面这个网站下载编译好的各种库的文件 http://www.lfd.uci.edu/~gohlke/pyt原创 2017-04-03 12:28:55 · 2840 阅读 · 1 评论 -
使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝页面比较复杂,含有各种请求参数和加密参数,如果直接请求或者分析Ajax将会非常繁琐。Selenium是一个自动化测试工具,可以驱动浏览器去完成各种工作,比如模拟点击、输入和下拉等多种功能,这样我们只需关心操作,不需要关心后台发生了怎么样的请求下面对具体操作步骤进行详述。创建webdriver对象#创建一个WebDriver对象from Selenium import webdriverbrow原创 2017-05-01 08:43:30 · 3771 阅读 · 2 评论