
python
文章平均质量分 79
smile_milk1992
欢迎与大家探讨软件编程的奥秘
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python的zip函数
zip函数接受任意多个(包括0个和1个)序列作为参数,返回一个tuple列表。具体意思不好用文字来表述,直接看示例:1.示例1:x = [1, 2, 3]y y= [4, 5, 6]z z= [7, 8, 9]xyz xyz= zip(x, y, z)print xyz运行的结果是:[(1, 4, 7), (2, 5, 8), (3, 6, 9)]从这个结果原创 2016-02-26 15:52:20 · 548 阅读 · 0 评论 -
python爬取网站数据保存使用的方法
编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了。问题要从文字的编码讲起。原本的英文编码只有0~255,刚好是8位1个字节。为了表示各种不同的语言,自然要进行扩充。中文的话有GB系列。可能还听说过Unicode和UTF-8,那么,它们之间是什么关系呢?Unicode是一种编码方案,又称万国码,可见其包含之广。但是具体存储到计算机上,并不用这种编码,原创 2016-06-13 12:41:04 · 2837 阅读 · 0 评论 -
Python实现爬取知乎神回复简单爬虫代码分享
看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了。工具1.Python 2.72.BeautifulSoup分析网页我们先来看看知乎上该网页的情况网址:,容易看到,网址是有规律的,page慢慢递增,这原创 2016-06-13 12:49:52 · 2810 阅读 · 0 评论 -
Python使用Scrapy爬取妹子图
Python Scrapy爬虫,听说妹子图挺火,我整站爬取了,上周一共搞了大概8000多张图片。和大家分享一下。核心爬虫代码123456789101112131415161718192021222324252627282930313原创 2016-06-13 12:51:49 · 3184 阅读 · 0 评论 -
python实现爬取千万淘宝商品的方法
本文实例讲述了python实现爬取千万淘宝商品的方法。分享给大家供大家参考。具体实现方法如下:123456789101112131415161718192021222324252627282930313233343536原创 2016-06-13 12:53:40 · 7786 阅读 · 1 评论 -
Python的特殊属性和用法
用__dict__把dict转换为对象的属性1 class Messenger:2 def __init__(self, **kwargs):3 self.__dict__ = kwargs4 5 6 m = Messenger(info="some information", b=[’a’, ’list’])7 m.more = 118 prin翻译 2016-06-18 09:15:14 · 6037 阅读 · 2 评论 -
【Python】寻找电影品味相似的用户并推荐相关电影
目录(?)[-]过程电影评价多重分类用户信息录入计算皮尔逊相关系数找出兴趣相投的用户插入自己的数据向某用户推荐电影加权平均所有人的评价结果与分析过程:用爬虫抓取豆瓣电影用户信息用多重分类法,定义电影评价等级计算自己与用户的皮尔逊相关度以人为主体分析相似度:找出志同道合的人,可以发现潜在喜欢的商品以商品为主体分析相似度:找出相似的商品,可以发现翻译 2016-07-15 15:31:32 · 2582 阅读 · 0 评论 -
【Python】爬虫小结
1.获取页面源代码1.1获取http类型的页面源代码[python] view plain copy import time,os,cookielib,urllib2,urllib import datetime,StringIO,gzip def getHtml(url,referurl=None,cookie=None,postdata=No原创 2016-07-15 16:05:25 · 766 阅读 · 0 评论 -
Selenium Webdriver元素定位的八种常用方式
在使用selenium webdriver进行元素定位时,通常使用findElement或findElements方法结合By类返回的元素句柄来定位元素。其中By类的常用定位方式共八种,现分别介绍如下。1. By.name()假设我们要测试的页面源码如下:button id="gbqfba" aria-label="Google Search" name="btnK" class=原创 2016-06-07 08:42:20 · 1811 阅读 · 0 评论 -
利用selenium登陆智联招聘,获取cookie
# -*- coding: utf-8 -*-import timeimport requestsfrom pandas import Series, DataFrameimport sysreload(sys)from selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import We原创 2016-06-08 15:33:25 · 5216 阅读 · 0 评论 -
python实现自动化登陆不需要密码
比如我下面这段给出的example,可以完成你的需求,模拟登录人人# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_cond原创 2016-06-08 11:00:31 · 3349 阅读 · 0 评论 -
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发。首先先要回答一个问题。问:把网站装进爬虫里,原创 2016-05-10 10:01:50 · 5002 阅读 · 0 评论 -
Python爬虫框架scrapy批量获取腾讯招聘网上面的信息
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然原创 2016-05-24 16:26:49 · 2916 阅读 · 0 评论 -
XPath和CSS 3的解析器比较
最近,我做了很多工作来实现一个同时支持XPath和CSS 3的解析器,令我惊讶的是:它们俩在某些方面上非常相似,而在另一些方面上又完全不同.不同的地方有,CSS是用来配合HTML工作的,可以使用#id来根据ID获取元素,以及使用.class来根据class获取元素.这些用XPath实现的话都不会那么简洁,反过来呢,XPath可以使用..来返回到DOM树的上层节点中,还可以使用foo[bar]来获取原创 2016-05-24 17:06:27 · 4578 阅读 · 0 评论 -
登录知乎的爬虫
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Date====: 2015-09-30 20:53:15import requestsfrom bs4 import BeautifulSoupimport timeimport jsonimport os#登陆知乎url = 'http://www.zhihu.co原创 2016-05-16 18:53:51 · 687 阅读 · 0 评论 -
python通过get,post方式发送http请求和接收http响应的方法
本文实例讲述了python通过get,post方式发送http请求和接收http响应的方法。分享给大家供大家参考。具体如下:测试用CGI,名字为test.py,放在apache的cgi-bin目录下:12345678910#!/usr/bin/pythonimport cgidef ma原创 2016-05-17 09:10:19 · 1614 阅读 · 0 评论 -
python http请求以及Cookie的模拟
对去哪儿网请求发送http查询:方法中,url必须是无一个dns查询的url,不能够包含Url中的子目录;比如www.baidu.com是一个有效的url,而 www.baidu.com/file/ 就不是一个有效的urlpost的时候header中的refer那个参数很重要。[python] view plain copy def get(self原创 2016-05-17 09:17:42 · 3727 阅读 · 0 评论 -
python利用selenium获取cookie实现免登陆
目录安装selenium package引入selenium package 建立webdriver对象打开设定的url并等待response通过xpath找到登录框并填入相应帐号密码模拟点击登录验证登录成功与否若currenturl发生变化则认为登录成功通过对象的方法获取当前访问网站的session cookie得到cookie之后就可以通过urllib2访问相应的网站并可实现网页爬取原创 2016-06-08 10:37:56 · 46060 阅读 · 5 评论 -
网页爬虫之cookie自动获取
本文实现cookie的自动获取,及cookie过期自动更新。社交网站中的很多信息需要登录才能获取到,以微博为例,不登录账号,只能看到大V的前十条微博。保持登录状态,必须要用到Cookie。以登录www.weibo.cn 为例:在chrome中输入:http://login.weibo.cn/login/分析控制台的Headers的请求返回,会看到weibo.cn有几组返回的co原创 2016-08-03 16:45:08 · 41920 阅读 · 4 评论