
python
anlun
这个作者很懒,什么都没留下…
展开
-
黄聪:关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项(转)
黄聪:关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项(转) 抓取网页的一般逻辑和过程 一般普通用户,用浏览器,打开某个URL地址,然后浏览器就可以显示出对应的页面的内容了。 这个过程,如果用程序代码来实现,就可以被称为(用程序实现)抓取网页(的内容,并进行后期处理,提取所需信息等) 对应的英文说法有,website crawl/scrape/data minin转载 2015-02-02 08:46:01 · 594 阅读 · 0 评论 -
黄聪:使用 Python 登录网站
对于大部分论坛,我们想要抓取其中的帖子分析,首先需要登录,否则无法查看。 这是因为 HTTP 协议是一个无状态(Stateless)的协议,服务器如何知道当前请求连接的用户是否已经登录了呢?有两种方式: 在URI 中显式地使用 Session ID;利用 Cookie,大概过程是登录一个网站后会在本地保留一个 Cookie,当继续浏览这个网站的时候,浏览器会把 Cookie 连同地转载 2015-02-02 08:49:01 · 552 阅读 · 0 评论 -
黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二) 对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,转载 2015-02-02 08:43:53 · 766 阅读 · 0 评论 -
黄聪:用python知道URL地址提取链接中的域名与端口
黄聪:用python知道URL地址提取链接中的域名与端口 import urllib proto, rest = urllib.splittype("http://www.baidu.com/11/12.htm") host, rest = urllib.splithost(rest) print host host,转载 2015-02-02 09:25:40 · 831 阅读 · 0 评论 -
黄聪:Python网站采集功能(多线程的采集、WDPYSPIDER类、pycurl)
黄聪:Python网站采集功能(多线程的采集、WDPYSPIDER类、pycurl) Python 1 import urllib 2 urlItem = urllib.urlopen("http://www.baidu.com") 3 htmSource转载 2015-02-02 08:50:00 · 1411 阅读 · 0 评论 -
黄聪:Python实现Discuz论坛的自动POST登录发贴回帖(转)
黄聪:Python实现Discuz论坛的自动POST登录发贴回帖(转) #-*-coding:utf-8-*- import urllib2, urllib, cookielib import re import getpass import sqlite3 import random import time class Discuz: def __init__(转载 2015-02-02 09:27:32 · 4451 阅读 · 1 评论 -
黄聪:解决python中文处理乱码,先要弄懂“字符”和“字节”的差别
黄聪:解决python中文处理乱码,先要弄懂“字符”和“字节”的差别 转载来自:http://hcsem.com/2095/ 我来讲一下字符问题我的理解吧,虽然我对Python的编码处理的具体细节还不太清楚,不过临时稍微看了一下,和Perl的原理也差不多 最重要的是必须区分“字符”和“字节”的不同,“字符”是抽象的,而“字节”是具体的 比如一个“中”字,在不同编转载 2015-02-02 09:23:17 · 1216 阅读 · 0 评论 -
黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)
黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题) 简单的抓取网页: import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象 page=response.read() 直接将转载 2015-02-02 08:47:41 · 815 阅读 · 0 评论 -
黄聪:Scrapy 轻松定制网络爬虫
黄聪:Scrapy 轻松定制网络爬虫 网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬, 而是有一定目的的,并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息;又比转载 2015-02-02 09:28:48 · 1017 阅读 · 0 评论 -
黄聪:python控制台无法正常显示中文字符串解决方法
黄聪:python控制台无法正常显示中文字符串解决方法 #!python # encoding: utf-8 s = "哈哈" ss = u'哈哈' print s.decode('utf-8').encode('gbk') print ss.encode('gbk')转载 2015-02-02 09:24:36 · 866 阅读 · 0 评论 -
黄聪:pycharm开发python 在python Console中输出的程序有乱码,含有中文的输出
黄聪:pycharm开发python 在python Console中输出的程序有乱码,含有中文的输出 文件编码是UTF-8,同时在文件头添加 # -*- coding: utf-8 -*-文件中所有的字符串前都加u,如 u"中文"在输入(抓取某些utf-8/gbk的网页)、输出(输出到网页、终端)的时候,要记住python内部是用Unicode存储的所有输入要先decode,变成u转载 2015-02-02 09:21:05 · 1781 阅读 · 0 评论 -
黄聪:Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
黄聪:Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等) 去空格及特殊符号 s.strip().lstrip().rstrip(',') 复制字符串 #strcpy(sStr1,sStr2) sStr1 = 'strcpy' sStr2 = sStr1 sStr1 = 'strcpy2' print sSt转载 2015-02-02 08:51:44 · 534 阅读 · 0 评论 -
使用Python中的urlparse、urllib抓取和解析网页(一)
黄聪:使用Python中的urlparse、urllib抓取和解析网页(一) 对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首 先,我们介绍一个可以帮转载 2015-02-02 08:42:46 · 819 阅读 · 0 评论