
Python
liucw_cn
喜爱java
展开
-
Python爬虫----基础知识(简单爬虫架构、URL管理器和实现方法)
爬虫是什么:一段自动抓取互联网信息的程序爬虫价值:互联网数据,为我所用一、简单爬虫架构爬虫调度端:用来启动、执行、停止爬虫,或者监视爬虫中的运行情况在爬虫程序中有三个模块URL管理器:对将要爬取的URL和已经爬取过的URL这两个数据的管理网页下载器:将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析网页解析原创 2016-07-19 17:20:59 · 6255 阅读 · 0 评论 -
Python爬虫----网页下载器和urllib2模块及对应的实例
网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件未完。。。原创 2016-07-19 17:36:12 · 2826 阅读 · 0 评论 -
Python爬虫----网页解析器和BeautifulSoup第三方模块
网页解析器:从网页中提取有价值数据的工具原创 2016-07-19 21:46:36 · 5450 阅读 · 0 评论 -
Python2.7.x基础教程笔记--input与raw_input的区别
使用input和raw_input都可以读取控制台的输入,但是input和raw_input在处理数字时是有区别的1、纯数字输入当输入为纯数字时 input返回的是数值类型,如int,float raw_inpout返回的是字符串类型,string类型>>> inputA = input('please input a num:')please inp原创 2016-07-18 13:35:04 · 5379 阅读 · 2 评论 -
Python2.7.x 错误和异常
错误:1、语法错误:代码不符合解释器或者编译器语法2、逻辑错误:不完整、不合法输入、计算出现问题异常:执行过程中出现问题导致程序无法执行1、程序遇到逻辑或者算法问题2、运行过程中计算机错误(内存不够或者IO错误)区别:错误: 代码运行前的语法或者逻辑错误 语法错误在执行前修改,逻辑错误无法修改异常分为两个步骤1、异常产生,检查到错误且原创 2016-07-20 16:59:33 · 5322 阅读 · 0 评论 -
Python文件处理
文件读取方式:1.read([size]): 读取文件(读取size个字节,默认读取全部)2.readline([size]): 读取一行3.readlines([size]): 读取完文件,返回每一行所组成的列表文件写入方式:write(str): 将字符串写入文件writelines(sequence_of_strings): 写入文件原创 2016-07-20 21:36:24 · 1593 阅读 · 0 评论 -
Python爬虫----实例: 抓取百度百科Python词条相关1000个页面数据
一、分析目标如果分析目标与上述不同,请自行修改,因为页面会随意更新数据格式等相关信息二、调试程序spider_main.py#!/usr/bin/env python2# -*- coding: UTF-8 -*-from baike_spider import url_manager, html_downloader, html_outputer, h原创 2016-07-20 14:19:16 · 6306 阅读 · 3 评论 -
python命名规范
文件名、包名、模块名、局部变量名、函数&方法名 全小写+下划线式驼峰 example:this_is_var类 首字母大写式驼峰。如ClassName()。 内部类可以使用额外的前导下划线。 函数和方法的参数 类实例方法第一个参数使用self, 类方法第一个参数使用cls 如果一个函数的参数名称和保留的关键字冲突,通常使用一个后缀下划线好于使用缩写或奇怪原创 2017-09-30 18:30:27 · 5140 阅读 · 0 评论