
python
文章平均质量分 51
进击的编程小菜鸟
小菜鸟编程学习中....
展开
-
python实现简单爬虫功能代码
实现爬取指定网页,下载图片到本地原博地址:http://www.cnblogs.com/fnng/p/3576154.html1.打开网页,读取,最后输出#coding=utf-8import urllibdef getHtml(url): page = urllib.urlopen(url) html = page.read() return html转载 2016-04-27 15:51:02 · 2418 阅读 · 0 评论 -
python生成指定文件名的txt文件
加油!点滴积累!^_^python生成指定文件名的txt文件先从filename.txt中逐条导入文件名,delt()是删除读行时“\n”字符@@~txt文件名不能出现,如包含这些会出现 error invalid mode ....的错误#-*- coding:UTF-8 -*-#去除\n函数def delt(st): if '\n' in st:原创 2016-05-07 13:06:39 · 4711 阅读 · 1 评论 -
python复制txt内容到另一个txt
@_@复制a.txt内容到另一个b.txt#-*- coding:UTF-8 -*- if __name__=='__main__': fp = open('a.txt','r') for line in fp: fq = open('b.txt','a')#这里用追加模式 fq.write(line)原创 2016-05-06 15:23:55 · 15993 阅读 · 0 评论 -
python中write没有写入是什么情况
生成文件,但是没有写入字符串#-*- coding:UTF-8 -*- if __name__=='__main__': fp = open('test.txt','w') fp.write('hello') 增加了close后#-*- coding:UTF-8 -*- if __name__=='__原创 2016-05-06 14:39:53 · 11667 阅读 · 5 评论 -
从txt中提取网址,访问网址提取ur地址并保存
从1.txt读取url,并从读取的url的网页中提取url保存在2.txt# -*- coding: UTF-8 -*- import urllibimport re#定义获取目标网页函数def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#定义获取u原创 2016-05-06 09:47:32 · 4614 阅读 · 0 评论 -
读取文本字符串,并生成以字符串命名的txt文件
从test.txt文本中逐行读取字符串,以字符串命名,生成新的txt文档#-*- coding:UTF-8 -*-#读取字符串,去除字符串中的“\n”,并生成txt文件if __name__=='__main__': sp = open('test.txt','r') for i in sp: if "\n" in i: t = i.原创 2016-05-05 15:55:06 · 930 阅读 · 0 评论 -
去除字符串中的某个字符
读取txt文档中的每一行#-*- coding:UTF-8 -*-#读取字符串,去除字符串中的“\n”,并生成txt文件if __name__=='__main__': sp = open('test.txt','r') for i in sp: print i运行结果:>>> www.baidu.comwww.sina.comwww.原创 2016-05-05 15:42:04 · 1902 阅读 · 0 评论 -
python爬虫代码简化1
一步步的添加爬虫功能,慢慢的也会发现一些代码可以简化。所以贴出来跟之前的做对比。代码如下:@_@把之前的url链接筛选写了一个函数,这样主程序就非常简洁了。还去掉了之前定义的一些不必要的变量。目标驱动,然后多动手真的感觉非常棒~# -*- coding: UTF-8 -*- import urllibimport re#定义获取目标网页函数def getHtml(url):原创 2016-05-04 19:54:28 · 534 阅读 · 0 评论 -
逐行提取txt文本中的字符串
#-*-coding:UTF-8 -*- f = open('test.txt','r') for line in f: s = line print s应用到之前的爬虫例子import urllib#定义获取目标网页函数def getHtml(url): page = urllib.urlopen(url) html原创 2016-05-04 19:22:19 · 993 阅读 · 0 评论 -
python爬虫抓取目标网页链接
编写了一个python爬虫,可以抓取目标网页,并进行简单的删选。如下# -*- coding: UTF-8 -*- import urllibimport re#定义获取目标网页函数def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#定义获取url的函数de原创 2016-05-04 13:17:42 · 1897 阅读 · 0 评论 -
python中list去重复
方法一:ids = [1,2,3,3,4,2,3,4,5,6,1]news_ids = []for id in ids: if id not in news_ids: news_ids.append(id)print news_ids方法二:set方法ids = [1,4,3,3,4,2,3,4,5,6,1]ids = list(set(id原创 2016-05-04 18:53:25 · 551 阅读 · 0 评论 -
判断字符串中含有某字符串
#!/usr/bin/env python## [SNIPPET_NAME: String contains string test]# [SNIPPET_CATEGORIES: Python Core]# [SNIPPET_DESCRIPTION: Test if a string contains another string]# [SNIPPET_AUTHOR: Jono Baco原创 2016-05-04 13:06:19 · 489 阅读 · 0 评论 -
python中re模块的使用
python的re模块(regular expression 正则表达式)提供各种正则表达式的匹配操作。在文本解析、复杂字符串分析和信息提取时是非常有用的工具,下面是re的常用方法爬虫程序抓取到信息后,需要对信息进行处理,re模块提供的正则表达式对于信息处理非常有用。1.引入re模块import re#查看re模块功能信息(其他模块也可以如此)print re.__doc__原创 2016-05-04 09:01:35 · 1108 阅读 · 0 评论 -
IndexError: list index out of range列表索引超出范围
循环输出列表中的值遇到了这个错误:IndexError: list index out of range列表索引超出范围例子如下:# -*- coding: utf-8 -*-if __name__=='__main__': s = ['1','2','3','4','5'] l =len(s) print "列表的长度:%d\n"%l for i i原创 2016-05-03 21:00:41 · 34552 阅读 · 2 评论 -
python核心模块--urllib
2016/4/28【学习笔记】习惯留一个原博文章学习地址》》》http://www.cnblogs.com/sysu-blackbear/p/3629420.htmlurlopen返回对象提供方法:- read() , readline() ,readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样-转载 2016-04-28 21:13:47 · 314 阅读 · 0 评论 -
python分别求个十百千位
python有些实例需要分别求出一个数的个十百千位eg.求出一个四位数的个十百千位# -*- coding: UTF-8 -*-if __name__=='__main__': x = int(raw_input('pls input a four number:\n')) a = x / 1000 #千位 b = x % 1000 / 100 #百位原创 2016-04-29 19:23:43 · 25416 阅读 · 1 评论 -
python导入网址,采集网页内容
python导入网址,采集网页内容写得比较菜,多多指教!# -*- coding: UTF-8 -*- import urllibimport reimport time#定义获取目标网页函数def getHtml(url): page = urllib.urlopen(url) html = page.read() return html原创 2016-05-07 13:35:00 · 1403 阅读 · 0 评论