- 博客(20)
- 问答 (4)
- 收藏
- 关注
用Python Mechanize做爬虫遇到的内存过高问题
今天在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。 整个过程是: 1、获取目标页面地址 2、取得目标地址前几页的所有图片url 3、对这些url进行下载,并把索引数据保存到mysql数据库。 这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈) 当图片下载到大约15000张左右的时候,发现越来越慢,最后...
2012-03-27 18:36:31
487
Stack Overflow中文版
http://area51.stackexchange.com/proposals/37537/stack-overflow?referrer=CaYNn6KUQqXlhwCG4VbAXQ2 Stack Overflow作为目前世界上最高质量的是技术社区,还没有中文版分站。 我提交了Stack Overflow的中文版的申请,常问技术问题的一起支持一下,争取成为stack o...
2012-01-04 15:04:46
5278
3
Google's Python Class 5 (Python Dict and File)
原文:http://code.google.com/edu/languages/google-python-class/dict-files.html Python Dict and File Google Code University › Programming Languages Dict Hash Table Python有一个高效的哈希表数据结构:"dict"(字典)...
2011-12-31 13:40:13
177
Google's Python Class 4 (Python Sorting)
原文:http://code.google.com/edu/languages/google-python-class/sorting.html Python Sorting(排序) Google Code University › Programming Languages 为list排序的最简单方法是使用sorted()函数,它会返回一个排序号的新的list. a = [5,...
2011-12-30 13:48:29
166
Google's Python Class 3 (Python Lists)
原文:http://code.google.com/edu/languages/google-python-class/lists.html Python Lists Google Code University › Programming Languages Python拥有一种强大的列表类型: "list". List 通过 [ ]进行声明. Lists与string类型的用...
2011-12-30 11:08:26
164
原创 Google's Python Class 2 (Python Strings)
原文:http://code.google.com/edu/languages/google-python-class/strings.html Python Strings Google Code University › Programming Languages Python有一个内置的字符串类叫做str,它有很多非常方便的功能 (还有一个比较老的类叫做string,应当避免使用). ...
2011-12-29 14:14:04
136
原创 Google's Python Class 1 (Python Introduction)
原文:http://code.google.com/intl/zh-CN/edu/languages/google-python-class/introduction.html Python Introduction Python是一种动态解释型语言。Python代码不需要为方法和变量指定类型,这种特性让Python保持精简和灵活的同时也牺牲了编译期类型检查的优点。Python会在...
2011-12-29 12:15:21
218
原创 JAVA字符流、字节流结构图
Java的流分为字符流和字节流两大类,字节流是按照字节来传数据的(即8位一个字节) 而字符流是按照某种编码格式的字符来传递的,我们可以自己设定编码方式 字符流输入输出 字节流输入输出 ...
2010-09-11 11:29:19
430
原创 ORACLE 10G层次查询输出树状结构
表结构: sql: select A.id,A.name,A.job_name from ( select * from sys_users t start with t.employee_number='123' connect by NOCYCLE prior t.super_number = t.employee_number...
2010-07-23 10:38:30
254
原创 数据库join备忘
之前研究过几种JOIN方式的区别,但长时间不用又给迷糊了,这次一定记录下来防止忘了。 首先创建A、B两个表,如下图: 1、innner join inner join是默认的方式,可以缩写为join,也称为自然连接。 2、outter join : 外连接分为left outter join和right outter join,全外连接为full join. or...
2010-06-20 12:54:29
142
原创 HTTP的GET和POST格式解析
本文来自优快云博客,转载请标明出处:http://blog.youkuaiyun.com/yc0188/archive/2009/10/29/4741871.aspx HTTP报文是面向文本的,报文中的每一个字段都是一些ASCII码串,各个字段的长度是不确定的。HTTP有两类报文:请求报文和响应报文。 请求报文 一个HTTP请求报文由请求行(request line)、请求头部(hea...
2010-06-06 15:00:19
167
Python精简学习笔记(三) -- 类/文件
类 class Person: def say(a,b): print("Hello you all! %d"%b) print(a) p=Person() p.say(1) 类中定义的方法,第一个对象总是当前类实例本身 class Person: def __init__(self,name): self....
2010-06-05 18:16:25
165
原创 Python精简学习笔记(二) -- 字符串/HTTP
函数: def say(): print("say hello") say() 注意,say()后面有冒号。即python的函数定义、条件判断后 面均有冒号 def printMax(a,b): if a>b: print("a is max! %d"%a) if a<b: print("b...
2010-06-05 00:11:59
144
原创 Python精简学习笔记(一)
输出函数 print("This is a string test %s"%"哈哈哈哈") 输入函数 s = input("请输入...") 数组 sz=[1,2,3,'a','b'] 元组 yz=(1,2,3,'aaa','bbb') 元组只相当于只读序列,数组可以改变。 sz[1]=1111 accept yz[1]=11...
2010-06-04 11:23:24
150
在JavaSE中获得EntityManagerFactory测试 EJB组件
在网上找了不少java se中获得enetityManagerFactory的方法,很多都讲的很简略,不知道是为何,总让人看不太明白。我就写个完整的吧。 1、在java se项目中的persistence.xml中添加如下代码: <persistence-unit name="oracle_test" transaction-type="RESOURCE_LOCAL">...
2010-05-29 13:47:52
187
使用Java调用Oracle 存储过程实验
//1、编写一个测试表Book create table book ( id number primary key, name varchar2(100), description varchar2(100) ) //2、定义一个插入数据的存储过程: create or replace procedure addBook (bookId number,bookName v...
2010-05-26 21:26:16
105
原创 观察者模式的实际应用
EJB3这的MDB就是观察者模式的一个体现。 即,当被观察者的状态发生变化,或执行某项操作的时候,观察者即被触发执行设定的动作。 例如:ATM银行卡问题: 被观察者:取款机 观察者:摄像头,屏幕,监控系统 当用户密码输入错误3次时,取款机将卡吞掉,触发观察者的动作,观察者会执行拍照、初始化屏幕等操作。 这个好处就是,当银行的监控措施增...
2010-05-16 19:09:33
173
简单方法实现SSH使用多数据源
前段时间,跟朋友讨论怎么实现这个东西的时候想到的一个方法,不知道正规场合可行不可行,我自己测试的时候没啥问题,我是个新手,希望朋友们不吝指教。 我测试的时候只是增删改查没啥问题,不知道事务是不是如我预料的那样没问题.... 当然,做分布式还是用JTA更好一些,现在的JAVA EE容器都直接支持了,下面这些方法只是给像我一样的野战军用的土方法,适用于Tomcat,哈哈。 第...
2010-05-10 11:13:03
307
原创 Lucene基础使用学习笔记
最近学习Lucene的使用,打算做一个基于lucene的知识管理,感觉这个东西真是太方便太好用了 不过话说回来,如果数据量不是很大的话,就美必要用了 #- - ~~ 这个笔记主要是摘抄自网络,记录一下我的学习过程,和大家共勉~在此感谢那些无私奉献的人们! 1 、整体结构说明 索引和搜索过程图: ...
2010-05-09 11:32:47
120
Tomcat客户端访问EJB远程方法错误解决(无法找到UserDaoImpl/Remote)
昨天做的一个EJB测试项目,搞得我郁闷坏了。 Jboss5.0.1GA Tomcat6.0 Jdk 1.6 新建EJB服务器端为JAVAEE5.0项目 WEB客户端也是JAVAEE5.0项目(默认包含javaee.jar这个包,跟jboss-javaee.jar基本相同,两者任意一个放到tomcat/lib下都可以,这是最后才知道的,刚开始没这么放) ...
2010-05-06 13:30:04
269
空空如也
EJB3中依赖注入,几个注解的意思谁能详解一下?谢谢!
2010-05-30
CXF入门问题,怎样在客户端给服务器端传递一个对象 ?
2010-04-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人