- 博客(12)
- 收藏
- 关注
原创 StringTokenizer or Split
最近在研究提升数据ETL入Hbase的效率,涉及文本处理都离不开split(或者说离不开indexof、substring)。当然我程序的瓶颈不在这,只是有空就看看,可发现网上有很多针对StringTokenizer和Split效率比较,有很多看着心塞,就来blog一下。转开发岗位前,一直用python和perl,现在重拾java,觉得烦死。 网上很多比较,初始条件不对等,忽略StringToke
2016-11-05 11:30:27
687
原创 Mechanize实现网站404监控
【前言】网站的404监控,其实要用到的就urllib2和re这两个模块,urllib2用来处理请求,re正则表达式用来处理html页面。其中,处理html页面(找出页面的全部links),也可使用BeautifulSoup,简单方便。这里,将介绍如何使用mechanize模块实现网站的404监控。主要内容包括:1、实现过程中常见的问题答疑;2、多线程中的线程安全问题;
2015-01-25 14:32:21
1507
原创 jsoniter大小写问题
其实,也不算大小写问题吧。具体是,对象属性与setter字段大小写一致时,jsoniter解析会不成功(至少在两层嵌套的json对象,且待解析字符串为大写情况下),如下的OBJECTS、setOBJECTSpublic class NestedObject { public List<SimpleObject> OBJECTS; public List<SimpleObject> ge
2016-12-27 17:11:39
1698
原创 Python:更快地遍历文件夹
【概述】说起,如何快速地遍历文件夹。或许,某人立刻就想到了线程池,几个worker并行处理遍历任务,总比一个worker的速度更快吧。当然,很多人不以为然。这要看单机性能是否够强悍,使你能够起更多的worker,以加快速度。我们,先来看看Python遍历文件夹的几种方案:分析MFT,获取目录结构(仅适合NTFS格式); 使用os.walk或os.path.walk遍历; 使用os.listdi
2015-04-15 09:40:12
9533
1
原创 selenium:结合httpwatch进行网页测试(Python版)
【概述】 Httpwatch 一款强大的网页数据分析工具。它可以捕捉http/https数据,查看底层的数据,包括headers、cookies、cache等。同时,记录发送请求、接收请的时间。Anyway,a good tool for you。 或许,你有一个需求,要在selenium进行页面功能测试的时候,你需要获取一些信息,如提交请求数据、接收请求数据、页面加载的时间等。selenium
2015-04-10 14:53:15
2729
转载 Ubuntu Grub安装的两个问题(windows 7 下双系统)
【前言】网上有不少EasyBCD引导安装的教程,有些还很详细....但有些细节没说清楚,导致安装Ubuntu安装折腾很久,过程曲折,耗时又耗力。现总结两个重要的问题,让大家少走些弯路。这两个问题,都是粗心大意造成,使得半小时能完成的工作竟花去了一天。解决方案,都是千幸万苦百度出来的,所以这个算转载。安装方法推荐:http://www.cnblogs.com/allenjin/arc
2015-01-21 15:52:22
2097
原创 Sed技巧
【前言】 Sed 和 AWK,是shell常用的文本处理工具。 两者的工作流,都是REPR,即Read -> Execute -> Print -> Repeat。 但它们都是逐行处理,在面对大文本时处理效率低下,所以适用于普通文本处理。 同时,请注意,它们都不会修改输入文件的内容。本文输入文件:1、vi employee.txt101,John D
2014-12-25 10:29:45
588
原创 Python:装饰器
装饰器就是修饰函数或者类的函数,即用函数在被装饰函数在调用前后、被装饰类在创建之前进行额外的操作。装饰器可用在线程编程,子类继承等等
2014-12-09 09:44:45
822
原创 Selenium2library浏览器版本问题
Selenium2library浏览器版本问题错误信息:[ WARN ] Keyword 'Capture Page Screenshot' could not be run on failure: No browser is openLog: c:\users\x230\appdata\local\temp\RIDEiqowaw.d\log.htmlReport: c:\users\x230\appdata\local\temp\RIDEiqowaw.d\report.html
2014-12-03 15:22:59
10351
原创 Python:经典排序算法实现
BubbleSorMergeSortHeapSortShellSortInsertionSortSelectionSortCocktailSort
2014-11-27 16:21:02
738
原创 从pyh看Python的工厂模式
【设想】在做selenium前端页面测试时,想到生成html报告,需要编写个类,实现在Python内编辑html,具体思路如下:1、编写各种tag类型,如head、title、body;2、重载 + 运算,实现类似html + head的功能;3
2014-11-25 18:01:02
1586
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅