- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 Python爬linkedin——规模在1001-5000的瑞士公司(非官方API)
1、说明使用Python爬linkedin网站,爬公司规模在1001-5000的瑞士公司信息,只爬公司名、公司规模、所在行业、所在地这四个信息。2、步骤说明1>、模拟登录2>、爬公司信息3>、获取下一页的URL3、代码片段1>、模拟登录从登录页面填写form表单,该表单中有一些JS验证,在JS开启时,会随着表单一起提交。不过不填也没事,毕竟不是每个人都会开启
2015-12-23 15:11:01
8016
3
原创 使用python,批量导入数据到elasticsearch中
使用python,批量导入数据到elasticsearch中使用python官方模块,批量将文件中的数据导入到elasticsearch中。1、文件内容文件以{url:content}组成且以“\t”隔开,例子如下:http://www.avsforum.com/forum/39-networking-media-servers-content-streaming/1624586-
2015-10-28 17:15:19
13469
原创 解决spark运行时Java heap space问题
问题描述:在执行spark程序时,需要读取200w数据作为缓存,遇到Exception in thread "main" java.lang.OutOfMemoryError: Java heap space问题。报错信息如下:15/09/15 05:26:09 INFO storage.BlockManagerInfo: Removed broadcast_3_piece0 on
2015-09-15 14:43:10
20901
1
原创 dom4j读取xml文件
1、引入相关的jar文件将dom4j相关的jar拷贝到WEB-INF/lib下dom4j-1.6.1.jar:核心jarjaxen-1.1-beta-6.jar:不会抛java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常2、读取xml文件到控制台xml文件如下 学生1 男
2014-06-27 00:59:21
1036
原创 使窗口在整个屏幕居中
使窗口在整个屏幕居步骤: 1、获得默认的Toolkit 2、获得显示器的大小 3、计算居中后,窗口的左上角坐标 4、居中代码如下: //1、获得默认的Toolkit Toolkit toolkit = Toolkit.getDefaultToolkit(); //2、获得显示器的大小 Dimension
2014-03-15 21:28:46
1652
原创 JAVA调用window应用程序
JAVA调用window应用程序有两种方法,分别是cmd调用和rundll32调用方法。两种方法的区别在于调用的命令不同,执行方法都是Runtime.getRuntime().exec();CmdCmd调用方法:Runtime.getRuntime().exec(Cmd命令 + 文件绝对路径); Cmd命令: 1、 执行简单的命令,把命令解释器包含在exec()的参数中。
2014-03-01 16:58:07
1386
针对 Tesseract ORC的 Tesseract ORC -1.2-src
2014-02-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人