- 博客(31)
- 资源 (4)
- 收藏
- 关注
原创 mac 安装 mysql odbc 驱动
这段时间研究 Excel VB编程,公司windows电脑链接 oracle/mysql 数据库很容易,回家使用mac 发现数据库驱动配置跟windows还是很不一样的。一开始我参考了一篇 mysql 链接 excel 的文章:https://www.douban.com/note/532801751/?type=rec 我参考里面第二种方法,就是先去官网下载 mysq
2016-12-25 21:59:14
5937
原创 pentaho data-integration(kettle) 资源库备份
PDI(kettle)自动备份资源库,每天定时将资源库备份至xml文件
2016-12-15 11:18:09
9675
原创 kettle对xml的追加写入
最近研究xsl解析xml生产html功能;实现过程中发现生成 特定格式的xml 文件比较麻烦。kettle本身提供xml生产组件;但是太弱了,捣腾了好久终于实现了;今天有空把它贴出来。xml写入方式一)作业设计如图:生产xml数据如下: 1 tom juli shenzhen 2 jack lurry shanghai 3 rose aiven
2016-09-06 15:22:45
4153
原创 kettle 不识别自定义常量
最近做了一个 kettle 发送邮件附件的作业,关于邮件的发件人、收件人、用户名、密码等信息我定义在一个自定义常量组件中。错误日志:2016/08/15 18:13:14 - 自定义常量数据.0 - Finished processing (I=0, O=0, R=0, W=1, U=0, E=0)org.pentaho.di.core.exception.KettleExceptio
2016-08-15 18:30:44
7040
原创 I was unable to save the HTTP result to file because of a I/O error: Server redirected too many tim
最近使用kettle 的http 组件下载文件的时候遇到了下面的错误:2016/08/15 11:46:58 - 下载P2PContractPay - Start of HTTP job entry.2016/08/15 11:46:58 - 下载P2PContractPay - Connecting to URL: http://100.20.12.23/download/160
2016-08-15 12:54:59
1113
原创 Oracle SQL developer 输入字体异常
在Oracle Sql developer 中开发的时候经常会遇到下面的情况(字体异常,造成sql无法执行):select * from dual;select * from dual;后来发现 PL/SQL 也会出现这种情况。造成原因: 误按了 shift + 空格 键解决方法: 按下 shift + 空格键以前误按,也不知道误按了
2016-08-01 11:20:07
3778
5
原创 hive udf开发以及永久注册udf函数
网上大部分资料显示注册 hive udf 函数大体有两种方法:第一种、创建临时函数。如在hive CLI执行下面命令:hive> add jar helloudf.jar;hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';hive> select helloworld(t.co
2015-01-23 10:39:57
5582
原创 org.apache.sqoop.hive.HiveImport - Loading uploaded data into Hive Intercepting System.exit(1)
在 HUE 的 作业设计器中 运行sqoop 作业,调用命令:
2014-10-29 10:03:09
2574
原创 ERROR hive.ql.metadata.Hive - NoSuchObjectException(message:default.hive_born table not found)
Current (local) dir = /data2/yarn/nm/usercache/admin/appcache/application_1414125871247_0209/container_1414125871247_0209_01_000002------------------------ hive-service-0.13.1-cdh5.2.0.jar json-s
2014-10-29 09:49:01
3963
原创 mahout关于决策树应用报错异常处理
Exception in thread "main" java.lang.IllegalArgumentException: Wrong number of attributes in the string: 2. Must be: 42at com.google.common.base.Preconditions.checkArgument(Preconditions.java:125)
2014-08-07 18:42:31
1669
原创 org.apache.mahout.classifier.df.data.DescriptorException: Bad Token
这个错误主要是 解析
2014-08-07 15:30:39
658
原创 FileInputFormat setInputPathFilter过滤文件报错找不到文件夹
设置文件过滤代码:FileInputFormat.setInputPathFilter(job,MyPathFilter.class);过滤器shix
2014-07-28 15:57:48
1753
原创 bayes示例数据20news-all转换成20news-seq报错
ja2014-07-17 10:16:18 [pool-1-thread-1] - [WARN] Failed to connect to /192.168.9.72:50010, add to deadNodes and continuejava.net.BindException: Address already in use: no further information
2014-07-18 16:30:06
755
原创 Mahout之bayes算法学习(二)
直接在linux上面运行classify-20newsgroups.sh 还是挺容易的,但是大部分时间我们不是简单的
2014-07-15 10:16:47
806
原创 ClusterDumper输出聚类中心点
Mahout中关于KMeans方法调用的代码: Path directoryContainingConvertedInput = new Path(output, DIRECTORY_CONTAINING_CONVERTED_INPUT); log.info("Preparing Input"); InputDriver.runJob(input, directoryCon
2014-07-08 16:47:04
1277
原创 FSDataOutputStream.writeUTF(String)写入文本异常
在使用hadoop的文件写入流 FSDataOutputStream 写入字符串的时候出现了y
2014-07-04 17:39:57
3674
原创 hadoop-eclipse-plugin-2.2.0.jar放到eclipse的plugins文件夹后,eclipse中没有map/reduce项
安装这个hadoop-eclipse-plugin-2.2.0的插件搞了三天,搞得很郁闷啊!最后
2014-06-26 09:37:44
5949
原创 爬虫代理ip设置
爬虫的过程中可能会涉及到ip代理的问题。网上有很多可用的ip代理信息:http://pachong.org/下面就是从中选择一个最合适的ip。实现思路:1. 获取该页面内容,提取每一行ip信息。2. 新建一个java Bean 封装每一个ip属性。3.将所有的javaBean添加到一个arraylist中。4.对整个arraylist排序。代码如下:/*
2014-03-17 17:18:58
6245
原创 新浪微博关键字搜索结果抓取
我在实现抓取关键字搜索结果的时候确实遇到的验证码识别问题很蛋疼,一开始本来想破解验证码,后来查了资料发现,这个很难;就像实现手动填写验证码。网上提供手动填写验证码的基本实现思路是:1. 请求获取图片。2. 保存图片至本地。3. 打开图片。4.手动填写验证码,模拟请求验证码识别验证。后来看了别人的blog发现一个更简单暴力的方法,就是开浏览器填写验证码。//打开浏览器,手
2014-03-17 17:06:54
4174
原创 获取新浪微博滚动加载内容
前段时间写了一些关于抓取新浪微博的经历,现在就贴一些我遇到过一些问题的代码实现思路吧:(我使用的是 htmlunit 爬虫)每个人的博客主页中都有微博内容块,每次点击查看微博内容的时候你会发现,微博内容不是一次加载的;这个问题不管是新浪还是腾讯,它们的内容加载方式都是一样的。废话不多说,直接将代码实现:1. 请求微博内容url,获取请求返回的数据,由于返回的微博内容时嵌入在js
2014-03-17 16:46:34
11403
原创 新浪微博内容抓取
最近抓取新浪微博的相关内容,遇到了很多问题也解决了很多问题。一开始我是使用httpclient爬虫抓取网页,但是后面发现微博网页内容很多都是嵌入到js中的;所以改用了htmlunit。下面重点总结几点我的经验吧!httpclient、htmlunit、新浪微博API这三者的优缺点:httpclient:优点:爬虫比较稳定,相关使用方法很详细,可以参考《自己动手写网络爬虫》这本书
2014-03-07 17:32:16
3989
原创 jsoup去掉标签中的标签,保留非标签内容
通过jsoup的select这一获取标签<bid="d_price" class="d_price "><spanclass="yen">¥414.50现在的问题是,我只想提取414.50这个价格而不要span标签及里面的内容。我的解决方法时://通过jsoup中select选择b标签,在获取html内容String htmlContent = "¥414.
2013-11-28 18:08:56
12018
protege3.x教程的项目源代码
2013-08-14
本体开发软件和graphviz插件
2013-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人