业务需求
qq_33872191
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Java API连接Hive
首先导maven包: <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.1.0</versi...原创 2018-12-12 19:02:08 · 952 阅读 · 0 评论 -
Spark写数据到kafka
spark RDD只能通过原生API去写。不是spark streaming哦。导maven包:这一步不能复制粘贴,要看看你机器的kafka版本是多少。然后去下载对应的包 <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka --> <dependency>...原创 2018-12-12 19:11:01 · 2738 阅读 · 1 评论 -
Spark 消费Kafka数据
spark RDD消费的哦,不是spark streaming。导maven包:注意版本哦,要跟自己机器的一致 <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka --> <dependency> <groupId>org...原创 2018-12-12 19:21:08 · 934 阅读 · 0 评论 -
spark RDD进行行转列并且生成唯一标识
比如说像这样的一条数据:("1",Seq("你好","我爱"))想转化为如下形式:(1,你好)(1,我爱)直接撸代码: 这里面的转化看懂了么。其实很简单,生成一个List,List((1,你好), (1,我爱)),然后就是wordcount里面使用的flatMap把list打扁生成一个大的list。然后使用zipWithIndex生成一个有序id,一定要collect才会...原创 2018-12-12 19:39:56 · 1525 阅读 · 0 评论 -
python爬今日头条
一:解析参数今日头条的数据全部都是ajax异步加载的。谷歌浏览器按f12选择network点击XHR会得到如上图所示,上图请求的url中有如下几个参数会变化:① category② max_behot_time③ max_behot_time_tmp④ as⑤ cp⑥ _signature其中只需要category,max_behot_time,_signature这个三个参数就可...原创 2018-12-10 22:49:40 · 2263 阅读 · 0 评论 -
hive生成唯一标识
在CDH中有个叫hive-contrib-1.1.0-cdh5.7.0.jar的jar包,名字因版本不同而不同。/opt/cloudera/parcels/CDH/jars/hive-contrib-1.1.0-cdh5.7.0.jar,这是我的jar包所在地。然后两句话: add jar /opt/cloudera/parcels/CDH/jars/hive-contrib-1.1.0-...原创 2018-12-10 23:33:36 · 2782 阅读 · 3 评论 -
使用Idea maven打 jar包
点击路线如下图所示: 注意上面这张图的第二步骤:记得把目录选到src那个文件夹下。 根据你的需要进行筛选jar包,双击即可添加或者删除。spark 打包后拿到yarn上跑时可能会出现classnotfoundException异常,这时需要把scala包打到这个大jar包里面去。希望能帮到有需要的朋友。 ...原创 2018-12-11 22:54:30 · 331 阅读 · 0 评论 -
spark集群使用hanlp进行分布式分词操作
分两步:第一步:实现hankcs.hanlp/corpus.io.IIOAdapterpublic class HadoopFileIoAdapter implements IIOAdapter { @Override public InputStream open(String path) throws IOException { Configur...原创 2018-12-11 23:04:12 · 606 阅读 · 0 评论 -
hanlp添加自定义字典
两步:第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。第二步:去配置文件把自己添加自定义的文件的路径添加进去,注意一定要添加末尾后面而且结束时不能有;号,我添加在其他位置都不好使。而且相对路径也不好使上面是把bin文件删掉后跑起来的样子,...原创 2018-12-11 23:30:46 · 1798 阅读 · 0 评论
分享