fjr_huoniao-优快云博客

原创 python如何验证用户名和密码的

python如何验证用户名和密码的？postman 模拟登录直接上图吧，要实现的效果如下：可以看到，使用postman访问一个网站，把username、password两个参数带上，是可以登录成功的。##使用python HTTPPasswordMgrWithDefaultRealm直接上图吧：程序报错：通过抓包工具发现：原来是参数没有传对，但是也没有地方给我指定用户对应的字段是username,密码对应的字段是password，刚学python,两脸懵逼，求助，路过请留言。..

2020-08-02 19:18:12 3069 1

原创 python基础学习

1、变量的定义name="""print("hello word")name="fengjinrong"name2=nameprint("my name is ",name,name2)name="Paochege"print(name,name2)gf_of_oldboy = "fengjinrong"print(gf_of_oldboy)print(name)2、交互...

2019-04-20 21:05:21 416

原创 RHEL6解决无法使用YUM源问题

RHEL6解决无法使用YUM源问题RHEL的YUM源需要注册用户才能更新使用，由于CentOS和RHEL基本没有区别，并且CentOS已经被REHL收购。所以将RHEL的YUM源替换为CentOS即可。问题如下：[root@bogon ~]# yum repolistLoaded plugins: product-id, refresh-packagekit, security,

2016-11-09 18:26:05 17492

原创 spark 数据倾斜问题

先上两张大图压压惊： Driver拒绝提交任务：16/11/07 10:31:50 INFO OutputCommitCoordinator: Task was denied committing, stage: 5, partition: 887, attempt: 116/11/07 10:33:11 INFO TaskSetManager: Finis

2016-11-09 14:57:23 6644

原创 storm drpc远程调用

在实际的Storm集群上运行DRPC，需完成以下步骤：1、配置DRPC Server(s)地址；在Storm集群中配置DRPC Server地址，这就是DRPCSpout读取函数调用请求的地方。这一步的配置可以通过storm.yaml文件或者拓扑的配置来完成。通过storm.yaml文件的配置方式如下：drpc.servers: - "hadoop1"

2016-09-16 13:51:46 1930

原创 storm drpc学习

storm drpc 是什么？咋一听觉得挺高大上的，其实也就是那么一回事。就是storm的topology 提供了很多函数，并且函数名唯一，函数里面封装了一些算法操作。只需要在调用的时候指定函数名和传递参数就可以得到返回值。简单的来说就是这么一回事。下面是客户端调用的例子：public static void main(String[] args) { // TODO Aut

2016-09-16 09:28:22 2296

原创 Storm基本概念

Nimbus:负责资源分配和任务调度Supervisor:负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程Worker:运行具体处理组件逻辑的进程Task:worker中每一个spout/bolt的线程成为一个task,在storm 0.8之后，task不再与物理线程对应，同一个spout/bolt的task可能会共享一个物理线程，该线程成为executor

2016-09-10 17:27:12 782

原创 storm 并发度

storm的并发跟spark还是差异很大的。首先strom的topology可以指定worker的个数，woker下面可以指定多少个executor，这个executor就是并发数了，但是还有个task的概念。这个跟spark的概念是非常不同的。因为executor在spark中代表的是一个线程池，task就是一个个的线程。但是storm中的概念并不是这样的，首先来了解一下storm单线程和多线程

2016-09-08 20:47:21 789

原创 storm stream grouping

stream grouping用来定义一个stream应该如何分配给Bolts上面的多个Tasks。storm里面有6种类型的stream grouping:1. Shuffle Grouping:随机分组，随机派发stream里面的tuple，保证每个bolt接收到的tuple数目相同。轮询，平均分配。2. Fields Grouping：按字段分组，比如按userid来分组

2016-09-08 19:23:49 672

原创 storm的特性与使用场景

Storm的一些关键特性适用场景广泛： storm可以实时处理消息和更新DB，对一个数据量进行持续的查询并返回客户端（持续计算），对一个耗资源的查询作实时并行化的处理(分布式方法调用，即DRPC），storm的这些基础API可以满足大量的场景。可伸缩性高: Storm的可伸缩性可以让storm每秒可以处理的消息量达到很高。扩展一个实时计算任务，你所需要做

2016-08-24 00:05:33 7256

原创 Spark 如何过滤重复的对象

数据如下所示：hello worldhello sparkhello hivehello worldhello sparkhello hive最终需要的只是hello worldhello sparkhello hive这三个，重复的丢掉。有两种实现方法。第一：在程序将文本加载进来形成line R

2016-07-27 15:24:25 16214

原创 spark shell 启动出错问题

错误描述：直接启动spark-shell，pia,出错了，之前一直是这样启动的啊，一点错也没有。心情不好的时候真的想一删了之，然后再下一个版本来用。可是想一想如果下载的也是这个样子，那我岂不是浪费时间，又做重复的事情，赔了夫人又折兵，虽然我没有夫人。。。。恩，还是静心看了看错误，忽然想起前段时间使用spark sql 从hive里面取数据来着，但是我的hive-site.xml和驱动包已经考到了对

2016-07-10 21:22:33 8996

原创 spark 输出结果压缩（gz）

如果不想往下看，可以直接看结果：maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩，没错。就只这么一行简单的代码实现了gz压缩，但是为什么网上一直没找到呢，这个我不太清楚，可能是他们没碰到吧。最近项目的需求，其实很简单，就是将输出结果以.gz的格式压缩，每个压缩包的大小不能超过100M,而且压缩包的名

2016-07-07 00:42:42 11278 2

原创乱七八糟的记录

本文纯属记录今天的心情，一点技术的内容也没有，所以。。。。。大家懂的。。。。。今天测试机调试完了之后，没问题了，三遍确定没问题了之后，parner跟我说放上正式环境试试，其实内心是有点拒绝的，正式环境啊，万一弄挂了岂不是罪恶滔天，但是又有点蠢蠢欲试，所以说干就干。怕死不当程序员，哈哈，放上去之后果然不出所料，挂了，挂了，挂了。然后用万能的（其实是只有一种方法）yarn logs

2016-07-07 00:25:40 1138

原创 spark sql 使用hive作为数据源

本来是很简单的一件事，代码也不复杂，如下：代码：public class LocationFromHiveDataSource { @SuppressWarnings("deprecation") public static void main(String[] args) { // 首先还是创建SparkConf SparkCo

2016-06-29 15:51:39 5326

原创基于HDFS,Spark Stream的实时统计

最近在搞一个小功能，具体要求是：数据到了hdfs，然后统计。需求很简，程序实现也挺简单的，但是目录有点复杂，如base目录下面有/业务/省/yyyyMMdd/h/aa.txt文件如果是按照之前的约定的方式的话，是可以实现的，但是这个文件夹太复杂了，所以按照约定的方式来弄好像难度也挺复杂的，所以这种方法我放弃了。还有一种方案就是把文件目录放到kafka中，然后订阅kafka的内容，取得了之后将参

2016-06-27 17:15:30 3142

原创 spark on yarn 的那些坑

在公司6个节点的测试集群运行得好好的，结果也很正常，然后放上60个节点的预生产环境，我勒个擦，搞了我两天，主要是生产环境的那些家伙不配合，一个问题搞得拖啊拖，首先是安全认证问题，截取一两个有意义的吧： 1.没有认证Caused by: java.io.IOException: javax.security.sasl.SaslException: GSS initiate fa

2016-06-08 19:44:20 92592 10

原创 spark 的groupby

其实我一直很不明白的是，为什么有groupByKey了还要有groupBy,今天被一位同事问到了怎么对rdd分组的时候，这个疑问算是彻底惹恼我了，我一定要搞清楚这东西怎么用的，嗯，对比一下groupByKey（）函数，无参数，pairRdd之际调用即可返回根据分组好的内容，如JavaPairRDD>，但是这个必须是JavaPairRDD类型，也就是说必须是元组的key，value形式。但是Rd

2016-06-01 14:21:41 14806

原创如何把jvm垃圾回收信息打印到文件

非常简单，直接上代码： -verbose:gc -Xms20M -Xmx30M -Xmn10M -XX:+PrintGCDetails -XX:SurvivorRatio=8 -Xloggc:F:\gc1.log直接就将信息打印到了文件gc1.log中去了，文件的内容如下：Java HotSpot(TM) 64-Bit Server VM (24.80-b11) for wind

2016-05-29 13:33:39 4468

原创一只刚刚迈进JVM领域的脚印

其实在这之前我早就已经受够了jvm包管一切的特点了，凭什么啊，凭什么我自己不能自己看到自己的内存使用情况，凭什么我不能管理啊。尽管JVM说它帮我们管理内存是为了我们好，但是我却不领情，因为我喜欢所有的都掌控在自己手中，及时我不想去控制我也得知道的清清楚楚。如果不是这样的话，那么出问题的时候，我就像一个傻子一样，我是非常讨厌这种感觉的。鉴于之前不知道怎么在eclipse上设置jvm的大小，也没有这个

2016-05-28 16:26:31 565

原创 ORA-01756: quoted string not properly terminated问题

对于这个问题，网上有一大堆的解决方法，然并卵，千篇一律的抄，我就不信他们遇到的问题的解决方法是一样的，尼玛，连数据库的字符编码都没看过，即使偶然蒙对了也是知其然而不知其所以然，对于这种答案我只能呵呵了。下面说一下我的问题：首先从我本地导出一张表，名字为aa.sql，编码什么的从导出到导出完成，完全没有设置过。然后直接上传到服务器，sqlplus a/b 进去之后，使用@/x/y/aa.sq

2016-05-23 16:23:34 20851 3

原创 spark cogroup操作

private static void cogroup() { // 创建SparkConf SparkConf conf = new SparkConf() .setAppName("cogroup") .setMaster("local"); // 创建JavaSpar

2016-05-15 17:18:09 1914

原创 spark join操作

// 使用join算子关联两个RDD // join以后，还是会根据key进行join，并返回JavaPairRDD // 但是JavaPairRDD的第一个泛型类型，之前两个JavaPairRDD的key的类型，因为是通过key进行join的 // 第二个泛型类型，是Tuple2的类型，Tuple2的两个泛型分别为原始RDD的value的类型

2016-05-15 17:13:10 2415

原创 spark sortByKey

// sortByKey其实就是根据key进行排序，可以手动指定升序，或者降序 // 返回的，还是JavaPairRDD，其中的元素内容，都是和原始的RDD一模一样的 // 但是就是RDD中的元素的顺序，不同了public static void mySortByKey(){ SparkConf conf = new SparkCo

2016-05-15 17:05:42 2183

原创 spark ReduceByKey操作

执行reduceByKey算子 // reduceByKey，接收的参数是Function2类型，它有三个泛型参数，实际上代表了三个值 // 第一个泛型类型和第二个泛型类型，代表了原始RDD中的元素的value的类型 // 因此对每个key进行reduce，都会依次将第一个、第二个value传入，将值再与第三个value传入

2016-05-15 16:58:31 3489

原创 spark groupByKey操作

// groupByKey算子，返回的还是JavaPairRDD // 但是，JavaPairRDD的第一个泛型类型不变，第二个泛型类型变成Iterable这种集合类型 // 也就是说，按照了key进行分组，那么每个key可能都会有多个value，此时多个value聚合成了Iterablepublic static void myGroupByKey

2016-05-15 16:47:10 5855

原创 spark flatmap

flatMap算子，在java中，接收的参数是FlatMapFunction,我们需要自己定义FlatMapFunction的第二个泛型类型，即，代表了返回的新元素的类型 call()方法，返回的类型，不是U，而是Iterable，这里的U也与第二个泛型类型相同 flatMap其实就是，接收原始RDD中的每个元素，并进行各种逻辑的计算和处理，返回可以返回多个元素

2016-05-15 16:15:43 2635

原创 spark filter过滤rdd元素

调用filter方法，rdd中的每个元素都会传入，然后只需要在call方法中写判断逻辑来判断这个元素是不是你想要的，如果是则返回true，否的话，返回falseprivate static void myFilter(){ List list=Arrays.asList(1,2,3,4,5,6,7,8,9,10); SparkConf conf=new

2016-05-15 16:00:35 23621

原创 Spark map 遍历rdd中的每个元素

Map操作主要是遍历rdd中的每个元素，对每个元素进行操作并返回，代码如下：public static void myMap(){ List numbers=Arrays.asList(1,2,3,4,5); SparkConf conf=new SparkConf() .setMaster("local") .s

2016-05-15 15:48:43 21348

原创 spark countByKey用法详解

统计每个key对应的value个数，需要注意的是rdd类型是pairRdd，即键值对的形式的rdd,详细代码如下：private static void myCountByKey(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myCountByKey")

2016-05-15 15:37:58 8926

原创 spark saveAsTextFile保存到文件

spark的saveAsTextFile方法只能指定文件夹，但是保存到本地的话，会报空指针错误。代码如下：public static void mySaveAsFile(){ SparkConf conf=new SparkConf() .setAppName("mySaveAsFile") .setMaster("local");

2016-05-03 23:26:45 42506 2

原创 spark take获取前n个元素

take和 collect操作类似，都是从远程集群上获取元素，只是collect操作获取的所有数据，而take操作是获取前n个元素直接上代码：public static void myTake(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myTak

2016-05-03 23:05:21 7936

原创 spark count统计元素个数

太简单了，直接上代码，不解析public static void myCount(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myCount"); JavaSparkContext sc=new JavaSparkContext(

2016-05-03 22:57:33 9506

原创 spark collect遍历

spark collect操作的特点是从远程集群是拉取数据到本地，经过网络传输，如果数据量的话，会给网络造成很大的压力，和foreach的却别是，foreach是在远程集群上遍历rdd中的元素，如果是在本地的话，差别不大。建议使用foreach，不要用collect. 直接上代码：@SuppressWarnings("unchecked") public static vo

2016-05-03 21:47:58 14234

原创 spark 的reduce操作

spark的reduce操作，输入是两个值，输出是一个值，第一第二个值的结果跟第三个值相加，然后前n个数的值和第n个值相加见代码如下： public static void myReduce(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myR

2016-05-03 21:12:52 8864

原创说说redis的那些坑

今天周六，风和日丽，走在公园里，看着一片片绿，心里那个美啊，北京的夏天真的绿的令人惊叹，走出公园，到了老地方黄焖鸡吃饭，一遍吃饭一遍看着欢乐集结号，心情那个美啊，然后我又重新走了一趟公园。当我还沉浸在生活的美好的时候，qq里闪出了老大的头像，我知道美好生活结束了。好，进入主题，情景是这样子的：我这边后台负责写redis,然后别人负责取，然后他们突然间取不到了。怎么回事？

2016-04-23 15:14:58 16694

原创 spark master 启动出现Could not create the Java Virtual Machine.

[root@hadoop4 sbin]# ./start-all.sh starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-hadoop4.outfailed to launch

2016-04-13 15:09:44 3077 2

原创 spark sql 调用save方法时的空指针

最近在研究spark sql ,但是遇到一个无力着手的问题，不多说，直接上代码：public static void main(String[] args){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("MyGenericLoadAndSave

2016-04-11 17:25:32 3758 2

原创 scala，spark版本冲突问题

scala版本：2.11.0，spark版本：1.61。官网上说的是这个版本啊：Note: Scala 2.11 users should download the Spark source package and build with Scala 2.11 support.改成最新的版本，ok了。16/03/31 10:53:31 INFO Utils: Successfully sta

2016-03-31 12:02:53 13053

原创 spark初试遇到的小问题

spark wordcount程序，在本地运行时没问题的，但是放到集群上运行的时候就出错了，出现的问题如下：16/03/28 19:04:23 ERROR spark.SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memory 101384192 must

2016-03-29 11:03:15 2718