
杂七杂八
文章平均质量分 52
Daverain
怕什么真理无穷,进一寸有进一寸的欢喜。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark History Server 配置方法
一、配置目的 我们在spark上运行程序的时候会经历很多次任务失败,而任务结束后,我们无从得知问题处在哪里,Spark提供了History Server服务可以保存历史Application的运行记录,帮助我们更好的解决问题。官方文档参考:https://spark.apache.org/docs/latest/configuration.html二、基本原理 Spark作业将作业执行...原创 2018-07-11 20:56:12 · 912 阅读 · 0 评论 -
Shell实现定期删除HDFS下的过期文件
代码思路:获取文件夹下的文件最后改动日期,与当前时间戳对比,删除不满足条件的所有文件。#!/bin/bashsource ~/.bashrcremoveOutDate(){hadoop fs -ls afs://xxxxxxxxxxxx > temp.txttoday_timestamp=$(date -d "$(date +"%Y-%m-%d %H:%M")" +%s) ...原创 2018-07-12 15:29:57 · 4985 阅读 · 2 评论 -
Python爬取实习僧算法JD
之前做了一个爬虫给自己的优快云刷量,其实跟写一个简单的小爬虫差不多。在公司里,爬虫一般都跟nlp相关的业务息息相关,这次先爬取一下实习僧网站上的算法JD,为以后学习nlp相关的知识准备一下数据。先在实习僧上搜索算法岗位,发现url有一定的规律性,后面的两个字段k就是key,p就是page,然后这就解决了遍历所有page的需求。取得每个page的url之后,我们还需要知道这样几件事情:1....原创 2018-11-06 20:30:38 · 596 阅读 · 0 评论 -
面试拦路虎之快速排序
前言校招已经如火如荼的进行起来了,手撕代码是今年面试考察的重头戏。按脉脉上的说法,左手一个快速排序,右手一个二叉树遍历,基本可以拦住一大半算法面试者了。今天来梳理一下快速排序的知识点。快排的思想快排的思想大部分同学应该都能说的清楚。快速排序是一个基于分治法的原地排序算法,每次以数组中某一个值作为基准,将比基准小的放到左侧,比基准大的放到右侧,就完成了一次排序;接下来分别对左右子数组进行...原创 2019-08-12 13:39:34 · 367 阅读 · 0 评论