自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(65)
  • 收藏
  • 关注

转载 python函数学习之字符串函数

1.capitalize()返回原始字符串的首字母大写版本,其他任何大写字母转换成小写>>> ls='hello WorLd'>>> ls.capitalize()'Hello world'2.center(width)返回width的一个字符串,并让原始字符串在其中,两边用空格填充>>> ls='hello'>&g...

2019-06-09 15:02:00 177

转载 python多进程共享内存

from multiprocessing import Process,Manager,Lockimport osimport timedef run_proc(dict,slip,lock): tmp=dict[slip].copy() for k in dict[slip]: tmp[k]=k+tmp[k] pr...

2019-05-31 18:42:00 1157

转载 Python新函数学习

示例说明相关场景isinstance(keywords, type)判断一个变量如keywords是否为type类型 type可以是list、dict等判断一个变量如keywords是否为type类型 type可以是list、dict等keywords = keywords if isinstance(keywords,...

2019-02-02 17:57:00 158

转载 海量数据处理

1.倒排索引  每一项包括一个属性值和具有该属性值得记录地址  不是由记录来确定属性值,而是由属性值确定记录。  某个单词出现的文档编号,列表,也可以存文档编号的差值2.simHash算法  比较两篇文章相似度的算法 分词,hash,加权,合并,降维  每个特征向量(分词)赋值权值,重要程度  Hash(博客)=101011 哈希值为二进制数组成的n位...

2018-12-02 18:55:00 127

转载 hive-求每个用户最小时间的信息

udatetimeactiondtselect t2.*from(select dt,u,min(datatime)from tblwhere dt='2018-08-01'group by dt,u)t1join(select * from tblwhere dt='20...

2018-09-20 09:47:00 936

转载 Hive之常用函数

1.非空查找函数: COALESCE语法: COALESCE(T v1, T v2,…)返回值: T说明:返回参数中的第一个非空值;如果所有值都为NULL,那么返回NULL举例:hive> select COALESCE(index,-1) as ind from table_dual;如果index不为空,则返回index否则返回-12....

2018-08-08 11:07:00 162

转载 Hive之row_number() over分组排序

语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)1.row_number() over()排序功能分组排序:已有表E E E 9C E A 5B B E 8D D C 6E A B 6C B D 10C E C 4E E D 1D C C 8D D E 3B D ...

2018-08-01 16:34:00 741

转载 HIVE基础学习

http:--hive.apache.org/Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。*使用HQL作为查询接口;*使用HDFS存储;*使用MapReduce计算。hiveql要结合mapReduce来读,会有很多想法灵活性号,自定义函数,自定义存储格式groupby#按K来把数据进行分组o...

2018-08-01 10:53:00 477

转载 Hive之小文件问题及其解决方案

小文件如何产生1.动态分区插入数据,产生大量小文件,导致map数剧增2.Reduce数越多,小文件越多3.数据直接导入小文件小文件的影响从hive的角度看,小文件会开很多map,一个map开一个jvm去执行,所以这些任务的初始化,启动,执行浪费大量资源,严重影响集群性能在HDFS中,每个小文件对象越占150byte,如果小文件过多会占用大量内存。这样name...

2018-07-31 19:25:00 369

转载 Hive之cube和roolup

Cubehive (hdata)> select * from test;test.f1 test.f2 test.f3 test.cntA A B 1B B A 1A A...

2018-07-25 09:22:00 119

转载 分布式文件系统hdfs——dfs命令

在hadoop安装目录下:/hadoop2/hadoop-2.7.31.创建目录bin/hdfs dfs -mkdir /userbin/hdfs dfs -mkdir /user/<username>在HDFS中创建一个名为path的目录,如果它的上级目录不存在,也会被创建,如同linux中的mkidr –p。bin/hdfs dfs -mkdi...

2018-07-23 15:47:00 674

转载 shell脚本编程

执行#!/bin/bash #声明使用的解释器echo "Hello World !" #输出语句chmod +x ./test.sh #赋予可执行权限./test.sh #执行脚本bin/sh test.sh #也可以解...

2018-07-23 15:45:00 103

转载 分布式数据Hive——HQL

1.转载于:https://www.cnblogs.com/BetterThanEver_Victor/p/9355011.html

2018-07-23 15:44:00 85

转载 DDL表和库管理语言

DDL表和库的管理#1. 创建表dept1NAME NULL? TYPEid INT(7)NAME VARCHAR(25)USE test;CREATE TABLE dept1( id INT(7), NAME VARCHAR(25));#2. 将表departments中的数...

2018-05-05 18:42:00 171

转载 DML数据库操作语言

DML语言数据操作语言:插入:insert修改:update删除:delete#一、插入语句#方式一:经典的插入/*语法:insert into 表名(列名,...) values(值1,...);*/SELECT * FROM beauty;#1.插入的值的类型要与列的类型一致或兼容INSERT INTO beauty(i...

2018-05-05 18:41:00 332

转载 python实现求第K小

#encoding:utf-8_author_ = "Wang Wenchao"import heapq#该包封装了最小堆,想要用最大堆则用相反数'''升序数组第一个是1,后续为若干连续的素数,对于里面的元素m和n满足m<n,都对应了一个有理数m/n,现在给定一个数组和一个K,要求返回第K小的有理数13 1 2 3 5 第一个为K输出...

2018-04-16 19:12:00 588

转载 硬币凑数

#encoding:utf-8_author_ = "Wang Wenchao"'''现在有n1 +n2种面值的硬币,其中前n1中为普通币,可以取任意枚,后n2种为纪念币,每种最多只能取一枚,每种硬币有一个面值,问能有多少种方法拼出m的面值。输入第一行为n1,n2,m第二行和第三行分别为普通币和纪念币的面值'''line=raw_input()line...

2018-04-16 18:26:00 188

转载 MySQL学习的表单定义

mysql> select database();+-------------+| database() |+-------------+| myemployees |+-------------+1 row in set (0.00 sec)mysql> show tables;+-----------------------+...

2018-04-09 16:18:00 105

转载 MySQL子查询_分页查询_联合查询

进阶7:子查询含义 一条查询语句中又嵌套了另一条完整的select语句,其中被嵌套的select语句,称为子查询或内查询 在外面的查询语句,称为主查询或外查询特点: 1、子查询都放在小括号内 2、子查询可以放在 from后面仅仅支持子查询、 select后面支持...

2018-04-09 02:14:00 135

转载 MySQL连接查询

进阶6:多表连接查询 笛卡尔乘积:如果连接条件省略或无效则会出现 解决办法:添加上连接条件 一、传统模式下的连接 :等值连接——非等值连接 1.等值连接的结果 = 多个表的交集 2.n表连接,至少需要n-1个连接条件 3.多个表不分主次,没有顺序要求...

2018-04-08 15:33:00 81

转载 MySQL函数学习

常见函数:进阶4:常见函数 一、单行函数 1、字符函数 concat拼接 substr截取子串 upper转换成大写 lower转换成小写 trim去前后指定的空格和字符...

2018-04-08 14:39:00 108

转载 MySQL基础学习

服务开启与停止net start mysqlnet stop mysql服务端登录和退出mysql (–h lodalhost –P 3306) –u root –p123456退出 exit或者ctrl+cMySQL的常见命令1.查看当前所有的数据库 show databases; 2.打开指定的库 us...

2018-04-07 20:38:00 86

转载 二维数组的周游

#define _CRT_SECURE_NO_DEPRECATE#include<stdio.h>int main(){ int year1; char arr[82][82]; char ch[2] = { '@','W' }; int n = 7, f = 0; char x; int i =...

2018-03-20 17:51:00 99

转载 哈夫曼树的应用-金条划分

/*老板给员工发工资,分成n份,每切一刀收取所划分原长度的价格,用花费最少的方案权重最优问题,哈夫曼树*/#也可以考虑小顶堆来求最小的两个数据#include<stdio.h>void ArrSortInsert(int arr[], int n){ int temp; for (int i = 1; i <= n - 1; ...

2018-03-20 17:42:00 181

转载 计算两个日期相差的天数

#include<stdio.h>int IsRun(int year){ if(year%4==0&&year%100!=0||year%400==0) return 1; else return 0;}void huafen(int &year,int &mon...

2018-03-20 17:40:00 185

转载 数据结构之算术表达式

#include<iostream>#include<cstdio>#include<stack>#include<math.h>using namespace std;int charToInt(char str[], int n){ int count = 0; for (int i ...

2018-01-04 20:20:00 482

转载 动态规划-矩阵最短路径

#encoding:utf-8_author_ = "Wang Wenchao"'''给定一个矩阵m,从左上角开始每次只能向右或者向下走,最后到达右下角的位置,路径上的所有数字累加起来就是路径和,返回所有的路径中最小的路径和举例:m1 3 5 98 1 3 45 0 6 18 8 4 0路径1,3,1...

2017-09-23 22:57:00 448

转载 动态规划-换钱最少货币数

#encoding:utf-8_author_ = "Wang Wenchao"#换钱最少的货币数#给定数组arr,arr中所有的值都为正数且不重复。每个值代表一种面值的货币,每种面值的货币可以使用任意张,再给定一个正数aim代表要找的钱数,求组成aim的最少货币数''' arr=[5,2,3],aim=20 4张5元可以组成20元,所以返回4 a...

2017-09-21 18:42:00 273

转载 字母数字密码破解

#encoding:utf-8#a--1 b---2 26--z#给定已有的数字密码,求所有可能的原来的字母final=[]def translate(arr,begin,end): i=begin if begin>end: result='' for j in arr: ...

2017-09-18 21:26:00 1197

转载 荷兰国旗问题

#encoding:utf-8_author_ = "Wang Wenchao"#荷兰国旗问题 0放在左边,1放在中间,2放在右边arr=[2,2,2,2,1,2,0,2,0,1,0]#{}1,2,0,2,0,1,0{}#用i遍历数组,是0区就和零区下一个交换,是2区就和2区前一个交换def OneZeroTwo(arr): length=len...

2017-09-17 09:44:00 105

转载 集合并集

[编程题] 集合时间限制:1秒空间限制:32768K给你两个集合,要求{A} + {B}。 注:同一个集合中不会有两个相同的元素。输入描述:每组输入数据分为三行,第一行有两个数字n,m(0 ≤ n,m ≤ 10000),分别表示集合A和集合B的元素个数。后两行分别表示集合A和集合B。每个元素为不超过int范围的整数,每个元素之间有个空格隔开。输出...

2017-09-06 22:23:00 148

转载 进制数位幸运数

[编程题] 幸运数时间限制:1秒空间限制:32768K小明同学学习了不同的进制之后,拿起了一些数字做起了游戏。小明同学知道,在日常生活中我们最常用的是十进制数,而在计算机中,二进制数也很常用。现在对于一个数字x,小明同学定义出了两个函数f(x)和g(x)。 f(x)表示把x这个数用十进制写出后各个数位上的数字之和。如f(123)=1+2+3=6。 g(x)表示把x...

2017-09-06 22:05:00 202

转载 进制数位和的平均数

[编程题] 进制均值时间限制:1秒空间限制:32768K尽管是一个CS专业的学生,小B的数学基础很好并对数值计算有着特别的兴趣,喜欢用计算机程序来解决数学问题,现在,她正在玩一个数值变换的游戏。她发现计算机中经常用不同的进制表示一个数,如十进制数123表达为16进制时只包含两位数7、11(B),用八进制表示为三位数1、7、3,按不同进制表达时,各个位数的和也不同,...

2017-09-06 21:57:00 91

转载 链表回文

如何判断一个单链表是否为回文链接:https://www.nowcoder.com/questionTerminal/baefd05def524a92bcfa6e1f113ed4f0来源:牛客网请编写一个函数,检查链表是否为回文。给定一个链表ListNode* pHead,请返回一个bool,代表链表是否为回文。测试样例:{1,2,3,2,1}返回:true{...

2017-08-30 17:17:00 50

转载 排列组合问题

一.不同元素子集问题78. SubsetsGiven a set of distinct integers, nums, return all possible subsets.给定一组非重复数字,求出所有可能的子集解析:例如 [1,2,3],解法:首先放[],然后往已有的[]中放11. 首先放1此时已有[ [], 1 ]2. 然后对[ [], 1 ] 放2于...

2017-08-26 22:15:00 104

转载 面试复习题

类方法与实例方法:答:(1)类方法:static的方法,类方法可以通过类名.方法名进行调用实例方法:必须new一个这个类的实例,通过实例调用。(2)当父类的类方法定义为private时,对子类是不可见的,子类无法直接调用。(3)子类具体的实例方法对父类是不可见的,无法直接调用,只能通过创建子类的一个实例对象,再进行调用。(4)实例方法可以直接调用本类的实例方法。...

2017-07-31 17:33:00 76

转载 分布式系统HBase模块及Java API

HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的HBase只有一个索引——行键,通过巧妙的设计,HBase中的所有访问方法,或者通过行键访问,或者通过行键扫描,从而使得整个系统不会慢下来HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳,数据坐标HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格,因此,可...

2017-07-27 00:28:00 144

转载 scrapy框架的概念

使用Scrapy抓取一个网站一共需要四个步骤:1. 创建一个Scrapy项目;2. 定义Item容器;3. 编写爬虫;4. 存储内容。下图展现的是Scrapy的架构,包括组件及在系统中发生的数据流(图中绿色箭头)。下面对每个组件都做了简单介绍:Scrapy EngineScrapy引擎是爬虫工作的核心,负责控制数据流在系统中...

2017-06-16 18:02:00 144

转载 python爬虫基础

Demo1:urllib使用#encoding:utf-8import urllibimport urlparsedef printlist(lines): for i in lines: print(i)def demo(): s=urllib.urlopen('http://blog.kamidox.com') ...

2017-06-15 12:25:00 76

转载 Python 在线基础课程

注释的两种方法:单行注释以#开头#Here are the comments多行注释以'''开头和结尾赋值操作可以多赋值比如交换x,y的值 x,y=y,x输入函数 Input()函数从控制台获得用户输入<变量>= input(<提示性文字>)获得的用户输入以字符串形式保存在<变量>中...

2017-06-07 15:46:00 325

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除