- 博客(12)
- 资源 (2)
- 收藏
- 关注
原创 正则表达式造成栈内存溢出
正则表达式造成栈内存溢出2020/09/16最近由于公司需求,需要实现这样一个功能:从大量doc文件(大约有150w+个文件)中读取内容,剔除部分敏感信息,存入相应目录结构的txt中。。。经过前期大量python实验,各种问题(最大的问题是python太慢了,需要doc另存为docx,一旦与磁盘交互,程序的速度可想而知)快要放弃之际,终于转向java,快速解决doc不能读取的问题,速度提上去几十甚至几百倍。然鹅,又出现了新的问题。。。剔除敏感信息需要使用正则表达式匹配,替换成空字符串或者**
2020-09-16 18:02:16
1613
原创 hive 50道经典练习
数据Student(Sid,Sname,Sage,Ssex)学生表Sid:学号Sname:学生姓名Sbirth:学生生日Ssex:学生性别Course(Cid,Cname,T#)课程表Cid:课程编号Cname:课程名称Tid:教师编号SC(Sid,Cid,score)成绩表Sid:学号Cid:课程编号score:成绩Teacher(Tid,Tname)教师表T...
2019-07-18 10:31:47
4887
1
原创 Yarn的工作机制
如上图所示是整个MapReduce的全过程1)client调用job.waitforCompletion方法向ResourceManager提交MapReduce任务2)Client向ResourceManager提交申请一个应用3)ResourceManager给客户端返回一个资源提交路径和任务ID4)Client提交jar包、切片信息、配置文件到指定的资源提交路径上...
2019-07-18 10:19:30
152
原创 消费者与生产者模型
小明往一张银行卡里面存钱,小美和小娟从这张银行卡中取钱。小美和小娟每次随机取50-100块钱,当里面没钱后,通知小明存钱。小明每次存1000元,存完后通知小美和小娟取钱。import java.util.Random;public class Resource { private int money; private boolean isEmpty = true; public v...
2019-04-25 17:13:57
278
原创 Map集合的四种遍历方式
import java.util.Collection;import java.util.HashMap;import java.util.Map;import java.util.Map.Entry;import java.util.Set;public class MapTest { public static void main(String[] args) { M...
2019-04-19 20:16:47
117
原创 List集合使用与常见API
package com.qfedu.fuxi.jihe;import java.util.ArrayList;import java.util.Iterator;import java.util.LinkedList;import java.util.List;import java.util.ListIterator;public class ListTest { publi...
2019-04-18 10:21:16
1002
原创 大数据学习之路——java面向对象(二)
this关键字this关键字是当前对象,谁是当前对象,谁调用谁就是thisthis.成员变量 可以访问成员变量this.成员方法 可以调用成员方法this() 调用无参构造方法,必须在构造方法第一句this(对应参数值) 调用由参构造方法,必须在构造方法第一句,不能自己调用自己this关键字可以作为参数传递String类中有一个方法 public boolean matches(S...
2019-04-03 22:02:15
198
原创 大数据学习之路——java面向对象(一)
面向对象和面向过程都是一种编程思想,面向对象是由面向过程进化而来的面向过程一种比较早的编程思想,站在过程的角度思考问题,强调的是功能行为,功能的执行过程PS:先干什么,再干什么,最后干什么每一个功能都封装成一个方法,按照步骤一步一步实现面向过程的缺陷面向过程的设计,是由自上而下设计方式,在设计阶段就需要每一个模块,没有考虑有哪些方法(函数)来支撑当前模块的执行在细化的时候,因为不是...
2019-04-03 14:57:57
223
原创 大数据学习之路——java基础(二)
方法在java中是不区分函数和方法的,函数即是方法,方法也是函数。(面向对象中叫方法,面向过程中叫函数)什么是方法某些情况下某些代码(200行左右)在进行大量重复,此时循环就不能满足这个要求,此时可以将这些代码进行一次封装,这个封装就是“方法”。DRY原则:Don’t Repeat Yourself(不要重复你自己的代码)。原因:重复意味着维护成本的增大。方法格式访问权限修饰符 [其他...
2019-04-01 19:02:37
140
原创 大数据学习之路——Java基础(一)
分支条件语句,分支主要作用是对编写的代码进行逻辑判断,以达到不同执行效果Java程序的组成:顺序,分支,循环if分支if单分支语法: if(表达式){ 执行代码; }表达式:一般是关系运算符和逻辑运算符组成if后面的()必须是一个boolean类型的表达式或具体的boolean值执行过程:若表达式的值为真,则执行{}里的语句;若表达式的值为假,则不执行{}里的语句if-...
2019-03-29 17:11:59
222
原创 大数据学习之路——Java入门(二)
运算符与表达式表达式是由数字,运算符,变量,常量组成一个式子,通过当前的组合可以得到一个结果,这样的组合即使表达式在这里插入代码片例如:1 + 2 --> 表达式: 1加2的和是什么int a = 10;a - 2 --> 表达式算术运算符+- * / %基本数学中四则运算加号:操作数值型数据进行求和一个符号例如 1+1 1.234+12.23int a =...
2019-03-27 14:57:17
130
原创 大数据学习之路——Java入门(一)
这是我第一篇博客,大数据学习,这个系列将持续五个多月。写在前面Java是一门面向对象语言,不仅吸收了C++语言特点,而且摒弃了C++里难以理解的指针和多继承。当然Java也有用来代替指针的地方——引用。Java里不能使用多继承,但是专门有一个代替多继承的东西叫做接口。java中最小的程序单元是类,所有的执行都需要在类中完成。一个java文件中只有一个类使用public修饰,并且这个使用p...
2019-03-27 13:26:27
303
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人