【今日荐文】怎样才能成为一名20K以上的高级JAVA工程师

本文详细阐述了成为一名合格Java高级工程师所需具备的技术广度、项目经验、架构经验、行业领域知识和个人修为等宏观条件,以及面向对象设计、核心类库掌握、数据库技术等微观技能。

Java是目前使用最为广泛的网络编程语言之一。 它具有简单,面向对象,稳定,与平台无关,解释型,多线程,动态等特点。一般的JAVA程序员或许只需知道一些JAVA的语法结构就可以应付了。但要成为JAVA(高级)工程师,您要对JAVA做比较深入的研究,那么怎样才是一名合格的高级JAVA工程师呢?

宏观上:

1.技术广度方面

至少要精通多门开源技术吧,研究过struts\spring等的源码。

2.项目经验方面

从头到尾跟过几个大项目,头是指需求阶段,包括需求调研。

尾是指上线交付之后,包括维护阶段。

3.架构经验方面

有过分布式系统的架构和开发经验。对于跨系统的结构优化,数据存储的性能指标等有丰富经验。什么缓存啊、数据库的垂直切分什么的,业务的抽象和水平拆分啊,这些应该都轻车熟路吧。

4.行业领域方面

最起码得精通一到两门业务吧,所谓精通,就是比如做金融证券业务的,至少等当半个经融分析师。做电力业务的,至少等当半个电力工程师。

5.个人修为

有自己一些独到的见解,不会人云亦云啦。

微观上:

1.精通面向对象分析与设计(OOA/OOD)、涉及模式(GOF,J2EEDP)以及综合模式。你应该十分了解UML,尤其是class,object,interaction以及statediagrams。

2.学习JAVA语言的基础知识以及它的核心类库(collections,serialization,streams,networking, multithreading,reflection,event,handling,NIO,localization,以及其他)。

3.了解JVM,classloaders,classreflect,以及垃圾回收的基本工作机制等。你应该有能力反编译一个类文件并且明白一些基本的汇编指令。

4.如果你将要写客户端程序,你需要学习WEB的小应用程序(applet),必需掌握GUI设计的思想和方法,以及桌面程序的SWING,AWT, SWT。你还应该对UI部件的JAVABEAN组件模式有所了解。JAVABEANS也被应用在JSP中以把业务逻辑从表现层中分离出来。

5.学习java数据库技术,如JDBCAPI并且会使用至少一种persistence/ORM构架,例如Hibernate,JDO, CocoBase,TopLink,InsideLiberator(国产JDO红工厂软件)或者iBatis。

6.应该了解对象关系的阻抗失配的含义,以及它是如何影响业务对象的与关系型数据库的交互,和它的运行结果,还需要掌握不同的数据库产品运用,比如racle,mysql,mssqlserver。

7.学习JAVA的沙盒安全模式(classloaders,bytecodeverification,managers,policyandpermissions,codesigning, digitalsignatures,cryptography,certification,Kerberos,以及其他)还有不同的安全/认证 API,例如JAAS(JavaAuthenticationandAuthorizationService),JCE (JavaCryptographyExtension),JSSE(JavaSecureSocketExtension),以及JGSS (JavaGeneralSecurityService)。

8.熟悉主流的网页框架,例如JSF,Struts,Tapestry,Cocoon,WebWork,以及他们下面的涉及模式,如MVC/MODEL2。

9.学习Servlets,JSP,以及JSTL(StandardTagLibraries)和可以选择的第三方TagLibraries。

10.学习如何使用及管理WEB服务器,例如tomcat,resin,Jrun,并且知道如何在其基础上扩展和维护WEB程序。

11.学习分布式对象以及远程API,例如RMI和RMI/IIOP。

12.掌握各种流行中间件技术标准和与java结合实现,比如Tuxedo、CROBA,当然也包括javaEE本身。

13.要学习最少一种的XMLAPI,例如JAXP(JavaAPIforXMLProcessing),JDOM(JavaforXMLDocumentObjectModel),DOM4J,或JAXR(JavaAPIforXMLRegistries)。

14.学习一门轻量级应用程序框架,例如Spring,PicoContainer,Avalon,以及它们的IoC/DI风格(setter,constructor,interfaceinjection)。

15.学习如何利用JAVAAPI和工具来构建WebService。例如JAX-RPC(JavaAPIforXML/RPC),SAAJ (SOAPwithAttachmentsAPIforJava),JAXB(JavaArchitectureforXMLBinding),JAXM(JavaAPIforXMLMessaging), JAXR(JavaAPIforXMLRegistries),或者JWSDP(JavaWebServicesDeveloperPack)。

16.熟悉不同的J2EE技术,例如JNDI(JavaNamingandDirectoryInterface),JMS (JavaMessageService),JTA/JTS(JavaTransactionAPI/JavaTransactionService),JMX (JavaManagementeXtensions),以及JavaMail。

17.学习企业级JavaBeans(EJB)以及它们的不同组件模式:Stateless/StatefulSessionBeans,EntityBeans(包含Bean- ManagedPersistence[BMP]或者Container-ManagedPersistence[CMP]和它的EJB-QL),或者 Message-DrivenBeans(MDB)。

18.学习如何管理与配置一个J2EE应用程序服务器,如WebLogic,JBoss等,并且利用它的附加服务,例如簇类,连接池以及分布式处理支援。你还需要了解如何在它上面封装和配置应用程序并且能够监控、调整它的性能。

19.熟悉对不同有用的API和frame work等来为你服务。例如Log4J(logging/tracing),Quartz (scheduling),JGroups(networkgroupcommunication),JCache(distributedcaching), Lucene(full-textsearch),JakartaCommons等等。

20.熟悉面向方面的程序设计以及面向属性的程序设计(这两个都被很容易混淆的缩写为AOP),以及他们的主流JAVA规格和执行。例如AspectJ和AspectWerkz。

21.如果你将要对接或者正和旧的系统或者本地平台,你需要学习JNI (JavaNativeInterface) and JCA (JavaConnectorArchitecture)。

22.熟悉JINI技术以及与它相关的分布式系统,比如掌握CROBA。

23.JavaCommunityProcess(JCP)以及他的不同JavaSpecificationRequests(JSRs),例如Portlets(168),JOLAP(69),DataMiningAPI(73),等等。

24.熟练掌握一种JAVAIDE例如sunOne,netBeans,IntelliJIDEA或者Eclipse。(有些人更喜欢VI或EMACS来编写文件。随便你用什么了:)

25.JAVA(精确的说是有些配置)是冗长的,它需要很多的人工代码(例如EJB),所以你需要熟悉代码生成工具,例如XDoclet。

26.熟悉一种单元测试体系(JNunit),并且学习不同的生成、部署工具(Ant,Maven)。

27.能够深入了解加熟练操作和配置不同的操作系统,比如GNU/linux,sunsolaris,macOS等,做为跨平台软件的开发者。

28.熟悉一些在JAVA开发中经常用到的软件工程过程。例如RUP(RationalUnifiedProcess)andAgilemethodologies。

29.紧跟java发展的步伐,比如现在可以深入的学习javaME,以及各种java新规范,技术的运用,如新起的web富客户端技术。

30.对opensource有所了解,因为至少java的很多技术直接是靠开源来驱动发展的,如java3D技术。

完成以上这些,你就是一名合格的JAVA高级工程师,这个时候你可以拿到一份不错的薪资了,但是学无止境,JAVA高级工程师以上还有很多职位,据我了解,程序员越大越难熬,国内缺少研发型工程师,顶多只能算是开发,照搬别人的或者稍微改动,而且经常加班,导致年龄偏大的工程师会被年轻的所淘汰,JAVA工程师在工作几年之后,都会选择转行,有的选择自己创业,有的选择管理,有的选择转做大数据,大数据领域的薪资比一个JAVA工程师平均高30%左右,而且大数据行业是需要不断研发的,资历越高经验越丰富,待遇自然也就越好。




更多iOSAndroidPythonJavaMySQL的文章,请点击:

http://blog.youkuaiyun.com/jamiecheung


更多JavaUnity3D的文章,请点击:

http://blog.youkuaiyun.com/u010841622


任务描述 利用Spark数据清洗 本关我们主要对爬取到的招聘数据进行清洗,清洗规则如下: 判断数据字段是否完整,如有不完整字段(字段值为空或字段长度不足),则清洗掉这一行数据; 对整条数据都一样的进行去重处理; 对数据字段中的城市(city)进行处理,只保留其中的市,舍弃区县,例如:深圳·南山区 -> 深圳; 对数据字段中的薪资(salary)计算处理,计算规则如下: (1)mk-nk:(m+n)/2,结果保留两位小数(注意:也有可能出现 mK-nK)。 将职位名称(job_name)、技能(skill)中的字母统一转换为小写字母; 清洗完的数据集存储到 /root/files 目录下,分隔方式为 \t。 数据集介绍 本数据集是招聘职位数据,包含九个字段的信息,数据集的字段含义说明如下: 字段名 说明 job_name 工作名称 city 城市 salary 薪水 workingExp 工作年限 edu 学历要求 company_name 公司名称 company_size 公司规模 welfare 福利待遇 skill 技能 部分数据展示 大数据实施管理专家 北京·海淀区 40k-60k 本科 建信金科 2000人以上 新团队,有发展前景 大数据 数据分析工程师 上海·张江 20k-35k 经验3-5年 本科 上海敬游软件 150-500人 年终奖金、五险一金、餐费补贴、弹性工作 游戏·数据分析 大数据开发工程师 成都·高新区 7k-14k 经验1-3年 本科 中电万维 500-2000人 公司稳定 福利好 13薪 定期体检 DB2·DBA·MySQL 清洗后数据展示: 数据分析工程师 上海 27.50 经验3-5年 本科 上海敬游软件 150-500人 年终奖金、五险一金、餐费补贴、弹性工作 游戏·数据分析 大数据开发工程师 成都 10.50 经验1-3年 本科 中电万维 500-2000人 公司稳定 福利好 13薪 定期体检 DB2·DBA·MySQL 编程要求 在右侧代码 CleanData.java 文件中的 Begin-End 区间编写代码,按照本关任务中的要求清洗数据,数据集存放在 /data/workspace/myshixun/clean/advertise.txt 中; 清洗完的数据集存储到 /root/files 目录下。 测试说明 平台会对你编写的代码进行测试,若与预期输出一致,则算通关。 开始你的任务吧,祝你成功!
最新发布
06-18
<think>我们参考用户的需求:利用Spark进行招聘数据清洗,具体包括:1.字段完整性检查2.去重3.城市字段处理4.薪资计算5.字母转换(技能和职位名称小写转换)6.存储清洗后的数据到指定目录我们根据引用中的一些代码片段(如引用[3]和引用[4])来构建Spark代码,使用PySpark。步骤分解:1.字段完整性检查:检查关键字段是否存在空值,可以选择过滤掉关键字段为空的数据。2.去重:根据某些关键字段去除重复记录,例如相同职位ID的记录。3.城市字段处理:用户提到“城市字段处理”,这里假设城市字段可能包含冗余信息(比如“北京市朝阳区”),我们可能需要提取城市名(如“北京”)。但具体处理逻辑需要根据数据实际情况,这里我们假设使用正则表达式提取城市。4.薪资计算:招聘数据中薪资可能是一个范围(如10K-20K),我们需要将其拆分为最低薪资和最高薪资,并可能计算平均薪资(可选)。5.字母转换:将技能(skills)和职位名称(job_title)字段统一转换为小写。6.存储清洗后的数据:将结果保存到指定目录,如HDFS或本地文件系统。假设数据包含的字段:-job_id:职位ID(用于去重)-job_title:职位名称(需要转小写)-city:城市(需要提取)-salary:薪资字符串(如"10K-20K")-skills:技能(需要转小写)-其他字段(如公司名称等)代码实现步骤:1.初始化SparkSession2.读取数据(假设为CSV格式)3.字段完整性检查:过滤掉job_id,job_title,city,salary,skills为空的行4.去重:根据job_id去重(或者根据多个字段组合去重,这里以job_id为例)5.城市字段处理:使用正则表达式提取城市名,例如从“北京市朝阳区”提取“北京”6.薪资计算:-拆分薪资字符串,假设格式为“数字K-数字K”-将字符串拆分为最低和最高薪资,并转换为整数(乘以1000,因为K代表千)-计算平均薪资(可选)7.字母转换:将job_title和skills字段转换为小写8.保存清洗后的数据到指定目录注意:实际数据可能格式不一,需要根据具体情况调整。代码示例:</think>### Spark招聘数据清洗实现方案 以下是使用Spark实现招聘数据清洗的完整解决方案,包含字段完整性校验、去重、城市字段提取、薪资计算、小写转换等步骤: #### 1. 数据准备与读取 ```python from pyspark.sql import SparkSession from pyspark.sql.functions import * # 初始化Spark会话 spark = SparkSession.builder \ .appName("JobDataCleaning") \ .getOrCreate() # 读取原始数据(假设CSV格式) raw_df = spark.read.csv("hdfs:///data/raw/jobs", header=True, inferSchema=True) ``` #### 2. 字段完整性校验 检查关键字段是否存在空值: ```python # 定义关键字段清单 key_columns = ["job_id", "job_title", "company", "city", "salary_range", "skills"] # 过滤无效记录 valid_df = raw_df.dropna(subset=key_columns).filter( col("job_id").isNotNull() & col("salary_range").isNotNull() ) ``` #### 3. 数据去重 ```python # 基于职位ID和公司名称去重 dedup_df = valid_df.dropDuplicates(["job_id", "company_name"]) ``` #### 4. 城市字段处理 提取城市主名称(如"北京市海淀区" → "北京"): ```python # 正则提取城市名(中文场景) city_processed_df = dedup_df.withColumn( "clean_city", regexp_extract(col("city"), "([\u4e00-\u9fa5]{2,4}市)", 1) ) ``` #### 5. 薪资计算 解析薪资范围并计算平均值: ```python # 解析薪资范围(格式示例:"10K-20K") salary_df = city_processed_df.withColumn( "salary_lower", regexp_extract(col("salary_range"), "(\d+)K-", 1).cast("float") * 1000 ).withColumn( "salary_upper", regexp_extract(col("salary_range"), "-(\d+)K", 1).cast("float") * 1000 ).withColumn( "salary_avg", (col("salary_lower") + col("salary_upper")) / 2 ) ``` #### 6. 字母小写转换 ```python lowercase_df = salary_df.withColumn( "job_title_lower", lower(col("job_title")) ).withColumn( "skills_lower", lower(col("skills")) ) ``` #### 7. 结果存储 ```python # 选择最终字段并存储 result_df = lowercase_df.select( "job_id", "company_name", "clean_city", "salary_lower", "salary_upper", "salary_avg", "job_title_lower", "skills_lower" ) # 存储为Parquet格式(分区存储) result_df.write.partitionBy("clean_city") \ .mode("overwrite") \ .parquet("hdfs:///data/processed/jobs") ``` #### 8. 数据质量验证(可选) ```python # 验证清洗后数据质量 print(f"原始记录数: {raw_df.count()}") print(f"有效记录数: {result_df.count()}") print(f"城市字段完整率: {result_df.filter(col('clean_city') != '').count()/result_df.count()*100:.2f}%") ``` ### 关键技术说明 1. **正则表达式处理**:用于城市提取和薪资解析 2. **Spark SQL函数**:`regexp_extract`, `lower`, `dropDuplicates`等内置函数 3. **分区存储**:按城市分区提升查询效率[^1] 4. **类型转换**:字符串到数值型的显式转换保证计算安全[^4] ### 性能优化建议 - 对输入数据使用`schema`参数替代`inferSchema`加速读取 - 对大数据集使用`repartition`调整分区数 - 缓存中间数据集(`cache()`)用于迭代计算 - 启用Spark动态资源分配
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值