hive初试

1:搭建hadoop和hive,mysql的环境,过程截图。

 

2:利用上节课的数据,建表并导入数据。

3:最热门的查询词排行 top10
4:用户查询排行 top10
5:搜索结果排名第1,但是点击次序排在第2的数据有多少?

 

2:利用上节课的数据,建表并导入数据。

数据格式说明:
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。

CREATE EXTERNAL TABLE sg_table(
  last_update string,
  col_a string,
  col_b string,
  col_c string,
  col_d string,
  col_e string,
  col_f string,
  col_g string,
  col_h string,
  col_i string,
  col_j string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
location '/hadoop/dw/sogoutest';
hadoop put sogout.txt /hadoop/dw/sogoutest

 

3:最热门的查询词排行 top10

select col_b ,count(col_b) as top10 from sg_table group by col_b  order by top10  desc limit 10 ;


4:用户查询排行 top10

select col_a ,count(col_a) as top10 from sg_table group by col_a  order by top10  desc limit 10 ;


5:搜索结果排名第1,但是点击次序排在第2的数据有多少?

select col_b , count(col_b) as top1  from sg_table where col_i=2 group by col_b order by top1 desc limit 1;

### 亚信科技大数据开发实习生职位要求与技能分析 亚信科技作为一家专注于通信、金融、能源等行业的数字化转型服务商,其大数据开发实习生职位通常会涉及多个技术领域和业务场景。以下为该职位可能的职位描述、技能要求及申请流程: #### 职位描述 大数据开发实习生的主要职责通常是协助团队完成数据处理、数据分析以及大数据平台的开发与维护工作。具体包括但不限于: - 使用Hadoop、Spark等大数据框架进行数据清洗、存储和分析[^1]。 - 参与大数据平台的设计与优化,提升数据处理效率。 - 协助开发数据管道,确保数据从源头到目标系统的高效传输。 - 支持团队完成日常的数据需求,例如报表生成、数据可视化等。 #### 技能要求 为了胜任大数据开发实习生的角色,候选人需要具备以下技能: - 熟练掌握Java或Python编程语言,能够编写高效的代码以处理大规模数据集[^2]。 - 对Hadoop生态系统有基本了解,包括HDFS、MapReduce、Hive、Spark等组件的工作原理[^1]。 - 具备SQL技能,能够熟练操作关系型数据库(如MySQL)和非关系型数据库(如MongoDB、Cassandra)。 - 熟悉Linux操作系统,能够在命令行环境下完成基本的操作和脚本编写。 - 具备良好的问题解决能力和逻辑思维能力,能够快速学习新技术并应用于实际项目。 #### 申请流程 根据过往经验,亚信科技的实习生招聘流程通常包括以下几个阶段: 1. **简历投递**:通过官方招聘渠道(如公司官网、Boss直聘、拉钩网等)提交个人简历。 2. **初步筛选**:HR对简历进行筛选,符合条件的候选人将被邀请参加初试。 3. **技术面试**:重点考察候选人的编程能力、算法基础以及对大数据技术的理解[^2]。 4. **综合评估**:可能包含笔试、行为面试等环节,全面评估候选人的综合素质。 5. **发放Offer**:通过所有环节后,公司将向候选人发出实习邀请。 #### 注意事项 在申请过程中,建议候选人提前准备常见技术面试题,并熟悉亚信科技的核心业务领域及其对大数据技术的应用场景。此外,展示自己在开源项目或实际项目中的实践经验也能显著提升竞争力。 ```python # 示例代码:使用Pandas库进行数据清洗 import pandas as pd # 加载数据 data = pd.read_csv("example.csv") # 数据清洗 data.dropna(inplace=True) # 删除缺失值 data['column_name'] = data['column_name'].str.strip() # 去除多余空格 # 数据保存 data.to_csv("cleaned_data.csv", index=False) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值