山东大学软件学院2020-2021数据科学导论试题回忆

单身狗尊享

于 2021-01-02 16:17:46 发布

阅读量912

点赞数 2

分类专栏：数据科学概论复习资料等文章标签：大数据 hadoop redis 数据库 nosql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44220394/article/details/112101678

版权

复习资料等同时被 2 个专栏收录

13 篇文章

订阅专栏

数据科学概论

4 篇文章

订阅专栏

2021.1.2 16:00
刚出考场，心情沉重

考试前半小时，院表白墙有人发帖说
表白某老师，之前说不考试，后来又考
考啥也不明确
复习起来像开天辟地
评论区开始接龙“他甚至连天和地是啥都没说”
属实给我逗乐了

一、简答

1.大数据的全生命周期的各个阶段是什么，用疫情监测应用例子来描述。
2.（1）什么是EDA（Exploratory data analysis），探索性数据分析
（2）探索性数据分析的过程，以及与传统的统计分析的区别？
3.举例说明为什么传统的关系型数据库在web2.0的数据管理中很好的发挥作用？

二、分析

1.关系型数据库中的关系代数自然连接的mapreduce过程，写出map函数和reduce函数的逻辑过程
2.微博的数据用了redis存储，分为了关注表，粉丝表，互粉表
（1）说明这样设计的好处
（2）粉丝表的规模会很大，甚至上亿，是一个有序的set集合，如果查一个用户ID，遍历耗时严重，问怎么设计一个索引机制来快速查询一个ID是不是粉丝

三、计算

1.实体融合TF-IDF
一个文章里有1000个词，中国，软件，开发这三个词的TF均为0.02。假设，网络上的网页一共250亿个，含有中国的62.3亿，含有软件的0.484亿，含有开发的0.972亿。（数据有误差，不会差数量级）
（1）问三个词的IDF 和TF-IDF
（2）如果选一个词代表这个文章，选哪个

2.往年的题目
（1）画出二部图
（2）Alice除了音乐1 4 5之外，给他推荐哪首歌？试用随机游走进行验证，写出验证步骤

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。