1.下列关于为什么要做数据清理描述错误的是( D )
A. 数据有重复
B. 数据有错误
C. 数据有缺失
D. 数据量太大
2.下面哪个属性不是NumPy中数组的属性( )。
A.ndim B.size C.shape D.add
3.一个简单的Series是由( )的数据组成的。
A.两个数组 B.三个数组 C.一个数组 D.四个数组
4. 在pandas中以下哪个方法用于实现去除重复数据?( )
A. join() B. drop_duplicates()
C. count() D.drop_duplicated()
5.在NumPy 模块中,以下哪个函数不是算数函数?( )
A. subtract() B. divide()
C. hypot() D.sum()
6.数据集成的过程中需要处理的问题有( )
A、实体识别 B、冗余与相关性分析。
C、数据冲突和检测 D、 以上都是
7.以下哪个函数用于绘制折线图?( )
A. scatter() B. plot() C. pie() D.hist()
8. 以下说法错误的是( )
A. 主成分分析、属性子集选择为维归约方法.
B. 直方图、聚类、抽样和数据立方体聚集为数量归约方法。
C. 用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。
D. 数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。
9. 处理噪声的方法一般有( )
A. 分箱 B. 回归 C. 聚类 D. 以上都是
10. 在数据预处理阶段,数据类型被统一,使得挖掘过程可能更有效,挖掘的模式可能更容易理解,这个过程被称为?( )
A.数据清理 B.数据集成 C.数据规约 D.数据变换
11.在pandas中以下哪个方法用于向csv文件中实现写入工作?( )
A. to_excel()
B. read_csv()
C. to_csv()
D.read_excel()
12.下列选项中,描述正确的是( )。
A. 任何数据均可以使用3σ原则检测异常值
B. 异常值只在箱形图下边缘以外的位置出现
C. 任何数据均可以使用箱形图检测异常值
D. 箱形图中异常值范围Q1 – 1.5IQR或小于Q3 + 1.5IQR
13. 下列方法中,可实现降采样操作的是( )
A. resample() B. stack() C. cut () D. get_dummies()
14. 下列选项中,关于OpenRefine描述正确的是( )
A. OpenRefine仅支持Windows系统
B. OpenRefine不支持中文
C. 运行OpenRefine不需要任何依赖环境
D. OpenRefine支持从本地、指定网址以及数据库中导入数据
15.下列选项中,支持高维度数组与矩阵运算的是( )。
A. NumPy B. Pandas C. Scipy D. Scikit-learn
16.以下( )函数可以在绘制图表时,设置x轴的名称。
A. xlim() B. xlabel()
C. xticks() D.ylabel()
填空题
1.pandas提供了三个函数用于实现数据库信息的读取操作分别是_________、_________、_________
2. Pandas提供了两种主要数据结构_______和_______
3.大数据预处理的方法主要包括_________、_________、_________、_________
4.插补缺失值是通过_______填充缺失值
5. Series对象主要由_______和_______ 组成
6. 数据清理过程中常遇到的数据问题有缺失、_______和_______。
7. 插补缺失值是通过_______填充缺失值
8. 降采样是将高频率采集的数据规约到_______采集的数据的操作。
9.聚合指任何能从分组数据生成_______的变换过程。
10.pdfplumber库通过_______对象可以获取PDF文件中的每一页实例
答案:
- read_sql_query()函数、read_sql_table()函数、read_sql()函数
2. Series 、DataFrame
3.数据清洗 数据集成、数据变换、数据规约
4. 插补算法
5.索引 、数据
6.数据重复 、 数据异常
7.插补算法
8.低频率
9.标量值
10.Page
判断题
1. read_csv()函数读取的数据会以二维数组形式显示。( )
2. Pandas不能读取JSON数据。( )
3. 在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的DataFrame对象中的对应列值均为NaN,表示一个不可用的值。( √ )
4. Series对象不存在分层索引。( )
5. cut ()函数会采用等频法对连续型数据进行离散化处理。( )
6. read_csv()函数读取的数据会以二维数组形式显示。( )
7. Pandas不能读取JSON数据。( )
简答题
- 简述数据清理中常见的数据问题以及如何处理
2. 请简述分组与聚合的过程
编程题
1. 创建一个代表国际象棋棋盘的10*10数组,其中棋盘的白格用2填充,棋盘黑格用1填充。