数据采集与管理【13】

星绘搜题

于 2022-02-16 10:23:59 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

文章标签： http 网络爬虫

本文链接：https://blog.youkuaiyun.com/robin9409/article/details/122957960

本文探讨了数据预处理中的ETL各步骤（抽取、转换、加载），重点关注ETL的E代表的'转换'含义。此外，讲解了爬虫的爬行策略，如广度优先和深度优先，以及HTTP请求中的Keep-Alive概念和响应头信息。还涉及了HTTP请求方法、状态码解析和正则表达式的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.数据的预处理ETL的E表示（）。

A.加载
B.抽取
C.清洗
D.转换

2.通用爬虫爬行策略实现的关键是评价页面内容和链接的重要性。

3.广度优先的爬行策略适合垂直搜索或站内搜索。

4.HTTP请求中的Connection:keep-alive表示（）

A.客户端指定请求uri的源资源地址
B.客户端到服务器端的连接持续有效
C.客户端网络类型
D.客户端设备类型

5.HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

A.Content-Range
B.Content-Language
C.Content-Length
D.Content-Encoding

6.以下属于HTTP协议的主要特点的是（）。

A.HTTP只允许传输指定类型的数据对象
B.HTTP1.1使用非持续连接
C.HTTP协议是无状态协议
D.HTTP不支持安全认证

7.正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

8.GET请求获取Request-URI所标识的资源。

9.一次HTTP由（）组成。

A.一次请求和一次响应
B.2次请求
C.一次请求
D.一次响应

10.（）描述了一种字符串匹配的模式，通常被用来检索、替换那些符合某个模式(规则)的文本。

A.字符集
B.网络爬虫
C.数据采集
D.正则表达式

11.以下对于爬行策略的说法，不正确的是（）。

A.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。
B.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
C.广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题
D.通用网络爬虫常用的爬行策略有：深度优先策略、广度优先策略

12.HTTP请求的响应状态码为403表示（）。

A.服务器连接超时
B.对被请求页面的访问被禁止
C.请求成功
D.服务器忙

13.HTTP请求由三部分组成，分别是：请求行、消息报头、请求正文。

14.数据转换不包括（）。

A.商务规则的计算
B.数据粒度的转换
C.不完整的数据
D.不一致数据转换

15.通过HTTP或者HTTPS协议请求的资源由()来标识。

A.HTML
B.FTP
C.TCP
D.URL

16.关于HTTP请求方法的解释，正确的有（）

A.DELETE请求服务器删除Request-URI所标识的资源
B.TRACE请求服务器回送收到的请求信息，主要用于测试或诊断
C.GET请求获取Request-URI所标识的资源
D.POST在Request-URI所标识的资源后附加新的数据

17.如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

A.向管理员请求用户名和密码
B.向网管报障
C.检查浏览器权限
D.再次核对请求的页面地址是否正确

18.HTTP请求的响应状态码为403表示（）。

A.请求成功
B.服务器连接超时
C.服务器忙
D.对被请求页面的访问被禁止

19.正则表达式中+表示1次或多次。

20.对于一些合并的数据字段，预处理时可以依据业务需求对字段进行分解。

21.聚焦网络爬虫能够在一定程度上保证所爬行的页面是尽可能新的页面。

22.正则表达式中，^匹配行尾。

23.在HTP响应信息中，若状态信息码是200则表示（）。

A.访问被禁止
B.登录失败
C.所请求的页面已经转移至新的url
D.请求成功

24.关于各种网络爬虫，以下说法不正确的是（）。

A.增量式爬虫在需要的时候爬行新产生或发生更新的页面，并重新下载所有页面
B.通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。
C.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。
D.通用网络爬虫通常采用并行工作方式，但需要较长时间才能刷新一次页面。

25.（）描述了一种字符串匹配的模式，通常被用来检索、替换那些符合某个模式(规则)的文本。

A.正则表达式
B.字符集
C.网络爬虫
D.数据采集

26.（）的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。

A.随机爬行策略
B.PageRank优先策略
C.广度优先策略
D.深度优先策略

27.以下关于深度优先和广度优先爬取策略的说法，正确的有（）。

A.深度优先策略比较适合垂直搜索或站内搜索
B.深度优先策略的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接
C.广度优先策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行
D.广度优先策略能够有效控制页面的爬行深度

28.GET方法可用于请求获取Request-URI所标识的资源。

29.在HTTP响应信息中，若状态信息码是404则表示（）。

A.访问被禁止
B.登录失败
C.所请求的页面已经转移至新的url
D.没有找到请求的页面

30.HTTP请求方法GET用于请求服务器回送收到的请求信息。

31.HTTP响应中的Allow用于把cookie发送到客户端浏览器。

32.对于不完整的数据，例如一些应该有的信息缺失，如信息缺失、主表与明细表不能匹配等，应进行数据（）。

A.转换
B.抽取
C.加载
D.清洗

33.以下关于正则表达式中数量表示规则的说法，不正确的是（）

A.X*表示可以出现0次，1次或多次
B.X+表示可以出现0次，1次或多次
C.X+表示可以出现1次或多次
D.X表示必须出现一次

34.正则表达式中的贪婪模式匹配尽可能多的文本。

35.通用网络爬虫对于爬行速度和存储空间要求较低。

36.网络数据采集不能处理非结构化数据。

37.HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

A.Referer
B.User-Agent
C.Host
D.Cookie

38.数据的时效性指的是数据在需要的时侯是否有效。

39.数据的有效性指的是数据在需要的时侯是否有效。

40.正则表达式中，[abc]表示（）。

A.字符串abc
B.字符a
C.字符a,b或c
D.同时包含abd的字符串

41.正则表达式中的\s表示任意空白字符。

42.按照（）爬取的网页内容根据目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行，当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。

A.深度优先策略
B.广度优先策略
C.PageRank优先策略
D.随机爬行策略

43.数据的正确性指的是数据之间的参照完整性是否存在或一致。

44.以下关于深度优先的爬行策略的说法，不正确的有（）。

A.比较适合垂直搜索或站内搜索
B.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完
C.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
D.处于较浅目录层次的页面都可以首先被爬行

45.深层网页中存储的信息量只占互联网中信息量的极少部分。

46.以下关于深度优先的爬行策略的说法，正确的有（）

A.处于较浅目录层次的页面都可以首先被爬行
B.比较适合垂直搜索或站内搜索
C.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
D.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完

47.正则表达式[a-z]可以匹配()。

A."a”到"z”范围内的任意字母字符
B."a”到"z”范围内的任意小写字母字符
C.字母字符"a”或"z”
D.小写字母字符"a”或"z”

48.正则表达式中有一些预定义的字符分类，其中,（）表示任意单词字符。。

A.$
B.\s
C.\w
D.\d

49.以下不属于数据质量的规范、完整性要求的是（）

A.参照完整性未被破坏：数据不会找不到参照
B.数据在内部一致
C.遗留系统相关信息与其他模块要一致
D.不存在交叉系统匹配违规，数据被很好集成

50.（）描述了一种字符串匹配的模式，通常被用来检索、替换那些符合某个模式(规则)的文本。

A.字符集
B.网络爬虫
C.正则表达式
D.数据采集

51.正则表达式[abc]表示字符a或b或c。

52.聚焦网络爬虫和通用网络爬虫相比，增加了（）模块。

A.链接评价模块
B.链接过滤模块
C.内容评价模块
D.URL队列

53.HTTP请求中Referer头域的内容包含发出请求的用户信息。

54.错误的数据产生的原因是业务系统不够健全，在接收输入后没有进行判断直接写入后台数据库造成的。

55.聚焦网络爬虫又称主题网络爬虫。

56.以下对于爬行策略的说法，不正确的是（）。

A.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。
B.广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题
C.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
D.通用网络爬虫常用的爬行策略有：深度优先策略、广度优先策略

57.以下不属于数据质量的规范、完整性要求的是（）

A.数据在内部一致
B.参照完整性未被破坏：数据不会找不到参照
C.不存在交叉系统匹配违规，数据被很好集成
D.遗留系统相关信息与其他模块要一致

58.以下关于HTTP请求方法GET的说法，正确的是（）。

A.请求服务器删除Request-URI所标识的资源
B.请求服务器回送收到的请求信息
C.请求查询服务器的性能
D.请求获取Request-URI所标识的资源

59.数据的一致性指的是所有需要的数据是否都存在。

60.通用网络爬虫通常采用串行工作方式。

61.HTTP请求的HEAD方法请求获取由Request-URI所标识的资源的响应消息报头。

62.广度优先爬行策略的不足之处在于需较长时间才能爬行到目录层次较深的页面。

63.影响质量问题的原因不包括（）。

A.数据的依赖性问题
B.数据的不稳定性问题
C.数据的获取方式多样性问题
D.数据的时间差异性问题

64.数据转换不包括（）。

A.数据粒度的转换
B.商务规则的计算
C.不完整的数据
D.不一致数据转换

65.网络爬虫可能造成个人隐私泄露。

66.以下哪个HTTP响应状态表示服务器端错误（）

A.200
B.300
C.500
D.403

67.（）是指发现并纠正数据文件中可识别的一些错误。

A.数据清洗
B.数据集成
C.数据分析
D.数据采集

68.Keep-Alive功能虽然为客户保留打开的连接有一定的好处，但它同样影响了性能。

69.GET方法提交表单数据，会带来安全问题。

70.数据的预处理ETL的E表示（）。

A.抽取
B.加载
C.转换
D.清洗

71.深度优先爬行策略的不足之处在于需较长时间才能爬行到目录层次较深的页面。

72.在抽取旧有数据时，要将不同时期的数据定义统一。

73.在HTTP响应信息中，若状态信息码是404则表示（）。

A.所请求的页面已经转移至新的url
B.没有找到请求的页面
C.访问被禁止
D.登录失败

74.正则表达式中有一些预定义的字符分类，其中,（）表示任意数字。。

A.\d
B.\w
C.$
D.\s

75.、HTTP中（）方法可用于请求查询服务器的性能，或者查询与资源相关的选项和需求。

A.PUT
B.TRACE
C.OPTIONS
D.TRACE

76.目前超过一半的网页浏览量都由实际的用户贡献。

77.以下关于HTTP请求方法GET的说法，正确的是（）。

A.请求查询服务器的性能
B.请求获取Request-URI所标识的资源
C.请求服务器回送收到的请求信息
D.请求服务器删除Request-URI所标识的资源

78.数据的预处理ETL的T表示（）。

A.抽取
B.转换
C.加载
D.清洗

79.数据质量的（）表示数据是否正确的表示了现实或可证实的来源。

A.完整性
B.一致性
C.正确性
D.完备性

80.DeepWeb爬虫基于网页结构分析填写表单时，一般无领域知识或仅有有限的领域知识。

81.数据质量的（）表示所有需要的数据是否都存在。

A.一致性
B.完整性
C.正确性
D.完备性

82.正则表达式中，（）匹配除了换行符之外的任意字符。

A.\w
B.\d
C.^
D..

83.网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。

84.关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。

A.POST方法是把提交的数据放在HTTP包的Body中
B.POST方式提交数据，会带来安全问题
C.GET提交的数据大小有限制
D.GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连

85.聚焦网络爬虫数量非常多，页面更新慢。

86.数据的预处理ETL的E表示（）。

A.抽取
B.转换
C.清洗
D.加载

87.在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?分割URL和传输数据，参数之间以&相连。

A.GET
B.TRACE
C.POST
D.PUT

88.HTTP请求的POST方法请求服务器存储一个资源，并用Request-URI作为其标识。

89.网络数据采集是指通过（）或网站公开API等方式从网站上获取数据信息。。

A.服务器
B.播放器
C.浏览器
D.网络爬虫

90.DeepWeb爬虫的LVS表是（）。

A.是一个URL列表
B.即LabelValueSet，标签/数值集合
C.一种内部数据结构
D.用来表示填充表单的数据源

91.市场上的大部分Web服务器，都不支持HTTPKeep-Alive。

92.数据的预处理ETL的T表示（）。

A.转换
B.抽取
C.加载
D.清洗

93.Web页面按存在方式可以分为（）

A.深层网页
B.主题网页
C.表层网页
D.通用网页

94.HTTP响应中的（）用于重定向一个新的位置。

A.WWW-Authenticate
B.Location
C.Refresh
D.Connection

95.正则表达式的量词*表示0次或多次。

96.正则表达式的规则中，x|y表示匹配（）

A.xy
B.x或y
C.x和y
D.x+y

97.HTTP的请求头域可能包含下列字段（）。

A.Accept
B.User-Agent
C.Authorization
D.Host

98.如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

A.再次核对请求的页面地址是否正确
B.向管理员请求用户名和密码
C.检查浏览器权限
D.向网管报障

99.正则表达式的规则中，（）表示匹配所有非空白字符。

A.\w
B.\W
C.\S
D.\d

100.以下不属于数据清洗要处理的对象的是（）。

A.重复的数据
B.错误的数据
C.规范的数据
D.不完整的数据