数据处理:从收集到分析的全面指南
1. 自动化数据收集
很多人认为自动化数据收集能解决与数据集相关的所有人工输入问题。实际上,自动化数据收集确实有不少好处:
- 更高的一致性
- 更好的可靠性
- 更低的数据缺失概率
- 更高的准确性
- 减少定时输入等方面的差异
然而,认为自动化数据收集能解决所有问题是不正确的。它仍然依赖人类设计的传感器、应用程序和计算机硬件,只能获取人类允许的数据。由于人类对自动化数据收集特性的限制,其结果往往提供的有用信息比设计者期望的要少。因此,设计者在不断努力解决输入问题,自动化数据收集也处于不断变化的状态。
自动化数据收集还会受到任何计算系统中存在的软件和硬件错误的影响,而且与其他基于计算机的设置相比,它出现软问题(即系统看似正常运行,但未提供预期结果)的可能性更高。当系统正常工作时,输入的可靠性远远超过人类能力。但当出现软问题时,系统往往无法像人类一样识别问题的存在,因此数据集最终可能包含更多质量一般甚至糟糕的数据。
2. 合乎道德地收集个人数据
有些人认为,互联网上出现的任何内容都自动属于公共领域,包括人们的面部和所有个人信息。实际上,为了安全使用数据,应将所有内容视为受版权保护,不能以公共领域的方式使用。即使意识到材料受版权保护的人,也常常会依赖合理使用原则。但合理使用是一个非常棘手的问题,例如作者协会诉谷歌案,最终谷歌胜诉,但这是因为谷歌满足了一些非常严格的要求,而且这种合理使用是针对书籍,而非针对人。
只考虑合理使用的问题在于,还必须考虑个人的隐私权。当公司在未获得任何许可的情况下开始在互联网上抓取人们戴口罩的图片时,引发了一场
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



