软件初创企业中的敏捷实践分析
1. 数据清洗与验证
为确保调查数据的质量和有效性,对原始数据集进行了仔细的数据清洗和验证过程,主要使用R软件包实现自动化处理,并手动移除可疑数据条目。具体步骤如下:
1. 初步筛选 :设置回答问题数量的阈值为50(原始调查问题共278个),移除回答问题少于50个的行;合并由同一人针对同一家初创企业回答的数据行;移除数据导出过程中可能引入的重复列;修正因原始调查设计或数据导出过程导致的明显错误。
2. 逐列清洗 :移除初创企业名称缺失和电子邮件为空的行;排除不同受访者对同一家初创企业的回答;检查初创企业名称、电子邮件和网站,移除包含可疑值(如“none”、“not”、“test”等)的行;对具有固定值集的列应用正则表达式,进一步移除无效答案;打印每个封闭问题的所有可能值,确保数据集中仅存在有效答案。
3. 数据验证 :使用一组基于对所有调查问题仔细检查发现的验证案例,检测不现实、不可能、无效的答案组合,并移除无效的数据条目。所有使用的验证案例可在 此处 查看。
原始数据集有10171个条目,经过数据清洗和验证后,最终的数据集样本量为1526个。虽然可能会意外移除一些有效条目,但为了获得干净的数据集进行数据分析,这种取舍是值得的。
2. 数据分析
为回答研究问题,分两步对数据进行分析:
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



