市场调研的数据处理
第八章 数据的处理与分析
所有的调查问卷都填好了,下一步该做什么。这一章主要介绍问卷的处理过程,数据录入分析以及报告结果。
目前在大多数国家甚至在发展中国家,大多数的调查数据都用计算机进行处理,因此这章主要的方法和技术均可以用计算机实现。但是对小型的调查项目,有时手工处理问卷比计算机处理方便。
第一节 数据的预处理
利用调查和统计软件来进行这项工作,要充分利用网络资源。
推荐软件:调查软件——问卷设计、数据录入
InfoPoll Designer、SphinxSurvey、库玛软件、Epidata、DataEntry
数据分析软件——Excel、SPSS、Minitab、SAS
一、根据数据类型,进行变量编码
1、数据的类型
定类数据 Nominal
定序数据 Ordinal
定距数据 Interval
定比数据 Ratio ——尺度(scale)数据
也可以称为名义数据、顺序数据、区间数据、比例数据
*变量分类的名称在各软件中不尽相同
SPSS:Nominal Ordinal Scale
Minitab:Numerical Text
2、数据编码
编码——对一个问题的不同回答进行分组和确定数字代码的过程。编码的目的是便于调查数据的整理、计算机录入和分析。
1)对封闭式问题,全部答案都可以预先编码,用0、1、2、3、4…等数字对每个答案进行编码。相比之下开放式的问题很难进行编码。
2)编码主要针对类型数据,即定类和定序数据,答案可以列举出来。包括两分、多分的数据类型。数值数据一般不需要编码,只有在分组的情况下,才需要对各组进行编码(如收入或年龄的范畴选择)。
3)编码通常是数字化的,因为大多数的统计软件都可以处理,并且数字录入的速度也更快。但是一些软件也可以处理字符型编码,例如M 代表男性,F 代表女性,这样的编码容易记住并且录入的错误率可能降低。
4)编码的工作可以在问卷设计阶段完成。
例
如果一份调查问卷或报告中有大量的答案,这对报告阅读者来说是非常麻烦的,答案的选项最好不要超过5 。如:
*"你能使用哪种语言?"(选择所有可能的答案)
1 阿拉伯语2 希腊语3 意大利语4 英语5 其他请注明_______
如果有人使用爱尔兰语,有人使用日语,就需要2个新的编码
6 = 爱尔兰语7 = 日语
有时为了处理简便,可以将一些选择较少的选项合并处理,如
8 = 拉丁语系
但是当使用了这个编码后,就没有办法从该编码来查看对这个问题的回答。所以不要合并将来想分别查看的选项。
*开放问题的编码
对开放问题,问卷中往往会收集很多的答案,一些很普通,但也有很多可能是非常个性化的答案,甚至几乎没有两个完全一样的答案。
对开放性问题编码的方法是:
1)从问卷中抽出一个样本问卷,通常是前10 份问卷的每个不同的答案都写在小纸片上,然后根据答案意思进行归类。
2)通常归为10 到20 个组,如果100 个人中不到2 个人给出一个特别的答案,就不值得给这个答案一个独立的编码,除非它非常特殊并且与其他内容差距甚远。
3)定义好10 到20 个组后,给每个组分配一个编码。
如广播节目收听调查中,喜欢的节目(看法)的开放问题的回答编码:
01 = 喜欢FM880 的所有节目02 = 不喜欢FM880 的所有节目
03 = 播音员太普通了04 = 节目太普通了
05 = 音乐节目06 = 新闻节目
07 =谈话类节目08 = 早餐节目
09 = 小说联播10 = 其他
编码越详细,编码之间的内容就越相近。编码的有效性取决于希望得到什么样的调查结果,如果特别想寻找某一类型的答案,你可以为这个答案单独编码。例如,用某一种特别语言播放的广播频道,就可以作为编码类别,即使没有受访者明白这种语言,这本身也是一个有用的信息。
*两分、多分问题的编码,如:
0 = 是1 = 否
或者
1 =喜欢2 =一般3 =不喜欢
*数值数据的编码:
你的年收入:
1=2万元以下2=2—3万元3=3—4万元4=4—5万元5=5万元以上
二、问卷的审核及数据录入
1、问卷的审核
每一份问卷都需要被全面的复核
1)所有在问卷开始或结束部分的条目都需要完整填写
?问卷编号
?访问地点通常是编码形式
?访问员的名字
?访问日期和时间
这些都不是询问受访者的问题而是访问员自己填写的信息
2)核实问卷
?是否有遗漏的问题
?每个单选题是否只有一个答案
?每个被跳问过的问题没有选择答案,是否遵循跳跃模式
?如果一个答案超出了编码的范围或许需要一个新的编码
3)必要时进行复查,比例约为10~20%
?被调查者是否真的接受了调查、是否符合条件