目录
一、相关说明
1.分析目标
数据分析目标:已知一组关于商家发布上一代产品时,不同客户群体购买产品的数据.如,购买时间,购买欲望等. 商家想知道本次发布新产品,有哪些群体是马上需要购买新产品的,以针对性的对他们进行精准营销.
2.数据说明
User_ID: 为在公司网站上拥有帐户的每个人指定的具有唯一性的数字识别码。Gender: 客户的性别,参考客户帐户而定。 在此数据集中,使用“M”表示男性,使用“F”表示女性。Decision Tree 操作符可以处理非数字数据类型。Age: 从公司网站的数据库中提取数据时相应人员的年龄。 按系统日期与帐户中记录的相应人员的生日之间的时间差计算,并按四舍五入的方式精确到整数。Marital_Status: 帐户中记录的相应人员的婚姻状况。 在帐户中表示自己已婚的人员在数据集中被输入为“M”。 由于公司网站没有区分人员的单身类型,因此离异与丧偶的人士同一直单身的人士被归为了一类(在数据集中使用“S”表示)。Website_Activity: 该属性用于表示每个客户在公司网站上的活跃程度。 通过与 Richard 合作,我们使用公司网站数据库中记录每个客户访问公司网站时持续时间的信息,来计算客户使用公司网站的频度和每次的持续时间。 然后这会转换为以下其中一个类别: 很少访问、定期访问或频繁访问。Browsed_Electronics_12Mo: 一个内容为 Yes/No 的列,用于表示相应人员在过去的一年中是否曾在公司网站上浏览电子产品。Bought_Electronics_12Mo: 另一个内容为 Yes/No 的列,用于表示他们在过去的一年中是否曾通过 Richard 公司的网站购买电子产品。Bought_Digital_Media_18Mo: 一个内容为 Yes/No 的字段,用于表示相应人员在过去的一年半中是否曾购买过某种形式的数字媒体(例如 MP3 音乐)。 该属性不包括购买数字书籍。Bought_Digital_Books: Richard 认为,作为与公司新款电子阅读器相关的购买行为指标,该属性有可能是最佳指标。 因此,我们将该属性与购买其他类型的数字媒体区分开来。 此外,该属性用于表示客户是否曾购买过数字书籍,而不仅仅只限于过去一年左右的时间。Payment_Method: 表示相应人员的付款方式。 如果相应人员曾采用多种方式付款,则使用众值,或最常使用的付款方式。 该属性有四个选项:– 银行转账 - 通过电子支票或其他电汇形式由银行直接向公司付款。– 网站帐户 - 客户在其帐户中设置了一个信用卡或永久性电子资金转帐,以便在购物时直接通过帐户划拨。– 信用卡 - 相应人员每次通过公司网站购物时,都输入信用卡卡号和授权码。– 月结账单 - 相应人员会定期购物,并会收到稍后通过邮寄支票或通过公司网站付款系统支付的纸质或电子账单。eReader_Adoption: 该属性仅在训练数据集中存在。 其中包含与购买前一代电子阅读器的客户有关的数据。 在产品发布后一周内购买的人员在此属性中被记录为“Innovator”。 在第一周之后但在第二到第三周之内购买的人员被输入为“Early Adopter”。 在第三周之后但在前两个月之内购买的人员为“Early Majority”。 在前两个月之后购买的人员为“Late Majority”。 将训练数据应用于检验数据时,此属性将用作标签。
3.数据准备
导入数据
由于数据已经清洗过,这里不再强调数据预处理过程.
二、构建模型
将User_ID设置为id性质,目的是让User_ID成为唯一的标识符列.同时也不再参与后续的建模与预测等工作.
三、应用模型
Ending, congratulations, you're done.