2019脱单指南 | 用数据解决单身问题

程序员小Q沉迷知乎择偶贴,希望小Z从数据分析角度帮其找女友。小Z先爬取知乎择偶问题下27664条回答数据,分析匿名情况、性别占比和回答创建时间分布,后制定四步脱单法缩小范围,又引入赞评指数排序,得到最终脱单大名单。

问答类型平台最有趣的地方就在于不确定性,因为你永远不知道沙雕网友会提什么脑洞问题。

最近很多关于晒择偶标准的帖子,活脱脱把知乎变成了另一个“世纪佳缘”,回答清一色的爆照和晒条件,这对于单身狗来说是妥妥的福利。

母胎SOLO的程序员小Q就沉迷其中不能自拔,这是他流着哈喇子发出的第100次感慨“你说说!这些小姐姐照片是真好看!但回答实在太太太多了,怎么才能在这些回答中找到合适的人选呢?Z哥,你能不能从数据分析角度给我点思路啊?”

640?wx_fmt=gif

小Z不胜其扰,被迫接受了这个艰难的任务——基于数据打造一份择偶指南

640?wx_fmt=png

 数据获取

首先,我们要拿到这些小姐姐们的数据,小Z找到了择偶/相亲相关内容下最热门的一个问题——你的择偶标准是怎样的?

说是问择偶的标准,其实全是希望找到另一半的小哥哥、小姐姐们在答题。目前已经有27000+回答了:

640?wx_fmt=png

回答爬取这一块,知乎还是比较友善的,只需要在XHR里面找到回答的动态网址,伪装headers的User-Agent就能够欢乐的批量爬取了。

小Z不费吹灰之力就爬到了问题下27664条回答,还包括每条回答的答主昵称、关注人数、点赞数、性别等一大票字段。

640?wx_fmt=png

640?wx_fmt=png

数据初窥

1、匿名情况和性别占比

截至日前,这个回答下有13527个用户是匿名的,占比(48.90%)接近半数。需要注意的是,所有匿名用户的性别默认都是男(知乎性别1表示男,0表示女,-1代表未知)。出于职业习惯,小Z以迅雷不及掩耳之势分析了男女占比(剔除了匿名用户的占比):

640?wx_fmt=png

小Z发现,这个问题下,已经有大神基于内容进行了匹配,在未剔除匿名的情况下,发现男性占比较大。

而我们剔除掉匿名的用户,只基于爬取的性别源数据进行分析,发现男、女、未知三分天下,性别占比相对均衡,可以确定的是,目前回答下有4758个不匿名的小姐姐。(这两套逻辑下的统计结果并不冲突)

2、回答创建时间分布

在看回答创建时间分布前,需要先把知乎默认的时间戳格式转换成我们习惯的时间格式:

640?wx_fmt=png

回答时间分布:

640?wx_fmt=png

  • 2018年4月30号,随着问题的提出,第一个哥们开始答题,前期这个问题一直处于日回答数不过50的不温不火状态。时间来到了18年国庆节,可能是单身狗返乡受到亲友们的疯狂质询,导致回答数暴增,10月7日当天,日回答数突破300大关,随后回答数稳定在100左右。

  • 无从考证2018年12月13日发生了什么,那一天有506颗悸动的心将脱单的希望交给了知乎。

  • 19年春节前的返乡期,又是一次情感大拷问,也是回答数的第三个小高潮。及至今日,每天还有60+新增回答。

640?wx_fmt=png

 缩小脱单范围

“哥们,你看看吧”一番标准汇报式的操作完成之后,小Z有些嘚瑟。

“Emmm,这都哪儿跟哪儿啊!你别给我看这些有的没的行吗!什么男女占比,什么发布时间分布,都关我屁事啊,我需要的是切实的!可以帮助我在上面找到女朋友的数据建议!”

640?wx_fmt=jpeg

纳尼?这跟我预想的他会猛夸我一顿的结果完全不一样啊!不过他说的确实在理。小Z顿时没了底气。“那行,数据都拿到了,你说说你找女朋友什么条件吧”

小Q45度角仰望天空,露出了少男怀春般的甜笑“什么条件不条件的,我只想找到一个我愿意为她放弃所有预设条件的灵魂伴侣~”

640?wx_fmt=jpeg

噗!“这才是他单身的根本原因啊!这个人可能被需求压成傻子了,要包容,要包容,要包容”小Z吐完一口老血后不断安慰自己。

小Q继续补充道:“这样吧,你能帮我列一个清单吗?我觉得可能还是要自己聊聊,看合不合拍。哦对了,匿名的就算了,我不喜欢太害羞的”。

640?wx_fmt=gif

得!匿名算了是吧,那我直接筛掉!灵魂伴侣是吧,那肯定接受异地,地区匹配先省略了!能放弃所有预设条件是吧,那学历年龄身高哥也不用给你去正文苦哈哈的匹配了!

问题的重点,就在于如何设计一套合适的逻辑来从数据中清洗和筛选出目标小姐姐们。

沉思片刻,小Z制定了一个四步脱单法来解决这个问题:

1、既然是灵魂伴侣,那如果回答连30字都没有超过,不是抖机灵就是敷衍,怎么能承担起“灵魂”二字呢!必须PASS掉!

640?wx_fmt=png

搞定,这一步下来,目标群体还有4244个小姐姐

2、数据最重要的特性之一就是时效性,别看回答数量这么多,真正抓得住的幸福才是属于自己的幸福,如果一个答主最近一次更新答案的时间超过了一个月,那只有两种可能,要么是她已经找到了,要么她已经对这个方式失去了兴趣。所以,加上时间条件,筛选出最近30天还活跃的小姐姐们。

640?wx_fmt=png

经过本轮筛选,小姐姐的数量直接从4244个缩小到598个。

3、小Z发现,有一些小姐姐在回答中强调照片OR内容已删,已经找到。这类回答当然要继续PASS。

640?wx_fmt=png

还剩下562位~

4、对于相貌平平无奇,条件一般的小Q来说,去追已经被众星捧月的小姐姐们,难度实在是太大了。于是小Z根据经验暴力设置了两个阈值:

  • 知乎账号被关注人数超过1500以上的,对小Q来说算是大V了,PASS!

  • 回答点赞超过150或评论条数超过100的,说明已经有狼群盯上,激烈的竞争不适合与世无争的小Q。

640?wx_fmt=png

四步走下来,名单已经成功锐减到480了,剩下的都是些走心的(回答字数多)、热乎的(最近更新)、正在择偶中且竞争还不算激烈的小姐姐们。小Z长舒一口气后,又有了新的困惑:“这样筛选得到的名单,虽然说范围精确多了,能不能再进一步,给他一个优先级排序呢?

640?wx_fmt=png

 引入指数,暴力排序

问题的核心要给他找一份相对不错,又竞争尚小的名单。而相对不错,又竞争压力尚小,怎么量化呢?将发际线挠退了2厘米后,小Z有所顿悟。

在这个回答下,点赞越多说明答主在某个方面越受青睐,评论越多则表示主动出击的人越多,竞争可能更激烈。而前面已经对点赞和评论数进行了清洗,大热不在,如何在小热中进行排序呢?

这里,小Z用每个回答的点赞数除以评论数,得到一个赞评指数,用来衡量平均一个评论能够获得多少赞,数值是越高越好的。

举个栗子:

640?wx_fmt=png

回答A有130个赞,30条评论,回答B有130个赞,60条评论,点赞数相同的情况下,B的评论更多,竞争更加激烈,从竞争的角度看,选择A更加明智;回答C和D分别有50条评论,而C的点赞数要高于D,在评论数相同的情况下(竞争激烈程度相近),我们应该选择更受青睐的C。

从赞评指数来看,A的4.33 > B的2.17;C的2.24 > D的1.70,看来,评赞指数能够为我们的选择提供优先级指导。

于是,小Z用暴力的赞评指数对剩下的小姐姐进行排序,并取TOP30,得到了最终的脱单大名单。

640?wx_fmt=png

不错不错,有心了有心了。”小Q接过名单,忍俊不禁,乐呵呵的去按ID索伴,至于后续嘛,外号铁公鸡的小Q破天荒的请小Z吃了一顿丰盛的烧烤。

640?wx_fmt=jpeg

最后,小Z把爬取代码,源数据以及筛选过程打包整理,后台回复“脱单”即可获取完整代码,旁友们可以执行代码获取符合小Q条件的小姐姐,不过,更好的方式还是尝试自己设置条件来筛选另一半。

更多有趣文章

640?wx_fmt=png

· 深扒5000+招聘数据 | 听说产品拿不动刀了?

·《都挺好》弹幕比剧还精彩?394452条弹幕数据来告诉你答案

· 让弹幕飞一会儿——腾讯视频弹幕(39W+)爬取实战

· 直男不懂口红色号?没关系!——数据分析告诉你节日(3·8)送什么色号口红

C题 抗抑郁药物的疗效问题 抑郁症已成为全球范围内严重影响人类健康的疾病之一。在我国,抑郁症患者人数呈逐年上升趋势,据相关统计数据显示,目前国内抑郁症患者已超过9500万,且中青年(20-40岁)人群成为抑郁症的高发群体。抑郁症不仅严重影响患者的生活质量和身体健康,而且对社会经济造成沉重负担。抗抑郁药物是治疗抑郁症的重要手段。目前临床上常用的抗抑郁药物种类繁多,但不同药物的疗效和不良反应可能存在差异,也可能引发一系列副作用,如便秘、失眠、发等症状。使用抗抑郁药物的目的是缓解抑郁症状,改善患者的生活质量。生产抗抑郁药物的前提是药物在很大程度上能够有效缓解抑郁症状,同时副作用可控。 某制药公司研发了两种针对成年人的新型抗抑郁药物,分别为药物A和药物B。为了评估这两种药物的疗效和安全性,特与已被临床应用的药物C一起进行临床试验。一共有三组,药物C作为对照组(标记为1组),药物A与药物B均为试验组(分别标记为2、3组),每组均为525例,且分别于第一、三、六、十二月就主诉情况进行随访记录。在本次试验中,受试者服用药物A、药物B和药物C的用量相同,不考虑用药量的差异,同时也不考虑药物的成本和价格差异。 该公司选择了两家医院进行临床试验,假设两家医院的医院环境、医疗条件及主治医生的医疗水平没有显著差异。受试者的身体指标、婚姻状况、随访时的主诉情况均在一定程度上反映抗抑郁药物的质量与疗效。若受试者在使用抗抑郁药物前期出现不适症状(如失眠、发等),但后期症状消失,可认为受试者适应了该药物。例如,受试者在第一、三月份随访时均主诉有不适症状,但在第六、十二月份随访时均表示没有不适症状,可认为前三个月为受试者的适应期,此时不考虑药物的质量问题。 附件1提供了两家医院临床受试者的身体指标和婚姻状况,附件2提供了两个医院随访时的主诉情况记录,随访时仅对出现不适情况的受试者进行记录,使用感受良好的受试者不予记录。部分受试者在随访时难以联系,造成失访,因此数据可能存在部分缺失。附件2中随访时的主诉情况(标注颜色栏目)下的空格表示该受试者在对应时间点未出现相应不适症状,“1”表示该受试者在对应时间点出现了相应不适症状;“是否出现不适”栏目是对前面第一、三、六、十二月随访记录中出现不适症状的综合统计。 请根据附件中的数据,建立数学模型研究以下问题问题1 根据附件1,分析各组患者的基线特征(年龄、婚姻状况、既往抗抑郁药使用情况、初始抑郁程度)的分布情况,比较各组之间是否存在显著差异。 序号 组别 年龄(岁) 婚姻状况 既往抗抑郁药使用情况  抑郁程度 未婚 已婚 离异 丧偶 无 使用过抗抑郁药 其它 轻度 中度 重度 7 1 32   1         1   1   10 1 33   1     1       1   13 1 32   1         1   1   14 1 26 1         1     1   16 1 30   1     1       1   17 1 29 1       1       1   36 1 38     1   1       1   40 1 23 1         1     1   45 1 39 1       1       1   46 1 31   1     1       1   47 1 39 1       1       1   49 1 39 1       1       1   53 1 38 1       1       1     55 1 35     1       1 1     58 1 25 1         1     1   59 1 30   1         1   1   65 1 28 1           1   1   69 1 34   1     1       1   72 1 34   1     1       1   75 1 39   1     1       1   85 1 29 1           1   1   88 1 33   1     1         1 89 1 30   1         1   1   90 1 28 1       1       1   98 1 23 1         1     1   103 1 34   1     1       1   105 1 22 1         1     1   109 1 37   1     1     1     113 1 28 1       1       1   114 1 38   1     1       1   115 1 31   1     1       1   118 1 24 1           1   1   119 1 26 1       1       1   129 1 20 1         1     1   131 1 21 1         1     1   135 1 35 1     1       1   139 1 29 1       1       1   146 1 39   1     1       1   149 1 28 1       1       1   150 1 25 1         1   1     154 1 36   1     1       1   158 1 36 1       1       1   可使用的软件Excel 和MATLAB
07-14
本系统旨在构建一套面向高等院校的综合性教务管理平台,涵盖学生、教师及教务处三个核心角色的业务需求。系统设计着重于实现教学流程的规范化与数据处理的自动化,以提升日常教学管理工作的效率与准确性。 在面向学生的功能模块中,系统提供了课程选修服务,学生可依据培养方案选择相应课程,并生成个人专属的课表。成绩查询功能支持学生查阅个人各科目成绩,同时系统可自动计算并展示该课程的全班最高分、平均分、最低分以及学生在班级内的成绩排名。 教师端功能主要围绕课程与成绩管理展开。教师可发起课程设置申请,提交包括课程编码、课程名称、学分学时、课程概述在内的新课程信息,亦可对已开设课程的信息进行更新或撤销。在课程管理方面,教师具备录入所授课程期末考试成绩的权限,并可导出选修该课程的学生名单。 教务处作为管理中枢,拥有课程审批与教学统筹两大核心职能。课程设置审批模块负责处理教师提交的课程申请,管理员可根据教学计划与资源情况进行审核批复。教学安排模块则负责全局管控,包括管理所有学生的选课最终结果、生成包含学号、姓名、课程及成绩的正式成绩单,并能基于选课与成绩数据,统计各门课程的实际选课人数、最高分、最低分、平均分以及成绩合格的学生数量。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值