账户数据本身的可分析性是分析算法的基础。通过分析数据特征来为建模做准备。账户数据特征通常分为活动行为特征,社团特征,发文特征、语法语义特征、时空特征等:
1. 活动特征:发文数量,发文被回复的比例,连续发文的平均时间间隔,用户在站点的发文级别,本站点首发的天数,通过发文回复关系得出的聚集系数和互惠性,两人之间在一个共同讨论中的次数。
2. 社团特征:对普通用户的差评比例,被举报的比例,被删比例,被限制比例。
3. 发文特征:文本作者,虚假写作样式,钓鱼内容,恶作剧内容,故意捣乱内容,
是否短句,是否骂人,是否第一人称,字符数量,平均单词长度,平均音节数,大句子数量,自动易读指数ARI,语言探索与字词计数LIWC特征的不同目录数。
4. 词法特征:此法是否和自动语言生成程序如Eliza类似,平均的hashtag数量,用户@数量,链接数,特殊字符数。是否有地理信息,标点符号和链接的比例。
5. 语义特征:平均情绪分数,反驳排序度量值(Contradiction Rank),负面情绪长度,高频主题,所用语言数量,情绪不连续度
6. 时态行为特征:用户情绪随时间是否来回自相矛盾,用户情绪的变动情况方差,互相交流时间分布的熵,发文时间的可预测性,每日发文数量,失去粉丝的比例,信噪比。
7. 用户概况特征:是否有图,是否绑定主页URL, 用户名是否看起来是自动生成的,发文回复@的数量,粉丝数量,账号和此人其他途径网站账号互相绑定的数量。GPS可定位性,是否在黑名单出现过。
8. 网络特征:用户情感与他关注的人以及粉丝的情绪分值的平均差,平均转发数量,出度和入度中心度,平均聚集系数,Pagerank中心度和相互中心度,用户网络是否呈星型或团结构,用户关注人是已知机器人账号的数量,用户所属网络中存在机器人账号的数量和比例。
参考文献:
1. Srijan Kumar, Justin Cheng, Jure Leskovec, V.S. Subrahmanian. "An Army of Me: Sockpuppets in Online Discussion Communities." WW