通过社交媒体挖掘衡量品牌忠诚度的管道
1. 引言
在当今商业环境中,通过社交媒体改善客户关系并利用社交媒体内容来改进产品,对企业具有重要意义。传统上,企业依靠内部客户关系管理(CRM)系统来衡量客户满意度,但现有CRM方法往往不足以分析和理解客户行为。社交媒体等外部系统的反馈对于真正了解品牌形象至关重要。社会商业智能(SBI)将企业数据与用户生成内容(UGC)相结合,使决策者了解重要的品牌相关趋势,并通过及时反馈改进决策。
UGC通过挖掘在线文本片段来捕捉品牌形象,这些文本片段包括客户和其他利益相关者的品味、意见、反馈和行动。从社交媒体上的消息、在线报纸或杂志的文章到亚马逊或谷歌应用商店的客户评论,都属于UGC的范畴。从文本UGC中提取有用信息需要先爬取数据源以获取相关片段,然后进行丰富处理。SBI在信息检索、数据挖掘和自然语言处理等多个领域带来了研究挑战,而且由于缺乏公开可用的真实世界数据,SBI研究常常受到限制。
本文介绍了通过丰富管道提取和处理社交数据以进行品牌忠诚度分析的经验。一方面,设计了收集社交媒体数据并存储在数据仓库中的系统,用于从多个维度进行品牌忠诚度分析;另一方面,通过对三个知名ICT品牌的分析展示了该方法的灵活性,结果表明不同的评估指标可能导致不同的结果,没有单一指标适用于所有品牌分析用例。
2. 相关工作
SBI在许多不同领域都有研究,有很多处理社交数据和UGC的提案。例如,有分析语料库中文档术语出现情况的SBI方法,有将文本度量作为总结文本信息的解决方案,还有用于对推文进行OLAP分析以获取统计信息的完整架构。
对于从文本片段中提取客户情感和地理位置等结构化信息,有许多NLP方法和深度学习技术。一些早期工作通过机器学习和深度学习分类算法研究质量、价值和客户满意度对消费者行为意向的影响,近期也有提出理解客户行为意向的通用方法,但这些工作主要是针对通用目的,并非旨在提取指标和比较品牌。
在地理定位方面,有通过文本内容自动定位非地理标记文本片段的方法,大多数方法依赖训练阶段构建语言模型来推断未知消息的位置,但存在文本噪声等问题。为克服这些问题,近期提出了利用网络上公开可用的外部信息源(如GeoNames或OpenStreetMaps)实现亚城市精度的替代方法。
3. 品牌分析管道
品牌分析管道的高层示意图如下:
graph LR
A[数据爬取] --> B[数据标注]
B --> C[数据转换与加载]
C --> D[品牌分析指标计算]
第一步,爬取三种不同类型的数据源,获取不同类型的文本片段,即来自Twitter的推文、新闻和来自亚马逊的评论。收集到的文本片段随后通过提取隐式和显式结构化信息进行标注。显式特征包括参考时间和片段的品牌,时间通常与文本片段明确关联,品牌信息可通过简单的关键词搜索提取。隐式特征包括情感信息和地理位置(如果未明确提供)。标注阶段的结果将进行转换并加载到数据仓库中,ETL过程包括数据转换、清理和聚合,最终目的是计算各种品牌分析指标,用于进一步分析。
4. 数据标注
在标注阶段,从收集的数据开始,对其进行品牌、时间、位置和情感信息的标注。品牌和时间信息可通过标准关键词搜索轻松获得,而位置和情感标注的分析技术通常因数据类型而异。
-
情感标注
:
- 亚马逊评论的情感标注依赖于现有的评分(1、2为负面;3为中性;4、5为正面)。
- 对于推文和新闻,采用自然语言处理(NLP)和机器学习方法。
- NLP方面,考虑了SENTIWORDNET,它是WORDNET的情感分析扩展,为每个WORDNET同义词集关联三个数值分数。还考虑了Google NLP,它可以确定文本中表达的整体态度,并给出分数和情感强度值。
- 机器学习方面,首先使用SK - learn实现了基本分类器(如随机森林、逻辑回归和KNN),在由5000多个标记推文和约160万条推文组成的语料库上进行训练。由于经典机器学习方法在实验中未能生成足够准确的模型,因此采用了深度学习(DL)方法,具体是长短期记忆(LSTM)网络。使用Keras库在相同数据集上训练模型,输入层将每个原子词嵌入到预定义向量空间的实值向量中,训练Word2Vec进行词嵌入。为避免模型过拟合,使用了dropout层,最后通过sigmoid函数计算文本具有积极情感的概率,并将其转换为情感标签(分数≤0.4为负面,0.4 <分数< 0.7为中性,分数≥0.7为正面)。
-
位置标注
:
- 对于推文地理定位,使用Geoloc算法,它将地球表面离散化为固定大小的正方形单元格,将地理定位建模为分类任务。使用一组4000条已由Twitter标注的推文和模型提供的近500万条推文训练该模型。Geoloc以推文为输入,输出坐标,然后使用GeoSPARQL查询特定的众包地理本体(如Geonames和Open Street map)来丰富坐标信息。
- 对于新闻数据,由于可用的地理定位数据集较少且较旧,因此开发了自己的方法。分两轮从新闻数据集中提取地理地名,首先使用Google实体分析云服务提取文本中引用的实体,然后基于DBPedia为每个识别的国家添加首都作为城市,为每个识别的城市添加相应的国家。如果新闻内容中未找到位置实体,则采用与推文标注相同的过程。
5. 品牌忠诚度分析的数据仓库
为了分析标注数据,设计了专门的数据仓库,包括两个数据集市:
|数据集市|描述|
| ---- | ---- |
|股票市场数据集市|提供给定日期品牌的股票市场指标,包括开盘价、收盘价、最高价和最低价|
|品牌忠诚度数据集市|每个事实对应使用给定技术计算的客户意见,与给定品牌、日期、城市和社区相关。社区代表收集文本的媒体(亚马逊产品评论、Twitter和新闻),仅对于新闻,社区可以具体到特定数据源。客户意见通过以下关键绩效指标(KPI)来表示:|
|客户体验(CE)|包括具有负面、正面或中性情感的文本数量;每种情感类型的情感比率;品牌趋势(即一组文本与总标注文本数量的比率)|
|客户满意度(CS)|当文本为评论时,计算满意度分数,即评论中的平均评级值|
|客户互动(CI)|当文本为推文时,通过客户参与度来衡量,即每条推文中引用状态、转发和收藏选择的数量之和|
数据仓库的设计基于维度事实模型,两个数据集市结合起来可以分析客户意见对股票变化的影响。
6. 实验结果
为了讨论该方法在品牌忠诚度分析中的灵活性,下面将先介绍如何针对三个重要的ICT品牌(华为、三星和苹果)定制管道,然后展示一些初步实验结果。
-
实验设置
:
- 为了证明管道的有效性,在2019年2月至5月的时间窗口内,从三个社区(亚马逊产品评论、Twitter和新闻文章)挖掘与这三个品牌相关的数据,并根据选定的品牌名称过滤文本片段。
- 对于新闻,使用News API获取“头条新闻”和“所有新闻”,为避免过多的中性分类,仅对每条新闻的摘要(最多250个字符)进行标注,并将搜索限制在“技术”主题。
- 对于亚马逊产品评论,开发了自定义爬虫来挖掘与相关品牌产品有关的评论。
- 对于Twitter,使用Streaming API收集参考推文。
- 股票价格数据使用Yahoo Finance API收集。
- 数据收集量总结如下表:
|社区|数据量|
| ---- | ---- |
|亚马逊产品评论| [具体数量] |
|Twitter推文| [具体数量] |
|新闻文章| [具体数量] |
实验实现遵循典型的ETL方法,从上述数据源提取数据,使用第4节讨论的算法和工具进行标注和转换,计算第5节描述的指标,最后将其存储到数据仓库中。
通过对这三个品牌的分析,初步结果展示了不同评估指标可能带来不同的结果,体现了该品牌忠诚度分析方法的灵活性和多维度性。不同的数据源和评估指标可以为品牌分析提供更全面的视角,帮助企业更好地了解客户对品牌的态度和行为,从而做出更明智的决策。
通过社交媒体挖掘衡量品牌忠诚度的管道
7. 不同情感分析方法对比
为了进一步评估不同情感分析方法的效果,对三个品牌(苹果、华为、三星)使用不同方法进行了情感分析,结果如下表所示:
| 品牌 | DL | WordEmb | LSTM | Google NLP | WordNetLexicon |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 苹果 | 0.52 | 0.59 | 0.53 | | |
| 华为 | 0.58 | 0.51 | 0.53 | | |
| 三星 | 0.56 | 0.59 | 0.54 | | |
从表中可以看出,不同的情感分析方法对于同一品牌可能会得出不同的结果。例如,对于苹果品牌,WordEmb方法得出的结果为0.59,而DL方法为0.52。这表明在进行品牌分析时,选择合适的情感分析方法至关重要,不同的方法可能会导致对品牌情感倾向的不同判断。
8. 品牌忠诚度分析流程总结
整个品牌忠诚度分析流程可以总结为以下步骤:
graph LR
A[数据收集] --> B[数据标注]
B --> C[数据仓库存储]
C --> D[指标计算]
D --> E[品牌分析]
- 数据收集 :从Twitter、新闻和亚马逊等数据源爬取相关的文本片段。
-
数据标注
:对收集到的文本片段进行品牌、时间、情感和位置等信息的标注。
- 情感标注:根据不同数据源采用不同方法,如亚马逊评论根据评分,推文和新闻采用NLP和机器学习方法。
- 位置标注:推文使用Geoloc算法,新闻根据自身开发的方法或推文标注方法。
- 数据仓库存储 :将标注后的数据存储到专门设计的数据仓库中,包括股票市场数据集市和品牌忠诚度数据集市。
- 指标计算 :根据数据仓库中的数据计算各种品牌分析指标,如客户体验、客户满意度和客户互动等方面的指标。
- 品牌分析 :通过对计算得到的指标进行分析,了解品牌的忠诚度情况,以及不同评估指标对品牌分析结果的影响。
9. 关键技术点分析
在整个品牌忠诚度分析过程中,涉及到多个关键技术点:
-
数据爬取
:需要针对不同的数据源开发相应的爬取工具,如使用News API获取新闻数据,开发自定义爬虫获取亚马逊产品评论,使用Streaming API收集Twitter推文。
-
情感分析
:综合运用NLP和机器学习方法,尤其是深度学习中的LSTM网络,以提高情感分析的准确性。在实验中,经典机器学习方法未能生成足够准确的模型,而LSTM网络通过考虑词的上下文信息,能够更好地进行情感分类。
-
地理定位
:对于推文和新闻采用不同的地理定位方法,推文使用Geoloc算法,新闻结合Google实体分析和DBPedia等工具。同时,利用众包地理本体(如Geonames和Open Street map)来丰富坐标信息。
-
数据仓库设计
:设计合理的数据仓库结构,包括两个数据集市,能够有效地存储和管理标注后的数据,并支持从多个维度进行品牌忠诚度分析。
10. 总结与展望
通过对三个知名ICT品牌的分析,展示了通过社交媒体挖掘衡量品牌忠诚度的管道的有效性和灵活性。不同的评估指标可能导致不同的结果,说明在品牌分析中没有单一的主导指标,需要综合考虑多个因素。
未来,可以进一步优化该管道,例如:
- 扩大数据源的范围,收集更多类型的社交数据,以更全面地了解品牌形象。
- 改进情感分析和地理定位方法,提高数据标注的准确性。
- 深入研究不同评估指标之间的关系,开发更综合的品牌忠诚度评估模型。
通过不断地改进和完善,该管道可以为企业提供更准确、更有价值的品牌分析结果,帮助企业更好地管理客户关系,提升品牌竞争力。
超级会员免费看
37

被折叠的 条评论
为什么被折叠?



