2018年招商银行FinTech精英训练营复赛

本文介绍了作者参加2018年招商银行FinTech精英训练营复赛的经历,赛题要求通过文本相似度算法寻找新闻的历史匹配。作者提出了一种基础思路,包括数据预处理、TF-IDF和余弦相似度计算,以解决新闻文本的相似性匹配问题。同时,文章简要科普了文本相似度的计算方法和字符编码知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

过了初赛就可以参加复赛,我初赛200+名(及格上榜的好像就400多人,具体名次我也不记得了),招行5.20给发了99.9的红包,很大方了~~~

赛题背景    

财经新闻作为重要却海量的投资数据,无时无刻不在影响着投资者们的投资决策,为了更好地提示客户当下新闻事件对应的投资机会和投资风险,本课以研发“历史事件连连看”为目的,旨在根据当前新闻内容从历史事件中搜索出相似新闻报道,后期可以结合事件与行情,辅助客户采取相应投资策略。    

该赛题是让参赛者为每一条测试集数据寻找其最相似的TOP 20条新闻,我们会根据参赛者提交的结果和实际的数据进行对比,采用mAP值作为评价指标。

具体实现

该题是一道文本相似度的题目,(我想也可以理解看成聚类啊,分类,具体如何操作我尚未试验)

讲一个小思路:

获取数据(读取中文文本)-->分词-->数据清洗(去掉停用词)-->计算tfidf--构建词袋模型转换为向量-->计算余弦相似度-->获取最相似的20条

额,这是一个baseline 的思路,比赛官方的结果还没有给出,我就先贴上自己baseline 的代码吧,其实还有很多要优化的地方,比如L:tfidf并不适合短文本,这样关键词提取上会出问题;另外VSM模型并不是计算相似性的最佳模型,个人见解,欢迎讨论.

科普一下:

常见的距离度量方法:

(1)欧式距离(2)Pea

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值