项目实训第十一周(5.10-5.16)[基于关键词的文本数据清洗]

本文讨论了在项目实训中如何避免繁琐的解码编码过程,通过直接处理关键词,简化问题表述,转向使用向量问题,以提高效率并牺牲部分可解释性。关键词提取和筛选有助于抓取关键信息,如考生答案中的核心内容。

在经过一个五一小长假,我们得到了极大的休整。我们在一起商量的时候,碰撞出一些火花,对第二种思路产生了极大的影响。按照项目实训第五周的设想,我们要得到具体的问题,然后在对问题进行回答。这中间给人一种感觉,问什么我要先生成问题成文本,但是在对生成的文本进行回答时还需要把文本转变成变量呢?其实道理很简单,可以认为这样操作具有极高的可解释性。但是鉴于学长给我们指出可以不用管什么方式,甚至说根本不需要生成问题,就可以完成分类的操作,就是我们真正想要的东西。就好比我们去隔间洗澡,衣服也脱了,发现淋浴头坏了,我们要换个隔间。这时候,我们不在乎面子问题,就完全没必要穿好脱的所有衣服再出去,这就非常麻烦了。所以我们打算我们不生成文本问题,而是生成向量问题,这样不就能更好的避免先解码再编码的复杂过程,当然,方便的同时,我们损失了可解释性,毕竟,有得就有失嘛。
我个人又对数据进行进一步的处理,主要完成基于关键词的文本数据处理。我发现,在考生答案里,有许多考生答案长篇大论,但是都不在点上,所以需要对一些“废话”进行剔除。这里我想到,借用关键词对文本进行筛选,将会大大降低废话的概率。现在第一步,如何得到关键词。这里,我经过搜索,发现jieba库里有jieba.analyse.textrank(sentence, topK=20),这将提供给我最为基础的关键词,topK参数是选取排名的数量。但是对于问答题,还需要考虑实例,比如我们的选题中有张某与李某,所以这也得算作关键词的一员,需要人为添加。思路解释清楚了,直接放代码。

import jieba.analyse
import pandas as pd
import csv

def keywords(sentence):
    '''
    取前句子中二十个关键词
    :param sentence: 句子
    :return: 关键词列表
    '''
    keywords = jieba.analyse.textrank(sentence, topK=20)
    return keywords

def select(sentence,keywords):
    '''
    筛选句子中含有关键词的部分,并做符号清洗
    :param sentence: 句子
    :param keywords:关键词列表
    :return:筛选后的句子
    '''
    result = []
    new_sentence = []
    sentence = sentence.replace('<p>', ',').replace('</p>', ',')\
            .replace('<P>', ',').replace('</P>', ',')\
            .replace('&nbsp;', ',').replace('、',',')\
                .replace('</>',',').replace('<br>',',').replace('<BR>',',')\
                .replace(' ','').replace('\n','').replace('。',',').replace(':',',').replace('"','')\
    .replace('.',',').replace('(',',').replace(')',',').replace('《','').replace('》','')
    splited = sentence.split(',')
    for s in splited:
        for keyword in keywords:
            if keyword in s:
                result.append(s)
        else:
            pass
    for juzi in result:
        if juzi not in new_sentence:
            new_sentence.append(juzi)
    list = [str(i) for i in new_sentence]
    new_sentence = ','.join(list)
    print(new_sentence)
    return new_sentence

内容概要:本文系统阐述了企业新闻发稿在生成式引擎优化(GEO)时代下的全渠道策略效果评估体系,涵盖当前企业传播面临的预算、资源、内容效果评估四大挑战,并深入分析2025年新闻发稿行业五大趋势,包括AI驱动的智能化转型、精准化传播、首发内容价值提升、内容资产化及数据可视化。文章重点解析央媒、地方官媒、综合门户和自媒体四类媒体资源的特性、传播优势发稿策略,提出基于内容适配性、时间节奏、话题设计的策略制定方法,并构建涵盖品牌价值、销售转化GEO优化的多维评估框架。此外,结合“传声港”工具实操指南,提供AI智能投放、效果监测、自媒体管理舆情应对的全流程解决方案,并针对科技、消费、B2B、区域品牌四大行业推出定制化发稿方案。; 适合人群:企业市场/公关负责人、品牌传播管理者、数字营销从业者及中小企业决策者,具备一定媒体传播经验并希望提升发稿效率ROI的专业人士。; 使用场景及目标:①制定科学的新闻发稿策略,实现从“流量思维”向“价值思维”转型;②构建央媒定调、门户扩散、自媒体互动的立体化传播矩阵;③利用AI工具实现精准投放GEO优化,提升品牌在AI搜索中的权威性可见性;④通过数据驱动评估体系量化品牌影响力销售转化效果。; 阅读建议:建议结合文中提供的实操清单、案例分析工具指南进行系统学习,重点关注媒体适配性策略GEO评估指标,在实际发稿中分阶段试点“AI+全渠道”组合策略,并定期复盘优化,以实现品牌传播的长期复利效应。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值