文章观点提取的几种测试

有需求要从文章里面如果有观点就摘出来,没有观点就放过去,在一开始的demo中我尝试了2种办法。


首先对文本进行一些必要的清洗处理,去掉无意义符号,去掉前后空格等等,然后将文章分割成N个句子,句子的分隔符以句号或感叹号等分句符进行判断。

然后对分割好的句子进行以下操作


1.使用依存句法分析

采取HanLP对句子进行依存句法分析,得到句子的语法树。使用一些观点句子进行测试,比如“XXX专家表示,XXXXXXXXXXXXXXXXXX”这种类型的句子,还是比较容易得到一个相对准确的语法树,观察了几组观点后却发现因为中文的表达方式太多,并不是所有可以被认为观点的语法树结构都相似,甚至几乎都是大相径庭,难以提取出一种可以用来识别观点语句的模式。也可能是工具的准确性问题,但我更倾向认为这是难以实现的,因为中文的表达方式实在太多了。


2.使用简单的关键字提取判断

通过整理一些观点的文章数据可以看出,大部分有价值的,可以认为是观点的句子一般都会带“表示,宣称,认为,透露”等等这一类动词,于是决定采用简单粗暴的以关键词来识别观点。当句子中只要出现了以上我们认为是观点动词时我们都会认为这是一句疑似观点句。然后对动词之前的句子进行分词,对比多个观点句的分词之后决定将所有词性为N开头,即词性为名词类的词连接起来,一般都可以得到一个相对准确的观点表达人。但是又会出现一些“XXX对记者表示”类型的句子,所以还添加了一步对谓词的过滤,尽量提取到我们认为是想要的句子。


实践最后采用了第二种办法,应用上的数据看起来效果还可以。有时候想想,在NLP的领域,有好多算法真的是难以施展拳脚,甚至不如一些土办法来的准确率可能高一些。保持学习的过程中,还是要多思考,不能盲目的去实践,结合论文和实际生产环境来判断应该使用什么方法。在这个问题上,由于针对的目标语句其实是具有比较明显特征的,所以土办法使用起来确实准确率较高。

<think>我们面对的问题是如何快速简略一篇文章。这通常涉及文章摘要(summarization)技术,目的是保留核心内容的同时减少篇幅。 方法包括手动方法和自动方法。自动方法可以使用文本摘要算法或工具。考虑到用户要求“快速”,自动方法是更合适的。 以下将介绍几种快速简略文章的方法,包括使用在线工具、软件功能和关键步骤。 方法1:使用在线摘要工具 目前有许多免费的在线文章摘要工具,如Resoomer、SMMRY、SummarizeBot等。这些工具通常基于提取式摘要(extractive summarization)算法,从原文中提取重要句子组合成摘要。 操作步骤: 复制原文粘贴到工具的输入框中,选择摘要比例(如30%),点击生成即可获得简略版。 优点:无需安装,即时可用,适合短文本。 方法2:使用文本处理软件的内置功能 Microsoft Word 和 Google Docs 提供“自动摘要”功能。 在Word中:打开文档 -> 导航到“审阅”选项卡 -> 点击“自动摘要” -> 选择摘要类型(如“在文档顶端插入摘要”)。 在Google Docs中:可通过插件(如“Text Summarization”)实现类似功能。 方法3:关键短语提取法(适合技术性文章) 对于技术文章,核心信息常包含在特定关键词和公式中。可以快速扫描文章提取: - 研究问题 - 方法(尤其是创新方法) - 主要结果(包括重要数据或公式) - 结论 例如,如果原文包含重要公式,如$$E=mc^2$$,则必须保留。 方法4:基于Python编程的自动摘要 对于有编程基础的用户,可以使用Python的NLTK或gensim库实现自动摘要。 示例代码(使用gensim): ```python from gensim.summarization import summarize text = "在此处粘贴长篇文章..." # 替换为实际文本 summary = summarize(text, ratio=0.3) # 保留30%的内容 print(summary) ``` 注意:此方法需要安装gensim库(`pip install gensim`),并且对中文文本需要先分词(使用jieba等)。 方法5:阅读时快速标记 如果是手动简略,可以边阅读边标记关键句(通常出现在段落首尾、转折词后)。然后重新组织这些句子形成简略文章。 注意事项: - 保持原文核心观点不变。 - 检查简略后的文章是否连贯。 - 自动工具可能不适用于高度专业化的文本(如法律文件),此时建议人工复核。 以上方法可根据时间、技术条件选择使用。 §§相关问题§§: 1. 有哪些免费的在线文章摘要工具推荐? 2. 如何用Python对中文文章进行自动摘要? 3. 自动摘要工具在处理技术性文章时的准确率如何?</think>### 如何快速简略一篇文章 #### 方法1:核心内容提取法 直接定位文章的核心元素: - **标题/副标题**:保留所有层级标题结构 - **首尾段**:提取引言段的背景说明和结尾段的结论 - **关键数据/结论**:用方框标注重要数据(如`[▲ 实验成功率: 92%]`)或公式(如$$P = \frac{F}{A}$$) - **删减冗余**:删除重复案例、修饰性形容词和次要例子 #### 方法2:技术工具辅助 使用AI工具自动压缩文本: - **在线工具**: - [Resoomer](https://resoomer.com):粘贴文本即时生成30%字数的摘要 - [SMMRY](https://smmry.com):支持URL输入和摘要长度调节 - **代码实现**(Python示例): ```python from sumy.parsers.plaintext import PlaintextParser from sumy.nlp.tokenizers import Tokenizer from sumy.summarizers.lsa import LsaSummarizer # 输入文本 parser = PlaintextParser.from_string("文章全文", Tokenizer("english")) summarizer = LsaSummarizer() summary = summarizer(parser.document, sentences_count=5) # 提取5句核心 for sentence in summary: print(sentence) ``` > 注:需安装`sumy`库,中文文本需替换`Tokenizer("chinese")`并配合分词工具 #### 方法3:结构化改写 按逻辑重组内容: 1. **问题陈述**:用1句话概括文章要解决的痛点 2. **方法论**:将过程描述转化为流程图符号(如`采集→分析→验证`) 3. **结果展示**:仅保留对比性结论(例:"方案A效率超B方案40%") 4. **行动建议**:将建议条目化为短句(`• 优先测试X场景 • 避免Y条件`) #### 验证要点 - **完整性检查**:确保保留数据来源(如`(Smith et al., 2023)`)和关键术语定义 - **可读性优化**:压缩后长句拆分,每段≤3行 - **效率提示**:技术类文章优先保留公式(如$$ \nabla \cdot \mathbf{E} = \frac{\rho}{\varepsilon_0} $$)和图表结论 > 实践案例:将2000字论文简略至300字 > 原始内容 → 保留标题+摘要 → 提取实验对比表 → 用符号替代过程描述(例:"▲优化后QPS: 1.2k → 3.4k")→ 删除文献综述
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值