从0基础入门NLP自然语言处理系列之命名实体识别(一)

什么是命名识别识别?

命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。

比如识别出下面句子中的人名(PER),地点(LOC),组织(ORG)

公开训练数据集
首先让我们来看看常见公开数据集

CoNLL 2003(https://www.clips.uantwerpen.be/conll2003/ner/)
这个数据集包括1393篇英语新闻文章和909篇德语新闻文章。英语语料库是免费的,德国语料库需要收钱(75美元)。英语语料实际上是RCV1(Reuters Corpus, Volume)

数据集的使用方式以及如何进行NER训练将下一章节《从0基础入门NLP自然语言处理系列之命名实体识别(二)》详细描述。

关注公众号“源码评测”,获取更多开源实战项目

爬取评论,你需要使用网络爬虫技术,结合Python的requests、BeautifulSoup或更现代的Selenium库(如果页面有JavaScript动态加载)。由于的反爬机制较为严格,直接爬取可能会遇到IP被封等问题,因此在开始之前,请确保你已经了解并遵守相关的法律和政策,包括可能存在的robots.txt规则。 以下是一个基本的步骤概述: 1. **分析网页结构**:首先访问某个视频的评论页,查看HTML结构,找到评论列表的部分。通常这种信息隐藏在`<div>`标签下,比如`class="comment_list"`这样的元素。 2. **发送请求**:使用requests库发送GET请求获取HTML源码。例如: ```python import requests url = "https://www.tiktok.com/video/xxxxx/comments" # 替换为实际的URL headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) ``` 3. **解析数据**:用BeautifulSoup解析返回的HTML,提取评论文本。例如: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'lxml') comments = soup.find_all('div', class_='comment_list_item') # 更改根据实际的CSS选择器 ``` 4. **处理数据**:遍历评论列表,提取每条评论的内容、用户名等信息,存储到文件或数据库中。 5. **异常处理**:考虑到可能遇到的网络问题、登录限制等因素,添加适当的错误处理和重试逻辑。 6. **设置频率限制**:避免过于频繁地请求,以免触发平台的反爬机制。可能需要设置合理的延时(time.sleep)。 记得,这只是一个基础框架,实际操作可能会因为的具体变化而有所不同。如果你遇到了动态加载的问题,可能需要使用Selenium配合WebDriver来模拟浏览器行为。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值