- 博客(33)
- 收藏
- 关注
原创 大连指令数据集的创建--数据收集与预处理_02
(1)日期处理:识别形如 `YYYY/MM/DD` 的日期,提取中文月份和季节(依赖 `chinese_months` 和 `get_season`)。4.3配置文件路径和ChromeDriver路径,根据自己的Chrome的chromedriver.exe的路径配置ChromeDriver路径,根据自己存放链接的位置配置文件路径。- 大于等于99的数字添加“元”(如 `100` → `"100元"`,表示金额)。- 小于99的数字添加“天”(如 `30` → `"30天"`,表示天数)。
2025-02-25 17:00:31
915
原创 大连本地知识库的搭建--数据收集与预处理_01
7.打开马蜂窝网站并搜索“大连”,crawl_category()函数获取攻略和游记的链接,crawl_content()函数爬取指定链接的内容,最后获得爬取攻略和游记内容。5.为了防止爬取的时候出现中断,采取get_links(file_path)函数从文件中读取已爬取的链接来解决中途爬取中断的问题,从而在上次中断的位置继续爬取。4.配置文件路径和ChromeDriver路径,下载对应Chrome浏览器版本的chromedriver.exe文件。6.初始化Selenium WebDriver。
2025-02-24 14:47:17
333
原创 结构化技能之特征筛选
2.线性模型和树模型有不同的特征重要性衡量方法,如线性模型的系数和树模型的节点分裂信息增益。4.非重要性特征筛选通过打乱标签顺序观察特征重要性变化来判断特征与标签的相关性。1.特征筛选是选择有效特征子集的过程,旨在从原始特征空间中选出最有效的特征。3.通过统计值分析,可以剔除信息量小、缺失比例高或与标签相关性弱的特征。2.常用的统计指标包括方差、缺失比例、分布一致性以及与标签的相关性。1.基于统计值的特征筛选依据特征的统计特性进行筛选。1.模型特征筛选通过衡量特征对模型精度的影响来进行。
2024-08-14 10:33:46
488
1
原创 结构化技能之特征工程
对于类别字段,为了避免标签信息泄露,可以使用平均值来代替某个取值对应的标签。缺点:容易过拟合,和标签泄露。4.顺序编码ordinal encode:识别字段的大小关系,需要人工进行参与,而且对字段有一定的理解,用顺序编码是比较好。5.binary encode:与onehot差不多,但是是以二进制的形式进行编码,是onehot的一种压缩版本。2.数值型特征的处理包括取整和分箱,目的是减少取值空间的精确度,防止模型过拟合。3.日期字段的处理需要注意信息泄露问题,特别是在标签存在先后次序的情况下。
2024-08-11 10:34:57
494
原创 自然语言处理学习--3
这使得输出维度不受输入拼音序列的长度的影响。这种方法的优势在于:字形信息:通过图像嵌入(image embeddings)将汉字的字形信息引入,捕捉汉字的结构和笔画细节。对于每个汉字,首先将其字符嵌入、字形嵌入和拼音嵌入层连接起来,然后通过全连通层映射到d维嵌入,形成融合嵌入。模型的输入是可学习的绝对位置嵌入和融合嵌入的相加,其中融合嵌入是基于相应字符的字符嵌入、字形嵌入和拼音嵌入。ChineseBERT的模型架构在传统BERT的基础上增加了两个额外的嵌入层,一个用于字形信息,另一个用于拼音信息。
2024-07-04 19:37:11
1207
原创 论文1--ViT
vit结构是因为看到transformer在nlp很好用,transformer的scale能力强,就想在cv上用,使用的时候做了最小的改动,简单来说就是把图片切分重排,当做输入。(1)transformer在NLP很强,但在CV的应用还非常有限,在此之前只有目标检测中的DETR大规模使用了transformer,其他领域很少,而纯transformer结构的网络则是没有。Q,K,V的获得,本质是输入的线性变换,采用矩阵乘法计算,通过nn.Linear实现。可以联想以前的kv键值对,只是多了一个q查询。
2024-06-30 23:59:37
512
原创 文本预处理1--去除#和句号之间内容
针对文本里特定两个符号之间内容的去除,本次选取#和句号之间的内容进行去除。大家可以根据自己的实际需求修改代码实现自己的文本内容的整理。下面是去除#和句号之间内容的python代码:其中读取的是txt文本,处理后的内容写回原txt文件。
2024-06-19 11:14:27
648
原创 NLP--逻辑回归
如何解决二元分类问题,除了上节我们谈到的贝叶斯分类器,我们可以通过计算数据属于不同类别的概率进行分类的逻辑回归。虽然有回归二字,但逻辑回归解决的是分类问题,也可以用于两类以上的多分类问题。一般将映射后的值0.5作为阈值,大于0.5分类为1,小于0.5分类为0。面对多元问题时,即多个特征时,对不同特征乘以对应权重,再加上偏置来计算最后的值。逻辑回归需要用最大似然方法求解参数,甄别出在不同的参数分类都正确的情况下,哪组参数是最好的。3.逻辑回归算法步骤。
2024-06-12 16:44:44
539
原创 NLP--朴素贝叶斯
1.在很多时候,我们不能像抛硬币一样通过客观性的方式来得到正反面的概率,而是常常遇到主观性的概率时,我们就不得不提及贝叶斯学派。贝叶斯概率是一种对概率的解释。因此,贝叶斯原理更符合人们的认知习惯。(1)多项式朴素贝叶斯适合特诊属于类别的数据。(2)高斯朴素贝叶斯适合特征属于连续性的数据,其中假设不同特诊下的数据符合正态分布。2.朴素表示假设样本的特诊之间是相互独立的。它最大的一个优势是基于少量数据就可以进行训练。(3)伯努利朴素贝叶斯假设特征数据服从于0,1二分类的情况。
2024-06-10 23:39:26
948
原创 NLP--机器学习
4.情感分析:机器学习的本质是优化问题,可以分为分类,回归,聚类,降维四类问题。(4)强化学习是做了一系列的动作以后给出一个估值,告诉你做了这个大概打了多少分,强调的是智能体如何与环境互动,以取得最大化的预期利益。3.分类:机器学习分为有监督学习,半监督学习,无监督学习,强化学习和迁移学习。(1)有监督学习可以看作为有答案学习,通过给定的问题和答案,机器学习不断的学习训练,从而得到最佳的学习效果。(2)无监督学习是通过没有事先标注好的标签数据,从学习海量数据中,寻找内部规律的方式。
2024-06-05 16:12:20
715
原创 NLP--词袋模型
2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。4.建立词袋模型:for语句建立词袋模型,只包含0和1。
2024-06-04 16:57:16
722
原创 NLP--关键词
词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。1.词频统计:统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。
2024-06-03 22:39:17
965
原创 NLP--数据清洗
二、词性标注:词性的数量是有限的,通过词性标注更好的对文本进行分析。使用jieba库自带的posseg函数对去停用词后的文本进行词性标注。对于爬取的文本进行数据分析之前,需要对文本先进行清洗和整理。一、去停用词:建立停用词表,实际上就是在文本文件中输入想要删除的词。(3)将去停用词后的文本存到txt文本中。
2024-06-02 14:40:02
608
原创 NLP--数据获取
2.解析网页数据:调用Beautiful Soup库进行网页解析。根据解析出的内容进行分析,选取需要爬取的解析内容进行输出。3.存储网页数据:遍历选取的解析内容获取其中的文本,并存储到txt文档里,获得需要爬取的内容。收集文本数据是第一个必经之路,对一些开发的文本数据进行有目的的爬取。1.爬取网页数据:调用Requests库进行网站请求。
2024-06-01 11:12:16
395
原创 NLP--情感词典
缺点:依赖于情感词典的构建,对于新出现的网络词效果不好,需要不断扩充才能满足需要。在跨领域和跨语言效果不是很理想。考虑不到上下文之间的语义关系。优点:基于词典和规则的模式可以随时添加和删除词语和规则,在情感词覆盖率和准确率高的情况下,情感分类效果比较准确。1.建立积极情感词典,消极情感词典,程度词词典和否定词词典。4.输出最后的积极情感分值,消极情感分值和情感总分值。3.遍历分词后的文本列表。2.调用jieba进行分词。
2024-05-31 13:57:45
734
原创 NLP--情感分析第一步分词
除了jieba外,还有分词工具,比如snowNLP,PkuSeg,THULAC,HanLP等。其中,snowNLP除了分词外一个亮点是可以快速判断一句话的情感倾向,因为语料库是电商评论数据,对电商评论准确率较高。在英文中根据空格就可以直接分词。中文分词比英语的难很多,可以采用基于词典分词,基于语法分词,基于统计分词。常用的分词工具是jieba,又叫结巴,当将一个一个词分开时,读起来就像结巴一样,十分形象。(3)搜索引擎模式:在精确模式基础上对长词再次划分,提高召回率,适合用于搜索引擎分词。
2024-05-30 17:10:19
453
原创 NLP--主要应用领域
2.信息提取:类似于对图书馆中的书籍进行管理,管理系统需要书名,作者,版本号等关键信息,信息提取就是将这些信息提取并整理成数据库。6.文本生成:包括文本到文本,数据到文本,图像到文本。比如清华大学的九歌系统和华为的乐府都可以根据用户输入的关键字来生成内容相符的诗歌。5.机器翻译:从基于词典的翻译到规则式翻译再到统计和概率学翻译最后到深度神经网络的翻译,在翻译精度上有了很大提升。比如情感的积极和消极的二分类或者正向和中立和负向的三分类。1.文本分类:将文本根据一定条件进行分类,比如过滤垃圾邮件。
2024-05-29 23:11:21
903
原创 学习方法--NLP入门
Jurafsky和Martin的Speech and Language Processing是领域内的经典教材,对于NLP任务有基本认识,遇到问题知道在书的哪个地方还是非常有意义的。通过简单的N-gram模型实现,可以告诉你这个数据集的语言模型的下限,神经网络模型至少不应该比这个模型差。相比简单粗暴的神经网络模型,早年的NLP算法确实比较繁琐复杂,但里面有很多早年学者在硬件条件艰苦情况下的智慧结晶。NLP领域里面一些重要的文章其实或多或少借鉴了CV里面的思想,当然也同样出现CV借鉴NLP的情况。
2024-05-27 16:00:50
959
原创 学习方法--如何写出第一篇论文?
一般要给出实验的目的,要检验什么,实验的方法,数据从哪里来,多大规模。同时为了与已有工作比较,需要引用已有工作的结果,必要的时候需要重现重要的工作并报告结果。要对实验结果好好分析你的工作与别人的工作的不同及各自利弊,并说明其原因。然后介绍对这个问题,现有的方法是什么,有什么优点。本文针对这个问题,受什么方法之启发,提出了什么新的方法并做了如下几个方面的研究。有的时候东西太多,篇幅有限,只能介绍最重要的部分,不需要面面俱到。记住,漏掉了一篇重要的参考文献(或者牛人的工作),基本上就没有被录取的希望了。
2024-05-26 14:56:01
505
原创 学习方法--如何选择自己第一个研究方向?
1.先找到自己喜欢的研究领域或者导师给定的研究领域。在选题的时候,多注意选择蓝海的领域。因为蓝海的领域,相对比较新,容易出成果。注意做实验的时候,不要贪多,每次实验只需要验证一个想法。每次实验之后,必须要进行分析存在的错误,找出原因。(1)找到本领域的开源项目或者工具,仔细研究一遍现有的主要流派和方法;(2)反复阅读该领域最新发表的文章,多阅读本领域大牛发表的文章。(1)方法方面,是否有一套比较清晰的数学体系和机器学习体系;(2)数据方面,有没有一个大家公认的标准训练集和测试集;
2024-05-25 13:28:53
619
原创 学习方法--如何在NLP领域快速学会第一个技能?
4.根据项目提供的测试集“测试自己实现的程序。如果输出的结果与项目中出现的结果不一致,就要仔细查验自己的程序,反复修改,直到结果与项目中出现的结果基本一致。3.深入理解开源项目,自己编程实现一下这个项目,训练出自己的模型。简单概括就是:找项目→运行成功→手动实现→运行成功→改进。1.找到一个开源项目。比如机器翻译或者深度学习的项目。5.尝试能否进一步完善算法,取得比该项目更好的结果。2.理解并运行该开源项目,得到正确的结果。
2024-05-24 20:38:48
506
1
原创 论文规范--展望
2.展望部分不用说自己还有什么不足,简洁明了直接说明本文研究了什么,未来还能从哪几个角度研究就可以了。3.论文规范中摘要,文献综述,正文,实验和展望五个部分内容已经更完,欢迎大家在评论区学习交流!1.展望部分不要超过研究的点,例如:研究提出三个点,展望要低于三个点。
2024-05-23 11:05:16
340
3
原创 自然语言处理学习--2
给定a𝑖和T(a𝑖),我们选择一个标签𝑡 ∈ T(a𝑖),该标签至少与a𝑖(i.e., < 𝜙(𝑡),𝜙(𝑤) >) ≥ 𝑚𝑖𝑛_𝑡𝑎𝑔_𝑠𝑖𝑚)中的一个单词𝑤接近。增强是使用类似广告的文本以及类似广告图像中的图像标签以无监督的方式完成的,同时使用sentence-bert(SBERT)嵌入的方式引入广告类别特定的偏见。增强相似的广告文本。按照出现的顺序对广告文本a𝑖中的单词进行迭代,并选择高于𝑚𝑖𝑛_𝑤𝑜𝑟𝑑_𝑠𝑖𝑚相似度阈值(使用SBERT嵌入,输入广告文本a𝑖与候选单词𝑤之间的余弦相似度)的单词。
2024-05-23 10:52:54
1186
原创 论文规范--摘要和文献综述和实验三部分相同内容编写的区别
2.区别在于:摘要直接一句带过,实验重点说展开说;文献综述用未来的方式说,采用去掉"了"的方式;实验用完成时的方式说,采用加上"了"的方式。1.摘要和文献综述和实验三个部分都要写针对什么什么不足,我们研究了什么。虽然写一样的事情,但不能照搬复制而是要有所区别。3.下次更新论文规范中展望的内容。
2024-05-22 10:35:16
603
原创 论文规范--正文
1.在正文中可以把工作量揉在现有的研究中,不要分开讲,会显得工作量少,让研究的那点工作量特有话。3.下一期更新:摘要和文献综述和实验三个部分都要写针对什么问题,提出了什么方法的区别。2.举例说明:用你那个领域的名词代替别人研究的通用的公式。
2024-05-21 21:32:53
449
原创 论文规范--文献综述
3.举例说明:图像分类的综述可以先从传统的分类,现代的分类,再到深度学习的分类的顺序进行综述。1.文献综述的目的:是为了引出现有方法有什么问题。2.引用高质量的参考文献。
2024-05-21 09:37:07
593
原创 自然语言处理学习--1
这一层的目标是将一个句子的每个上下文嵌入(时间步长)与另一个句子的所有上下文嵌入(时间步长)进行比较。在相同方向上,将一个句子p的每个上下文嵌入(时间步长)与另一个句子q的每个上下文嵌入(时间步长)进行比较。通过加权求和句子q的所有上下文嵌入(时间步长)计算句子q的注意力向量。在相同方向上,将一个句子p的每个上下文嵌入(时间步长)与另一个句子q的每个上下文嵌入(时间步长)进行余弦相似度的计算。在相同方向上,将一个句子p的每个上下文嵌入(时间步长)与另一个句子q的最后一个上下文嵌入(时间步长)进行比较。
2024-05-20 20:31:47
1065
3
原创 看论文方法
例如找一百篇,先看摘要,从100篇选20篇,然后大致浏览这20篇内容,找5篇细看。4.运用了什么算法、数据来源、如何训练模型。3.此方法与之前的方法区别。
2024-05-20 16:41:20
227
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人