Dr.Petrichor
计算机专业博士研究生,华为云计算专家,优快云博客专家,优快云人工智能领域优质创作者,现主要研究Python数据分析、机器学习、NLP相关领域内容。
展开
-
基于逻辑回归进行THUCNews文本分类
基于逻辑回归进行THUCNews文本分类的项目背景主要涉及数据集的选择与利用、文本分类任务的定义、逻辑回归模型的应用与比较、实际应用场景的支持,以及特征工程和模型评估技术。通过这一项目,研究者可以深入理解逻辑回归在文本分类中的应用,并为后续更复杂的模型提供基线参考。原创 2024-10-28 23:25:58 · 419 阅读 · 0 评论 -
Jieba分词并去停用词
百度网盘地址在链接: https://pan.baidu.com/s/1KBkOzYk-wRYaWno6HSOE9g 提取码: 4sm6。停用词表 stopwords.txt,四川大学和哈工大的自己选择。微博原始数据 all_data.txt(示例)处理结果 out.txt(示例)采用Jieba分词并去停用词。原创 2021-11-19 23:04:02 · 12024 阅读 · 11 评论 -
F1-score值计算
F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。1. TP、TN、FP、FN解释说明真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例) 行表示预测的label值,列表示真实label值 TP:True Positive, 被判定为正样本,事实上也是原创 2021-06-25 10:47:27 · 33782 阅读 · 5 评论 -
企业多维要素综合评分
目录一、数据获取二、数据清洗1. 注册资本2.实缴资本-非注册资本三、计算分值1. 计算实缴资本分值2. 计算注册资本分值3. 企查查法律文书信息评分(负面评分)4. 企查查行政cf信息评分(负面评分)5. 计算参保人数分值6. 计算总分值三、后续一、数据获取import pandas as pdio = r'C:\Desktop\企查查下载\龙头企业数据评分.xlsx'data = pd.read_excel(io, sheet...原创 2021-10-18 00:06:23 · 539 阅读 · 0 评论 -
上海市高等学校信息技术水平考试试卷及参考答案
2020年上海市高等学校信息技术水平考试试卷四级 人工智能(自然语言处理与识别方向 模拟卷)(本试卷考试时间 150 分钟)一、单选题 ( 本大题 15 道小题 ,每小题 1 分,共 15 分),从下面题目给出的A、B、C、D四个可供选择的答案中选择一个正确答案。1.在回归模型中,下列____在权衡欠拟合和过拟合中影响最大。A.多项式阶数B.更新权重 w 时,使用的是矩阵求逆还是梯度下降C.使用常数项D.增加数据量答案:A2.A和B分别代表两个事件,如果P(A, ..原创 2021-07-28 22:10:48 · 6120 阅读 · 1 评论 -
多项式回归的Python实现
设多项式将参数和训练数据都作为向量来处理,可以使计算变得更简单。 由于训练数据有很多,所以我们把1 行数据当作1 个训练数据,以矩阵的形式来处理会更好。 矩阵与参数向量θ 的积如下...原创 2021-07-18 23:54:56 · 1820 阅读 · 7 评论 -
一次函数回归Python实现
一、确认训练数据x y 235 591 216 539 148 413 35 310 85 308 204 519 49 325 25 332 173 498 191 498 134 392 99 334 385 112 387原创 2021-07-18 12:06:47 · 710 阅读 · 1 评论 -
Jieba分词控制分词粒度
目录前言一、jiaba分词二、jieba分词粒度的控制方法一:动态控制方法二:自定义词典前言Jieba分词的时候会出现我们需要的词被切分开来,如“机器学习”会被切分为“机器”和“学习”,“人工智能”可能被切分为“人工”和“智能”,“深度学习”会被切分为“深度”和“学习”,这样在我们构建语料和词频统计的时候,难免会造成构建的词库不是我们理想中的状态。我们以知网摘要为例子,我们采集人工智能相关的文献,对摘要进行切分词。原语料如下:打印摘要这一列:一、jiaba..原创 2021-12-07 16:00:29 · 3054 阅读 · 2 评论 -
机器学习模型评估
目录一、交叉验证1.回归问题的验证2.分类问题的验证3.准确率和召回率二、正则化1.过拟合2.正则化3.正则化效果4.分类的正则化5.包含正则化项的表达式的微分三、学习曲线1.欠拟合2.区分过拟合与欠拟合一、交叉验证1.回归问题的验证把获取的全部训练数据分成两份:一份用于测试,一份用于训练。然后用前者来评估模型。假如有10 个训练数据,大多数情况会采用3 : 7 或者2 : 8 这种训练数据比例。假如我们用3 个用于测试、7 个用于...原创 2021-07-17 22:34:21 · 466 阅读 · 2 评论 -
编辑距离算法(Edit Distance)
目录概念算法过程Python实现概念编辑距离的作用主要是用来比较两个字符串的相似度的基本的定义如下所示:编辑距离,又称Levenshtein距离(莱文斯坦距离也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。这个概念是由俄罗斯科学家Vladimir Levenshtein在1965年提出来的,所以也叫 Levens.原创 2021-07-29 01:07:59 · 7660 阅读 · 1 评论 -
重叠社区发现算法LFM算法python源码含数据集
LFM算法是来源于论文《Detecting the overlapping and hieerarchical community structure in complex networks》,文档中包含该算法的python的源码,以及用到的数据集,仅供大家学习参考。使用networkx工具包实现了LFM社区发现算法,并提供了模块度评价方法和可视化的方法。数据分析结果和可视化图片都已保存在文件中,代码可直接运行。# -*- coding: utf-8 -*-"""Created on Mon原创 2021-08-15 09:35:20 · 1273 阅读 · 0 评论 -
傅立叶变换详细推理
目录一、三角函数的正交性二、周期为2π的傅立叶级数1.求a02.求an3.求bn三、周期为2L的傅立叶级数四、傅立叶级数的复数形式五、傅立叶变换(Fourier transfor)一、三角函数的正交性三角函数系(集合)即为与组成的集合,其中n=1,2,3...正交例如如上图函数的曲线图和知,求导等于面积相加,而一个周期内坐标轴上方的面积与下方的面积之和为0。易知同理推导以下式子(利用莱布尼兹公式):同理可...原创 2021-08-29 19:10:37 · 684 阅读 · 0 评论 -
基于Python的文本共现网络构建
目录一、共现分析概念二、共现类型三、代码实现3.1构造分词函数3.2字符串存储3.3构建字典3.4构建共现矩阵3.5主函数3.6Weight 大于 300四、导入Gephi 制作网络图4.1 下载安装Gephi4.2 绘制共现网络图五、如何利用CNKI制作关键词共现网络图一、共现分析概念“共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。 而“共现分析”是对共现现象的定量...原创 2021-12-08 23:54:05 · 8792 阅读 · 14 评论 -
拉格朗日中值定理
拉格朗日中值定理又称拉氏定理,是微分学中的基本定理之一,它反映了可导函数在闭区间上的整体的平均变化率与区间内某点的局部变化率的关系。拉格朗日中值定理是罗尔中值定理的推广,同时也是柯西中值定理的特殊情形,是泰勒公式的弱形式(一阶展开),在机器学习支持向量机等算法模型中有使用此定理。一、定理描述如果函数x满足:(1)在闭区间[a,b]上连续;(2)在开区间(a,b)上可导;在开区间(a,b)内至少有一点(a<<b)使等式...原创 2021-07-26 00:03:06 · 14624 阅读 · 0 评论 -
欧拉公式——宇宙第一公式
概述欧拉公式是数学里最令人着迷的公式之一,它将数学里最重要的几个常数联系到了一起:两个超越数:自然对数的底e,圆周率π;两个单位:虚数单位i和自然数的单位1,以及数学里常见的0。在介绍欧拉公式之前,我们先说一下泰勒公式:一、泰勒公式泰勒公式虽然形式不算复杂,但几乎所有的教材都是直接给出这个公式,然后再进行相应的结论证明,显得过于突兀,也不便于理解。尝试给出一种由基本的导数公式和极限定理推导泰勒公式的方法,希望能对读者诸君有所帮助。1.从一阶泰勒公式说起我们首先从一阶导数着手。..原创 2021-08-28 13:01:06 · 13022 阅读 · 1 评论 -
贝叶斯定理
一、概念朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上原创 2021-07-30 20:33:34 · 2545 阅读 · 1 评论 -
标签传播算法(LPA)
概述标签传播算法(LPA)是一种迭代算法,通过在数据集中传播标签,将标签分配给未标记的点。该算法由Xiaojin Zhu和Zoubin Ghahramani于2002年首次提出。LPA基于标签传播的局部社区划分。对于网络中的每一个节点,在初始阶段,Label Propagation算法对于每一个节点都会初始化一个唯一的一个标签。每一次迭代都会根据与自己相连的节点所属的标签改变自己的标签,更改的原则是选择与其相连的节点中所属标签最多的社区标签为自己的社区标签,这就是标签传播的含义了。随着社区标签不断传播。原创 2021-08-22 07:37:29 · 7325 阅读 · 1 评论 -
随机森林算法(Random Forest)Python实现
目录前言一、什么是Random Forest ?1.1什么是监督式机器学习?1.2 什么是回归和分类?1.3 什么是决策树?1.4 什么是随机森林?二、Random Forest 的构造过程2.1 算法实现2.2数据的随机选取2.3待选特征的随机选取2.4 相关概念解释三、 Random Forest 优缺点3.1 优点3.2 缺点四、Extra-Trees(极端随机树)五、Random Forest 的Python实现5.1 R.....原创 2022-01-01 19:14:05 · 66686 阅读 · 18 评论 -
无监督学习——K均值聚类的Python实现
机器学习类型和算法的分类无监督学习的数据集中没有输出标签y,常用的无监督学习算法有聚类和降维。概要聚类人有归纳和总结的能力,机器也有。聚类就是让机器把数据集中的样本按照特征的性质分组,这个过程中没有标签的存在。聚类和监督学习中的分类问题有些类似,其主要区别在于:传统分类问题也就是说,在对猫狗图像分类之前,我们心里面已经对猫、狗图像形成了概念。这些概念指导着我们为训练集设定好标签。机器首先是学习概念,然后才能够做分类、做判断。分类的结果,还要接受标签,也就是已有概念的检验。而聚类不同,原创 2021-08-20 18:40:39 · 5387 阅读 · 1 评论 -
机器学习——决策树(一)
目录一、概述1.组成2.基本流程二、划分选择1.信息增益2.增益率3.基尼指数三、剪枝处理1.预剪枝2.后剪枝四、特殊值处理1.连续值处理2.缺失值处理一、概述决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他原创 2021-07-31 22:49:10 · 2968 阅读 · 2 评论 -
基于关键词的文本领域匹配
目录一、研究问题二、研究思路三、技术路线3.1 构建领域概念网络3.2 文本与公司推荐匹配3.3公司与项目推荐匹配四、相关数据4.1 政府网站文本数据4.2 领域概念数据五、代码实现5.1 文本匹配领域5.2 企业匹配领域一、研究问题政府网站发布的文本信息,如何及时有效的推荐给相关企业,我们采用的是利用文本(项目文本)中的关键词与每个领域的概念描述(相关的关键词)进行匹配,得出结果,来判断文本与哪个领域关联性最强。二、研究思路..原创 2022-01-26 00:05:13 · 1630 阅读 · 0 评论 -
(1)hard-SVM(Support Vector Machine)
SVM我们都知道其经常被用来做分类问题,当计算机的能力不足时,SVM是一个最火的算法,直到多层神经网络算法的出现。原创 2021-07-28 23:45:45 · 382 阅读 · 0 评论 -
TF-IDF算法(原理+python代码实现)
目录前言一、TF-IDF的由来二、什么是TF-IDF?2.1 TF(Term Frequency)2.2 IDF(Inverse Document Frequency)2.3TF-IDF(Term Frequency-Inverse Document Frequency)三、TF-IDF应用四、代码实现4.1 常规Python实现TF-IDF4.2NLTK实现TF-IDF4.3Jieba实现TF-IDF算法五、TF-IDF不足之处六、TF-IDF...原创 2021-12-30 01:16:30 · 19126 阅读 · 5 评论 -
机器学习——决策树推导
一、C4.5算法概述while(当前节点“不纯”):1.计算当前节点的类别熵Info(D)(以类别取值计算)2.计算当前节点的属性熵Info(Ai)(按照属性取值下的类别取值计算)3.计算各个属性的信息增益Gain(Ai) = Info(D) - Info(Ai)4.计算各个属性的分类信息度量H(Ai)(按照属性取值计算)5.计算各个属性的信息增益率 IGR = Gain(Ai) / H(Ai)end whi...原创 2021-08-04 00:45:51 · 1672 阅读 · 0 评论