
机器学习
文章平均质量分 93
kevinQt
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
选址问题梳理汇总
最近论文涉及到选址问题,于是疯狂看各种文献,特别是网上各种博客、论坛中关于选址问题的解释。在这里结合我的研究一并讨论于此。部分内容属于网上转载。设施选址问题(Facility Location Problem)自20世纪60年代初期以来,在运筹学中一直占据着中心位置。它来自于工厂、仓库、超市、学校、医院、图书馆、火车站、代理服务器、传感器等位置的确定问题。 设施选址问题是NP-难解问题,除非P=NP,设施选址问题不存在多项式时间算法。 P问题: 一个问题可以在多项式(O(n^k))的原创 2021-08-19 20:01:36 · 12847 阅读 · 1 评论 -
【转载】有规模限制的聚类算法Python轮子
背景介绍机器学习的聚类算法在很多场景中都有应用,比如用户群体的聚类,地址聚类等。但是,在实际问题中,我们的聚类问题常常是有类的规模限制的,比如我们需要创建几个等大的类,或者有最小类大小的限制等。虽然在很多学习算法和初入机器学习的同学们看来,聚类相关算法是机器学习中无监督学习中常见的一种,但从另一个角度看,聚类其实是求解一个组合优化问题,属于NP-hard问题。应用场景员工/外卖员等任务分配:我们给员工分配具体的工作区域或者工作任务量。因为我们分配对象的任务是人,所以我们需要考虑人性,考虑任务原创 2021-08-19 19:26:32 · 866 阅读 · 0 评论 -
文本向量化
最近按照自己的计划和步骤,准备接触机器学习了。其中一个非常重要的就是文本分析,而第一道管卡就是文本的向量化。这里首先应用碗豆先生的博客,这个里面对于文本的分析有了一个很好的开始。另外一个有用的博客是周公与夜的博客。这里首先阐述文本特征值提取的几种方法(引用周公的博客内容):常见的四种特征选择方法如何计算。 1)DF(Document Frequency)DF:统计特征词出现的文档数量,用来衡量某...转载 2018-06-03 23:04:16 · 984 阅读 · 0 评论 -
中文文本情感分析资料
可参考资料1)中文分词基本算法介绍2)ICTCLAS 汉语词性标注集3)文本分类技术4)文本分类与SVM5)基于贝叶斯算法的文本分类算法6)基于libsvm的中文文本分类原型7)LDA-math-文本建模8)情感分析资源9)面向情感分析的特征抽取技术研究9.1)斯坦福大学自然语言处理第七课-情感分析10)深度学习、自然语言处理和表征方法11)Deep Learning in NLP (一)词向量和...转载 2018-07-08 15:18:13 · 1163 阅读 · 0 评论 -
TF-IDF算法提取文章的关键词
初学中文文本分词,从最简单的TF-IDF算法入手,理解其中的逻辑结构,其中使用jieba分词包作为分词模型。这里部分内容参考了_hahaha的博客TF-IDF原理jieba分词提取关键词是按照词频(即每个词在文章中出现的次数)来提取的,比如要提取文章的前五个关键词,那么就是提取文章中出现次数最多的前五个词。而TF-IDF算法不仅统计每个词的词频,还为每个词加上权重。举个例子我们在大学选修了数学和体...原创 2018-07-08 16:14:58 · 3612 阅读 · 0 评论