- 博客(13)
- 收藏
- 关注
原创 高频词提取
高频词一般指的是在文章中出现频率较高的且有意义的一些词语,一定程度上代表了文档的焦点所在。所以也可以将其当做关键词。本文的分词工具使用了jieba分词。首先,引入要用的包并且读取待处理的文档数据:import globimport randomimport jiebadef get_content(path): with open(path,'r',encoding='gbk'...
2020-03-03 14:49:20
2494
原创 Leetcode 141.环形链表
题目描述给定一个链表,判断链表中是否有环。为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始)。 如果 pos 是 -1,则在该链表中没有环。输入:head = [3,2,0,-4], pos = 1输出:true解释:链表中有一个环,其尾部连接到第二个节点。输入:head = [1,2], pos = 0输出:true解释:链表中有一个...
2020-02-29 09:35:25
126
原创 Leetcode 136.只出现一次的数字
题目描述给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。说明:你的算法应该具有线性时间复杂度。 你可以不使用额外空间来实现吗?示例 1:输入: [2,2,1]输出: 1示例 2:输入: [4,1,2,1,2]输出: 4链接:https://leetcode-cn.com/problems/single-number题解1...
2020-02-28 21:44:19
158
原创 二分查找
二分查找针对的是一个有序的数据集合,查找思想有点类似分治思想。每次都通过跟区间的中间元素对比,将待查找的区间缩小为之前的一半,直到找到要查找的元素,或者区间被缩小为0。时间复杂度O(logn)需要是有序且数组存储图解代码import mathdef Binary_search(arr,value): right=len(arr)-1 left=0 if rig...
2020-02-25 17:21:41
166
原创 归并排序
时间复杂度O(nlogn),但是空间复杂度O(n).算法递归的将前半部分数据和后半部分数据各自归并排序1.申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列。2.设定两个指针left[0]和right[0],最初位置分别为两个已经排序序列的起始位置。3.比较两个指针所指向的元素,选择相对小的元素pop出来,append到合并空间,并移动指针到下一位置(因为用了pop函数...
2020-02-24 10:05:32
102
原创 选择排序
算法1.首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置。2.再从剩余未排序的元素中继续选出最小(大)元素,放到已排序序列的末尾。3.重复第二步,直到所有元素排序完毕。图解代码def select_sort(arr): for i in range (len(arr)-1): minindex=i for j in range(i+...
2020-02-21 10:45:43
95
原创 冒泡排序
算法思想把相邻的元素两两比较,当一个元素大于右侧相邻元素时,交换它们的位置,当一个元素小于或等于右侧相邻元素时,位置不变。(稳定性)步骤1.比较相邻的元素,如果第一个比第二个大,则交换它们两个。2.对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。3.针对所有的元素重复以上的步骤,除了最后一个。4.持续每次对越来越少的元素重复上面的步骤,...
2020-02-21 09:43:47
100
原创 插入排序
算法(联想扑克牌的起牌过程)1.从第二个元素开始和前面的元素进行比较,如果前面的元素比当前元素大,则将前面的元素后移,当前元素依次往前,直到找到比它小或等于它的元素插入在其后面。2.然后选择第三个元素,重复上述操作。3.直到末尾的最后一个元素,插入后完成排序。图解代码实现def insertion_sort(arr): #第一层for表示需要循环的遍数 for i ...
2020-02-20 18:59:58
123
原创 Kaggle比赛之房价预测
House Price读取数据集%matplotlib inlineimport torchimport torch.nn as nnimport numpy as npimport pandas as pdimport syssys.path.append("..")from IPython import displayfrom matplotlib import pyplo...
2020-02-03 16:45:14
277
原创 字典树
字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的一条路径,并在终点节点上做个标记“该节点对应词语的结尾”。字符串就是一条路径,要查询一个单词,只需要顺着这条路径从根节点往下走。如果能走到特殊标记的节点,则说明该字符串在集合中,否则说明不存在。字典树的节点实...
2019-12-20 10:27:34
105
原创 切分算法
HanLP词典的加载&切分算法词典加载from pyhanlp import *def load_dictionary(): """ 加载HanLP中的mini词库 :return: 一个set形式的词库 """ IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil') path = Ha...
2019-12-08 11:25:58
703
原创 Hanlp配置
hanlp的安装首先在命令提示符中输入pip install pyhanlp然后提示如下错误:building‘_jpype’extensionerror:Microsoft Visual C++ 14.0 is required. 表面看是需要下载VC++,但实际上是通过下载JDK才能解决问题(Hanlp主项目是采用Java开发的)JDK下载了JDK 8. 然后配置环境变量。具体步骤...
2019-12-08 09:42:04
461
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅