- 博客(24)
- 收藏
- 关注
转载 哈希表
DataWhale编程任务四散列表(哈希表)实现一个基于链表法解决冲突问题的散列表# keys函数#!/usr/bin/env python# coding=utf-8class Dict: def __init__(self, num): self.__solts__ = [] self.num = num for _ ...
2019-04-16 19:53:17
302
转载 达观杯最后一次任务
数据竞赛中提高成绩主要有3个地方 特征工程 调参 模型融合本节介绍用网格搜索来调参,它主要是指尝试我们关心的参数的所有可能组合。交叉验证是在特定数据集上对给定算法进行评估的一种方法,是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。在交叉验证中,数据被多次划分,并且需要训练多个模型。最常用的是k折交叉验证(k-fold cross-v...
2019-04-15 22:38:44
202
转载 编程第三次任务
排序冒泡排序def maopao_paixu(a): l = len(a) for i in range(l-1): #遍历的是排好序的个数 for j in range(l-i-1): # 遍历的是待排序的个数 if a[j] > a[j+1]: temp = a[j]...
2019-04-14 21:14:19
175
转载 自然语言处理第四期
TF-IDF原理。 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库) 互信息的原理。 使用第二步生成的特征矩阵,利用互信息进行特征筛选TF-IDF原理感觉在word2vec 特别是现在的contextual word embedding之后,利用tf-idf直接向量化文本几乎已经弃用了,但是t...
2019-04-14 20:21:10
260
转载 达关杯之lightgbm
一. 简介1.1. 什么是LightGBMLightGBM是个快速的、分布式的、高性能的基于决策树算法的梯度提升框架。可用于排序、分类、回归以及很多其他的机器学习任务中。因为他是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,然而其它的提升算法分裂树一般采用的是depth-wise或者level-wise而不是leaf-wise。因此,在LightGBM算法中,当增长...
2019-04-14 20:05:16
562
转载 编程任务2
数组实现一个支持动态扩容的数组实现一个大小固定的有序数组,支持动态增删改操作实现两个有序数组合并为一个有序数组学习哈希表思想,并完成leetcode上的两数之和(1)及Happy Number(202)!(要求全部用哈希思想实现!)字符串实现一个字符集,只包含 a~z 这 26 个英文字母的 Trie 树实现朴素的字符串匹配算法对应的 LeetCode 练习题数组Three...
2019-04-11 21:32:12
283
转载 数据竞赛第四次任务
LR和SVM原理详述1.LR模型原理 一个事件的几率是指该事件发生的概率和该事件不发生的概率的比值,如果事件发生的几率为p,那么该事件的几率是:p/(1-p),该事件的对数几率是: 在这里插入图片描述 LR模型是在线性回归的基础上,把特征进行线性组合,再把组合的结果通过一层sigmoid函数映射成结果是1或是0的概率。 LR的优缺点 1.优点 一...
2019-04-11 20:46:16
499
转载 自然语言处理任务3
1. 基本文本处理技能尽管现在很多文本处理采用基于字/字符的方式,词作为能够独立语用的基本语言单位,依然是目前是主流的NLP任务的基本处理单位。对于没有间隔符的汉语,分词就成了文本预处理的第一个任务。汉语分词,现在其实已经有大量的开源工具,比如最常用的jieba, Stanford NLP,THULAC以及最近开源的pkuseg。宗成庆老师的书里对于分词难度总结为三个方面: 分词规范,歧义切...
2019-04-11 20:34:38
291
转载 第三次任务pytorch
原文转载自https://blog.youkuaiyun.com/weixin_42332937/article/details/89191985
2019-04-10 21:37:35
189
转载 自然语言处理
1.2 数据探索数据集中包含四个文本文件:cnews.test.txt,cnews.train.txt,cnews.val.txt,cnews.vocab.txt。cnews.train.txt为训练数据集,cnews.test.txt为测试数据集,cnews.val.txt为验证数据集,cnews.vocab.txt是所有数据集中出现的汉字、字母与标点符号汇集成的词典,其中是词汇表中...
2019-04-09 21:41:30
361
转载 词向量
词向量的定义词向量顾名思义,就是用一个向量的形式表示一个词。为什么这么做?机器学习任务需要把任何输入量化成数值表示,然后通过充分利用计算机的计算能力,计算得出最终想要的结果。词向量的一种表示方式是one-hot步骤:首先,统计出语料中的所有词汇,然后,对每个词汇编号,针对每个词建立V维的向量,向量的每个维度表示一个词,所以,对应编号位置上的维度数值为1,其他维度全为0这种方...
2019-04-09 21:16:16
522
转载 队列栈链表那些
1、动态数组动态数组是相对于静态数组而言的,可以灵活的在运行时确定数组的大小,而静态数组操作简单但必须在编译时刻确定数组的大小;实现了一维、二维、三维数组的动态创建,数组的动态扩展和动态缩小。并对C语言中的三个内存申请函数extern void *malloc(unsigned int num_bytes);void *calloc(sint_t n, size_t size);extern ...
2019-04-08 20:52:27
131
原创 pytorch
【Task2(2天)】设立计算图并自动计算(给代码截图参考)numpy和pytorch实现梯度下降法设定初始值求取梯度在梯度方向上进行参数的更新numpy和pytorch实现线性回归pytorch实现一个简单的神经网络Pytorch_Task2.zip参考资料:PyTorch 中文文档...
2019-04-08 20:20:08
137
转载 pytorch
一 什么是pytorchPyTorch是一个基于python的科学计算包,主要针对两类人群:作为NumPy的替代品,可以利用GPU的性能进行计算 作为一个高灵活性、速度快的深度学习平台二、安装http://pytorch.org/上找到对应的安装命令,安装 PyTorch 会安装两个模块, 一个是 torch, 一个 torchvision, torch 是主模块, 用来搭建神经网...
2019-04-07 23:42:56
156
转载 数据竞赛
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是, 一个词语在一篇文章中...
2019-04-07 21:49:31
303
转载 自然语言处理
一、什么是Anaconda?1. 简介Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。2. 特点Anaconda具有如下特点:▪ 开源▪ 安装过程简单▪ 高性能使用Python和R语言▪ 免费的社区支持其特点的实现主要基于Anaconda拥有的:...
2019-04-07 21:40:02
115
转载 达观杯比赛
【任务1 - 数据初识】时长:1天下载数据,读取数据,观察数据将训练集拆分为训练集和验证集数据包含两个csv,训练集和测试集,依次下载即可,第一列是文章的索引(id)第二列是文章正文在“字”级别上的表示,即字符相隔正文(article)第三列是在“词”级别上的表示, 即词语相隔正文(word_seg)第四列是这篇文章的标注(class)。test_set.csv:此数据用于测试。数据...
2019-04-06 08:52:01
420
转载 最接近的三数之和
给定一个包括 n 个整数的数组 nums 和 一个目标值 target。找出 nums 中的三个整数,使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。 示例: 例如,给定数组 nums = [-1,2,1,-4], 和 target = 1. 与 target 最接近的三个数的和为 2. (-1 + 2 + 1 = 2).123三...
2019-02-02 22:19:27
102
转载 三数之和
给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。例如, 给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[ [-1, 0, 1], [-1, -1, 2]]分析 看到这...
2019-02-01 23:04:15
103
转载 最长公共子串
编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串 “”。示例:示例 1: 输入: ["flower","flow","flight"]输出: "fl" 示例 2: 输入: ["dog","racecar","car"]输出: ""解释: 输入不存在公共前缀。12345678910说
2019-02-01 22:30:20
148
原创 字符串转换整数 (atoi)
请你来实现一个 atoi 函数,使其能将字符串转换成整数。首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止。当我们寻找到的第一个非空字符为正或者负号时,则将该符号与之后面尽可能多的连续数字组合起来,作为该整数的正负号;假如第一个非空字符是数字,则直接将其与之后连续的数字字符组合起来,形成整数。该字符串除了有效的整数部分之后也可能会存在多余的字符,这些字符可...
2019-01-30 18:10:11
86
原创 给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。
示例 1: 123 输入: "babad"输出: "bab"注意: "aba" 也是一个有效答案。 示例 2: 12 输入: "cbbd"输出: "bb" class Solution(): def maxsub(str): a=len...
2019-01-30 00:47:52
874
原创 寻找两个有序数组的中位数
给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。 nums1 = [1, 3]nums2 = [2]则中位数是 2.0nums1 = [1, 2]nums2 = [3, 4]则中位数是 (2 + 3)/2 = 2.5 class Solution(): ...
2019-01-29 23:31:15
190
原创 两数之和
给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9返回 [0, 1]思路:穷举法...
2019-01-29 20:58:46
101
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅