- 博客(11)
- 收藏
- 关注
原创 词袋(简述)
概念:一种最简单却非常高效的模型就是只统计数据集中每个单词的出现次数词袋模型主要分为以下三种:1.第一种是使用词语实际出现次数作为词频。缺点是当 文档长度差异明显时,词频差距会非常大。2.第二种是使用归一化后的词频,每篇文档中所有词语 的词频之和为1。这种做法优势明显,它规避了文档长度对词频的影响。3.第三种,直接使用二值 特征来表示——单词在文档中出现值为1,不出现值为0。
2022-06-02 10:36:31
884
原创 N元语法(简述)
N元语法是指 由几个连续的词组成的子序列。①.比起用单个词作特征,使用N元语法能更好地描述文档.②.N元语法的计算方法跟计算单个词语相同,把构成N元语法的几个词看成是词袋中 的1个词。注:N元语法中的参数n,对于英语这门语言,一开始取2到5之间的值就可以, 有些应用可能要使用更高的值。例:当n取3时,我们从下面引文中抽取前几个N元语法Always look on the bright side of life.第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on
2022-06-02 10:29:43
1216
原创 一.2.新年好(dijkstra+DFS)——单源最短路
重庆城里有 n 个车站,m 条 双向 公路连接其中的某些车站。每两个车站最多用一条公路连接,从任何一个车站出发都可以经过一条或者多条公路到达其他车站,但不同的路径需要花费的时间可能不同。在一条路径上花费的时间等于路径上所有公路需要的时间之和。佳佳的家在车站 1,他有五个亲戚,分别住在车站 a,b,c,d,e。过年了,他需要从自己的家出发,拜访每个亲戚(顺序任意),给他们送去节日的祝福。怎样走,才需要最少的时间?输入格式第一行:包含两个整数 n,m,分别表示车站数目和公路数目。
2022-03-31 13:42:45
152
原创 【3-1】找树根和hai子(STL方法)
题目描述给定一棵树,输出树的根root,孩子最多的结点max以及他的孩子。输入格式第一行:n(结点个数≤100),m(边数≤200)。以下m行:每行两个结点x和y,表示y是x的孩子(x,y≤n)。输出格式第一行:树根:root;第二行:孩子最多的结点max,如果有一样多的输出编号最小的点第三行:max的孩子。输入样例8 74 14 21 31 52 62 72 8输出样例42 6 7 8#include<bits/stdc..
2022-03-29 20:33:20
410
原创 一.1.最优乘车 《bfs+dijkstra》——(图论进阶)单源最短路建图方式
1.题目描述:H 城是一个旅游胜地,每年都有成千上万的人前来观光。为方便游客,巴士公司在各个旅游景点及宾馆,饭店等地都设置了巴士站并开通了一些单程巴士线路。每条单程巴士线路从某个巴士站出发,依次途经若干个巴士站,最终到达终点巴士站。一名旅客最近到 HH 城旅游,他很想去 SS 公园游玩,但如果从他所在的饭店没有一路巴士可以直接到达 SS 公园,则他可能要先乘某一路巴士坐几站,再下来换乘同一站台的另一路巴士,这样换乘几次后到达 SS 公园。现在用整数 1,2,…N1,2,…N 给 HH 城
2022-03-25 19:25:01
456
原创 大数阶乘取模
大数阶乘取模题目描述:输入两个数a,b(1<=a,b<=10^9),求各自的阶乘并比较大小,因为数据可能较大,则对其取模(mod=999068070).````cpp#include<bits/stdc++.h>#define int long longusing namespace std;const int p=999068070;int a,b,s=1;//读取大数template <typename T> void inline read(T
2021-11-27 22:14:44
1154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人