- 博客(48)
- 收藏
- 关注
原创 人工智能学习9(LightGBM)
先安装包,直接安装可能会出现问题,建议改成清华大学提供的网站进行安装,安装速度快不会出错,命令行模式安装的话:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名称。这里看到基础模型训练的结果比带入最优参数后的结果更好,原因在于基础训练里面,我们设置了200步,而最优参数才只需要20步。我用转用线上的 jupyter notebook来写剩下的部分。一个叶子的直方图可以由他的父亲节点的直方图与它兄弟节点的直方图做差得到,效率会高很多。
2023-12-08 21:19:39
1494
1
原创 人工智能学习8(集成学习之xgboost)
由于有好几个参数min_child_weights,subsamples,consample_bytrees没有跑,没找出最优的值,所以最后的log_loss的值还是有些大的。:集成中只包含同种类型的“个体学习器”相应的学习算法称为“基学习算法”(base learning algorithm)(串行)基本思想:基分类器层层叠加,每一层在训练的时候对前一层基分类器分错的样本给予更高的权重。,训练得到的模型复杂度哈皮,但是当训练数据集较小的时候,模型容易出现问题。,它对训练数据以及未知数据都有较好的预测。
2023-12-07 02:11:46
1583
原创 人工智能学习7(决策树算法)
决策树:是一种树形结构,其中每个内部节点表四一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点表示一种分类结果,本质是一颗由多个判断节点组成的树。,如在信息增益案例题中,我们计算时忽略了第一列即编号列,实际上信息增益会偏向选择第一列(类别有15种)、第三列(类别有3种)…ID3、C4.5、CART在特征选择的时候都是选择一个最优的特征来分类决策,但是不应该只由某一个特征进行决定,应该由一组特征决定,OC1就是这样的。基尼值Gini(D):从数据集D中随机抽取两个样本,器类别标记不一致的概率。
2023-12-04 21:22:23
1897
1
原创 人工智能学习6(贝叶斯实现简单的评论情感分析)
缺点:会忽略文本的表达顺序,如我爱你和你爱我,表示都一样。是指在一个向量中,只有一个位置上的值是1,其他位置都是0.缺点:无法表现词与词之间的语义关系,当数据量大的时候,维数也会变得很大。:与Count Vectors类似,不过加入了相邻单词组合成新的单词,并且进行计数。stopwords.csv上网找一个中文禁用词表即可,我用的是这一篇博客提供的。适合完完全全的小白读,有其他语言经验的可以去看别的书,差评。中规中矩的教科书,零基础的看了依旧看不懂,差评。很好的入门书,简洁全面,适合小白,好评。
2023-12-04 11:13:57
1209
原创 人工智能学习5(特征抽取)
其属性DESCR是数据描述,target_names是标签名,可自定义默认为文件夹名字,filenames文件夹名,target文件分类可以看成y值,data是数据数组可以看成X。特征选择和特征抽取都减少了数据的维度(降维),但是特征选择是得到原有特征的子集,特征抽取是将原有特征结果函数映射转化为新的特征。同一个向量在不同基底的变换,选择不同的及可以对同样一组数据给出不同的表示。和PCA一样通过投影的方法达到去除数据间冗余的一种算法。,以去除数据的相关性,并使降维后的数据最大程度保持原始高维数据的。
2023-12-02 20:02:21
1440
原创 人工智能学习4(特征选择)
有些编译工具在绘图的时候不需要写plt.show()或者是print就可以显示绘图结果或者是显示打印结果,pycharm需要(matplotlib.pyplot)
2023-12-02 12:34:02
1152
原创 人工智能学习1
多分类multiclass classification:一种分类任务,包括多个类别,每个输入样本都应该被划分到多类别的其中一类。二分类binary classification:一种分类任务,包括两个类别,每个输入样本都应该被划分到两个类别的其中一类。1.AI的基础学科包括:数学(离散、模糊)、思维科学(认知心理、逻辑思维学、形象思维学)和计算机(硬件、软件)等。标签label:分类问题中列别标注的具体例子,例子:用“0”表示“猫”,用“1”表示“狗”例子:对猫狗分类的时候,狗和猫就是两个类别。
2023-11-24 20:44:37
682
原创 python实验报告1
用户输入整数 n(1<=n<=26)和整数 m(m<=n),然后输入 n 个不同的字母,请编写程序输出在这 n 个字母中选择 m 个字母的所有排列序列和组合序列。
2023-04-23 23:10:47
1243
原创 4789. 前缀和序列
如果将该序列从小到大排序,则可以得到另一个长度为 n 的正整数序列 b1,b2,…所有测试点满足 1≤n,m≤105,1≤ai≤109,1≤l≤r≤n。这里需要注意的是要用到long long类型,用int过不去。给定一个长度为 n 的正整数序列 a1,a2,…接下来 m 行,每行包含一个询问,格式如题面描述。第二行包含 n 个正整数 a1,a2,…前 3 个测试点满足 1≤n,m≤10。,请你计算并输出 ∑i=lrai。,请你计算并输出 ∑i=lrbi。共 m 行,每个询问输出一行答案。
2023-01-08 12:05:18
343
原创 1918.保龄球
DL 的视力真的很不错,竟然能够数清楚在他前方十米左右每个位置的瓶子的数量。他突然发现这是一个炫耀自己好视力的借口——他看清远方瓶子的个数后从某个位置发球,这样就能打倒一定数量的瓶子。还有一个原因是,用数组必须是连续的,但是用map就可以让key为数量,value为位置的映射,这样输入一个数量,就能找到这个位置了,题目保证key是唯一的不会重复。如果 DL 想要打倒 3 个瓶子就在 1 位置发球,想要打倒 4 个瓶子就在 2 位置发球。表示第 i 个位置的瓶子数,保证各个位置的瓶子数不同。
2023-01-06 17:37:27
298
原创 132. 小组队列
有 n 个小组要排成一个队列,每个小组中有若干人。当一个人来到队列时,如果队列中已经有了自己小组的成员,他就直接插队排在自己小组成员的后面,否则就站在队伍的最后面。请你编写一个程序,模拟这种小组队列。输入将包含一个或多个测试用例。对于每个测试用例,第一行输入小组数量 t。接下来 t 行,每行输入一个小组描述,第一个数表示这个小组的人数,接下来的数表示这个小组的人的编号。编号是 0 到 999999 范围内的整数。一个小组最多可包含 1000 个人。最后,命令列表如下。 有三种不同的命令:1、 将
2023-01-06 14:35:06
138
原创 笔记1(sort函数、前缀和、差分、二分、队列)
标准。自定义一个函数,里面写排序标准,然后放到cmp位置上。还可以对结构体进行排序,也是自定义以下排序标准就好了。
2023-01-06 12:35:14
255
原创 7-2 迪杰斯特拉方法实现最短路径
用迪杰斯特拉算法实现有向网的最短路径第一行输入有向网的顶点和边数,第二行输入各顶点值,用空格间隔,第三行开始输入各条边的 两个点的及边上的权值,用空格间隔。最后一行输入要求路径的两个顶点。输出最短路径经过的各顶点,中间用–>连接。在这里给出一组输入。例如:输出样例:在这里给出相应的输出。例如:分析:主要是最短路径中,这几个数组的初始化问题;还有这几个数组的更新问题。测试点
2022-12-04 11:47:38
582
1
原创 7-1 邻接表存储实现图的深度优先遍历
编写程序,实现由邻接表存储实现无向图的深度优先搜索遍历的功能。顶点为字符型。第一行输入顶点个数及边的个数,第二行依次输入各顶点,第三行开始依次输入边的两个顶点,用空格分开。最后输入深度优先遍历的起始点。输出深度优先遍历结果,空格分开,若起始点不合理,则输出error。在这里给出一组输入。例如:输出样例:在这里给出相应的输出。例如:分析:主要是邻接表图的深度遍历该怎么写的问题;测试点
2022-12-04 11:46:29
1560
原创 成绩统计计
小蓝给学生们组织了一场考试,卷面总分为 100 分,每个学生的得分都是一个 0 到 100 的整数。如果得分至少是 60 分,则称为及格。如果得分至少为 85 分,则称为优秀。请计算及格率和优秀率,用百分数表示,百分号前的部分四舍五入保留整 数。
2022-11-26 22:26:51
112
原创 单词分析析
小蓝正在学习一门神奇的语言,这门语言中的单词都是由小写英文字母组 成,有些单词很长,远远超过正常英文单词的长度。小蓝学了很长时间也记不住一些单词,他准备不再完全记忆这些单词,而是根据单词中哪个字母出现得最多来分辨单词。现在,请你帮助小蓝,给了一个单词后,帮助他找到出现最多的字母和这 个字母出现的次数。
2022-11-26 00:52:05
84
原创 6.1图的定义和基本术语
图G是由两个集合V和E组成的,记为G=(V,E),其中V是顶点的有穷非空集合,E是V中顶点偶对的有穷集合,这些顶点偶对称为边。有向图:顶点对是有序的即和是不同的两条边,也称为弧。中x是有向边的始点,y是有向边的终点。x为弧的弧尾,y为弧头。
2022-11-13 16:03:21
161
原创 7-2 交换二叉树每个结点的左孩子和右孩子
以二叉链表作为二叉树的存储结构,编写程序实现:交换二叉树每个结点的左子树和右子树。以先序遍历构建一棵二叉树,输出中序遍历结果,交换每个节点的左右子树后,输出中序遍历结果。输入一行字符串,若字符是‘#’,表示该二叉树是空树,否则该字符是相应结点的数据元素。第二行是交换后的二叉树的中序遍历序列。第一行是原二叉树的中序遍历序列;在这里给出相应的输出。在这里给出一组输入。
2022-11-10 11:24:15
1425
原创 哈夫曼树及其应用
(1)路径:从树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。(2)路径长度:路径上的分支数目称作路径长度。(3)树的路径长度:从树根到每个结点的路径长度之和。(5)结点的带权路径长度:从该结点到树根之间的路径长度与结点上权的乘积。(6)树的带权路径长度:树中所有叶子结点的带权路径长度之和,通常记为WPL(7)哈夫曼树:带权路径长度WPL最小的二叉树。(又称为最优二叉树)
2022-11-08 18:36:07
217
原创 二叉树+线索二叉树的一些代码
先序遍历和中序遍历有一些小诀窍先序遍历:这样子一画就可以找到先序遍历为ABDEC中序遍历:DBEAC(缺点,画的二叉树必须画的很标准,不然很难看出来哦)
2022-11-07 19:27:35
848
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人