- 博客(25)
- 收藏
- 关注
原创 激活函数总结
和ReLu一样,Switch在上界是无限的,下界是有限的,不过Switch是平滑且非单调的。Φ是正态分布的累计分布函数,论文中提到之所以选择正态分布是因为神经元的输入往往遵循正态分布。缺点:负数部分激活函数值是0,会导致部分神经元无法激活,会导致这部分参数不被更新,即。,α一般取0.01,所以导数小于等于0时是α,大于0是1,都是常数。缺点:在x很大或者很小的时候,导数很小几乎为0,会导致梯度消失。是switch激活函数在GLU门控线性单元的基础上改进得到的。是sigmoid函数,相当于门控单元。
2024-06-10 11:39:34
901
原创 大模型评测数据集-MMCU
数据集旨在衡量中文大模型在处理众多任务上的准确度,主要覆盖覆盖医疗、法律、心理学和教育四大领域,题目形式涵盖单项选择和多项的选择题,共包含11900个问题。其中教育中涉及语、数、化学、物理、政治、生物、历史、地理等多种学科,为的是考核大模型的基础认知;2023年5月15日,甲骨易AI研究院推出首个中文的大模型评测数据集——“超越”(Massive Multitask Chinese Understanding,简称MMCU),填补了中文大语言模型能力测试缺失的一大空白。
2024-04-25 22:59:36
453
原创 torch cheatsheet
torch.matmul():两个tensor相乘torch.rand()、torch.randn():torch.sort():
2021-10-07 10:58:33
320
原创 mongodb_cheetsheat
原理空shell查询:db.my_database.getCollection('my_collection_name').find({}) 新增: db.my_database.getCollection('my_collection_name').insert({"update_time":new ISODate('2021-09-16 01:00:00.884'),"col1":'123477775'}) 修改: db.my_database.getCollection('my
2021-09-18 14:09:07
118
原创 python开源库(nlp方向)
1、Fancy-NLP:是腾讯商品广告策略组团队构建的,用于建设商品画像文本知识挖掘工具,支持如:实体提取、文本分类和文本相似度匹配等多种常见nlp任务。能够支持用户快速实现相关功能,比如说快速挖掘商品特征,应用到支持广告商品推荐模块种。pip install fancy-nlp...
2021-08-02 10:39:40
325
原创 elasticsearch_cheetsheat
1、spark写入es:org.elasticsearch.hadoop.rest.EsHadoopRemoteException: cluster_block_exception: blocked by: [FORBIDDEN/8/index write (api)]原因是index的生命周期设置了warm/cold阶段不能写入。
2021-07-27 19:31:50
736
1
原创 Spark-ml LinearRegression
目录参数说明:参数elasticNetParam:原理补充: 什么是L1, L2, elasticNet正则化参数说明:参数elasticNetParam: 取值范围[0,1], 取值1用的是L1正则化,取值0用的是L2正则化,否则取值是elasticNet正则化,源码如下:// LinearRegression的train方法中val effectiveL1RegParam = $(elasticNetParam) * effectiveRegParamv...
2020-10-24 15:59:19
427
原创 python-可视化(Matplotlib、Seaborn)及常用图形
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习..
2020-09-09 17:29:16
949
转载 python学习-3-pandas
常用的方法:info()和describe()方法https://blog.youkuaiyun.com/qq_40305043/article/details/104862499
2020-09-05 15:23:50
170
原创 python
1、pandas读取csv时,warning Columns (24) have mixed types. Specify dtype option on import or set low_memory=Falsepd.read_csv("../data/test_data_0827.csv")结果warning Columns (24) have mixed types. Specify dtype option on import or set low_memory=False.原因:
2020-09-05 11:36:46
972
原创 java-1-集合补充-HashMap(jdk1.8)
目录将散列码约束在有限的数组空间HashMap如何解决hash冲突 HashMap,底层就是一个数组存储k-v的数据(数组每一位存储的是链表或者红黑树),k-v就是一个entry,怎么决定哪一个entry放在数组的哪个下标呢?根据key的hashcode算出来的,hashcode范围是很广的,而这里对应的数组长度有限,如何将散列码约束在有限的数组空间呢?将散列码约束在有限的数组空间 根据key.hashcode()如何得出在数组的位置, 先看jdk1.7中如何得到数组的下标...
2020-08-20 00:33:26
201
转载 spark核心-作业模型
转载自:http://blog.youkuaiyun.com/bluishglc/article/details/80653801Job Spark的整个作业体系中,处于顶层的是Job,Job和Action是一一对应的,每一个Action都会触发一个Job的执行,这个Job包含的处理逻辑是Action以及Action之前的所有Transformation,所有这些逻辑会被转换成一张关于RDD的DAG(有向无环图),这个DAG也就是实际意义上的Job的执行计划。Stage ...
2020-08-18 17:43:39
262
原创 spark checkpoint抖动
原因是checkpoint写入hdfs的时候有抖动https://www.jianshu.com/p/86c81db326e1
2019-08-26 19:23:32
170
原创 python学习-2-数据分析函数库
Numpy:numerical python 是Python语言的一个扩充程序库。 支持高级大量的维度数组与矩阵、矢量运算。 也针对数组运算提供大量的数学函数库。运算效率高,是大量机器学习框架的基础库。 底层很多是C实现的,所以比直接用python性能好 Pandas Python的一个数据分析包。比Numpy更好些,但是Numpy更基础 Pandas纳入了大量库和一些标...
2019-03-01 00:22:21
148
原创 python学习-1-工具Jupyter
Jupyter有两种模式:1、命令模式下 按Esc切换到命令模式,单元格的边框是蓝色的。这个模式下的常用快捷键:Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R : ...
2019-03-01 00:06:16
502
原创 scala-三个引号、正则表达式匹配
1、三个引号:a regular(定期的、合格的、有规律的) expression用处:字符串中含有特殊字符,java中需要转义符号,scala可以在三个引号中直接输特殊字符,不需要转义符(1)会很忠实输出引号内的内容(2)对齐输出:在每一行的开头加入前缀 |, 后面加入stripMargin,会去掉前缀 | 前面的空格,从控制台开头对齐输出2、正则表达式模式匹配sca...
2018-12-04 18:00:46
1553
原创 scala-函数字面量、闭包、3种函数参数形式
函数字面量:就是一个函数作为表达式使用,有匿名函数的意思 def m = (x: Int) => x + 1println(m(1)) 闭包:简单说就是函数字面量+自由变量;在运行时,捕获自由变量,从这个函数字面量创建出函数对象(函数值),叫做闭包 // 例子1// 这个函数是创建并返回闭包的函数:每调用一次,就会产生一个闭包// 这里的more是局部变量,作用域是mak...
2018-12-04 15:50:04
482
1
原创 Spark RDD-2-持久化&容错机制
rdd.cache 默认调用persisi,之缓存内存 def cache(): this.type = persist() rdd.persist() def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) rdd.unpersist(true) 手动释放缓存RDD占用的内存、磁盘存储资源 rdd.ch...
2018-12-02 12:58:26
491
原创 Spark-1-RDD常用算子
目录1、RDD简介2、RDD创建3、常用RDD算子(1)Action RDD(2)单个RDD的 Transformation (惰性)(3)多个RDD的Transformation1、RDD简介Spark对数据的一种核心抽象,Resilient Distributed Dataset,弹性分布式数据集,不可变,是val类型RDD数据存储在内存中,采购服务器...
2018-11-30 19:18:28
538
原创 Spark SQL—1—简介、应用
Spark SQL比较HiveSQL Hive:将Hive SQL转换成MapReduce然后提交到集群上执行,简化了编写MapReduce的程序 由于MapReduce这种计算模型执行效率比较慢。 Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 Spark SQL应用场景 ETL: Extract抽取 数据...
2018-11-27 18:03:02
378
1
原创 IntelliJ IDEA快捷键整理
1、查找Ctrl+F,查找文本 Ctrl+N,查找类 Ctrl+Shift+N,查找文件 Ctrl+Shift+F,在路径中查找,全局查 Ctrl+Shift+Alt+N,查找类中的方法或属性(不包括方法中的变量) Ctrl+G,定位行(指定到哪行哪列)2、增删改Ctrl+R,替换文本 Ctrl+Shift+R,在路径中替换,全局替换 Ctrl+X和 Ctrl+Y,删除行...
2018-08-12 14:08:55
211
原创 多线程(一):创建线程的几种方法
概括来说就是两种:1、继承Thread类,重写run方法,然后start。不推荐这种,因为java的单继承特性。2、Thread类的构造函数中可以接受Runnable任务,所以只要是Runnable实例就可以作为参数给Thread一般有两种创建Runnable实例的方法(1)实现Runnable接口,实现里面的run方法,扔个Thread类,然后start(2)也可以创建FutureTask类的实...
2018-07-08 11:22:35
205
原创 多线程(二):详细描述wait、notify/notifyAll、join及底层实现
join:1、join的作用:这句代码执行后会阻塞代码所在的线程。意思是谁执行这句代码,谁被阻塞。2、举一个例子讲述join阻塞和结束阻塞过程:
2018-06-22 18:46:51
3201
1
原创 Spring-注解
一、引入注解的原因:(1)传统的Spring做法是使用.xml文件来对bean进行注入或者是配置aop、事务,这么做有两个缺点:如果所有的内容都配在.xml文件中,那么.xml文件会十分庞大;如果按需求分开.xml文件,那么.xml文件又非常多。总之将导致配置文件的可读性可维护性变很低。在开发中在.java文件和.xml文件之间不断切换,是一件麻烦的事,同时这种思维上的不连贯也会降低开发的效率。为...
2018-04-12 16:04:58
196
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人