
人工智能
文章平均质量分 84
聊聊人工智能领域的机器学习、数据挖掘、自然语言处理、计算机视觉等相关技术和方法,分享一些实践经验。
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
浅唱书令
玩过大数据,做过搜广推,搞过密码学,如今在大模型搬砖
展开
-
大模型 OLMoE 消融实验
OLMoE 是一个基于稀疏MoE 架构开源大语言模型。OLMoE-1B-7B 拥有7B 总参数,每次处理一个输入token 仅激活大约1B 参数,在5T token 大规模语料上进行预训练,后面进一步微调得到 OLMoE-1B-7B-INSTRUCT。OLMoE-1B-7B 在性能上超过了所有具有相似激活参数数量的大模型,甚至优于一些更大规模参数量的大模型,比如Llama2-13B-Chat 和 DeepSeekMoE-16B。MoE 架构可以在较小的计算成本下获得更优的性能表现。原创 2025-01-13 15:01:31 · 95 阅读 · 0 评论 -
细粒度生物医学多模态对比学习
论文[1] 构建一个全新的生物医学多模态数据集 PMC-15M,其规模比现有的生物医学多模态数据集 MIMIC-CXR 大两个数量级,并涵盖了广泛类型的生物医学图像。PMC-15M包含来自440万篇科学文章中的1500万对生物医学图像-文本对。基于PMC-15M,论文[1] 预训练了BiomedCLIP,一个多模态基础模型,并针对生物医学视觉-语言处理进行了领域微调。原创 2024-12-20 17:24:44 · 196 阅读 · 0 评论 -
复合图标题拆分
在学术论文、研究报告、教科书等领域,一张复合图通常由多个子图组成,每个子图都有其特定的内容和含义。复合图的标题(caption)通常包含各个子图的描述信息,因此拆分复合图标题有助于更好地理解和分析每个子图的内容。原创 2024-11-20 09:42:43 · 80 阅读 · 0 评论 -
多模态大模型 LLaVA
人类通过诸如视觉和语言等多种渠道与世界进行互动的方式,每种渠道在表达和交流某些概念方面都有其独特的优势,这有助于更好地理解世界。人工智能的一个核心目标是开发一种通用助手,这种助手可以有效地跟随多模态(视觉和语言)指令,符合人类意图以完成各种真实环境中的任务。为达到这一目的,研究社区发展能够处理多模态指令的大规模语言模型。特别是在利用机器生成的指令跟随数据对大规模语言模型进行微调以改善其在新任务上的零样本能力方面,尽管这种方法在多模态领域探索较少,但已经被证明是有益的。原创 2024-09-23 18:02:55 · 363 阅读 · 0 评论 -
Llama 3.1 大模型指令微调提升中文能力
Llama 3.1 是一个通用的大型语言模型,尽管它在多种语言上进行了训练,但在某些特定语言(如中文)上的表现可能不如专门针对该语言进行优化的模型。通过指令微调,可以提高模型在处理中文文本时的理解和生成能力。对于某些领域(如医疗、法律、科技等),可能存在大量的中文专业术语和特定表达。通过指令精调,可以让模型更好地理解和生成这些领域的中文内容。通用大模型Llama 3.1 在中文评测数据集C-Eval、CMMLU 上表现不佳,通过精调可以针对特定任务进行优化,提升模型在这些任务上的性能。原创 2024-09-12 11:47:38 · 1006 阅读 · 0 评论 -
Pytorch 高效快速加载大规模数据集
HDF5(Hierarchical Data Format version 5)是一种用于存储和管理大量数据的文件格式,支持高效的多维数组存储,支持多层级数据模型,能够存储复杂的科学数据。HDF5 通常以groups 和 datasets 的形式组织。")")0")原创 2024-08-06 15:52:22 · 472 阅读 · 0 评论 -
从头训练一个数学编程大模型
前段时间基于OLMO 框架利用8张卡从头训练一个1B 大模型,以本文做一个简单的工作总结。SFT 微调采用LLaMA-Factory,评测使用OpenCompass。大模型MathCode 面向的任务:能写代码,能做简单的数学题。原创 2024-07-16 12:23:01 · 253 阅读 · 0 评论 -
【大模型】预训练语料质量筛选
在大型语言模型(LLM)的开发过程中,预训练数据的规模和质量对塑造LLM的能力起着至关重要的作用。语言模型的数据集迅速扩大,其中最重要的是Common Crawl (CC) 数据集,包含近1T 个词。这样规模的数据集足以训练最大的模型。然而,未经筛选或轻度筛选的CC 数据集质量往往比经过精心构建的数据集要低。原创 2024-07-01 17:47:41 · 481 阅读 · 0 评论 -
大语言模型(一)OLMo
OLMo 是由AI2 发布的大语言模型以及构建框架,与大多数之前的尝试只发布模型权重和推理代码不同,OLMo 开源了整个框架,包括训练数据、训练代码以及模型评估代码。OLMo框架包括构建和研究语言模型所需的工具和资源。对于训练和建模,它包括完整的模型权重、训练代码、训练日志、消融实验、以Weights & Biases日志形式的训练指标,以及推理代码。这次发布包括我们的语言模型在7B规模上的四个变体,对应不同的架构、优化器和训练硬件,以及一个1B规模的模型,所有模型都至少训练了2T token。原创 2024-05-30 19:28:23 · 540 阅读 · 0 评论 -
多标签分类
1. 算法多标签分类的适用场景较为常见,比如,一份歌单可能既属于标签旅行也属于标签驾车。有别于多分类分类,多标签分类中每个标签不是互斥的。多标签分类算法大概有两类流派:采用One-vs-Rest(或其他方法)组合多个二分类基分类器;改造经典的单分类器,比如,AdaBoost-MH与ML-KNN。One-vs-Rest基本思想:为每一个标签\(y_i\)构造一个二分类器,正样本为含有...原创 2018-10-17 17:29:00 · 108 阅读 · 0 评论 -
【从传统方法到深度学习】情感分析
为了记录在竞赛中入门深度学习的过程,我开了一个新系列【从传统方法到深度学习】。1. 问题Kaggle竞赛Bag of Words Meets Bags of Popcorn是电影评论(review)的情感分析,可以视作为短文本的二分类问题(正向、负向)。标注数据集长这样:id sentiment review"2381_9" 1 "\"The Classic War of the Wor...原创 2017-05-24 16:54:00 · 88 阅读 · 0 评论 -
【从传统方法到深度学习】图像分类
1. 问题Kaggle上有一个图像分类比赛Digit Recognizer,数据集是大名鼎鼎的MNIST——图片是已分割 (image segmented)过的28*28的灰度图,手写数字部分对应的是0~255的灰度值,背景部分为0。from keras.datasets import mnist(x_train, y_train), (x_test, y_test) = mnist.l...原创 2017-06-17 15:52:00 · 108 阅读 · 0 评论 -
【中文分词】条件随机场CRF
之前介绍的MMEM存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二作与三作同时也是MEMM的作者。1. 前言本节将遵从tutorial [2] 的论文结构,从概率模型(Probabilistic Models)与图表示(Graphical Representa...原创 2016-12-23 11:04:00 · 115 阅读 · 0 评论 -
【中文分词】最大熵马尔可夫模型MEMM
Xue & Shen '2003 [2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词;看原论文感觉作者更像用的是MaxEnt (Maximum Entropy) 模型而非MEMM。MEMM是由McCallum et al. '2000 [1]提出MEMM,针对于...原创 2016-12-20 11:17:00 · 127 阅读 · 0 评论 -
【中文分词】二阶隐马尔可夫模型2-HMM
在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却未能很好地识别。主要是因为,HMM本质上是一个Bigram的语法模型,未能深层次地考虑上下文(context)。对于此,本文将介绍更为复杂的二阶HMM以及开源实现。1. 前言n-gram语法模型n-gr...原创 2016-12-15 15:43:00 · 266 阅读 · 0 评论 -
【中文分词】隐马尔可夫模型HMM
Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem),由此引入监督学习算法来解决分词问题。1. HMM首先,我们将简要地介绍HMM(主要参考了李航老师的《统计学习方法》)。HMM包含如下的五元组:状态值集合\(Q=\{q_1, q_2, \...原创 2016-12-12 13:37:00 · 236 阅读 · 0 评论 -
【中文分词】简单高效的MMSeg
最近碰到一个分词匹配需求——给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的。因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS。MMSeg分词算法正是完美地契合了这种需求。1. MMseg简介MMSeg是蔡志浩(Chih-Hao Tsai)提出的基...原创 2016-09-14 15:04:00 · 219 阅读 · 0 评论 -
【中文分词】结构化感知器SP
结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。1. 结构化感知器模型CRF全局化地以最大熵准则建模概率\(P(Y|X)\);其中,\(X\)为输入序列\(x_1^n\),\(Y\)为标注序列\(y_1^n\)。不同于CRF建模概率函...原创 2017-02-19 17:03:00 · 234 阅读 · 0 评论 -
开源中文分词工具探析(七):LTP
LTP是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP开源中文分...原创 2018-06-11 16:52:00 · 875 阅读 · 0 评论 -
开源中文分词工具探析(六):Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):J...原创 2018-02-07 21:24:00 · 1107 阅读 · 0 评论 -
开源中文分词工具探析(五):FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词、词性标注、文本分类、依存句法分析等功能。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP...原创 2017-03-16 14:29:00 · 277 阅读 · 0 评论 -
开源中文分词工具探析(四):THULAC
THULAC是一款相当不错的中文分词工具,准确率高、分词速度蛮快的;并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC...原创 2017-02-22 15:57:00 · 902 阅读 · 0 评论 -
开源中文分词工具探析(三):Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高分词准确度。虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT高效地实现检索词典、邻接表实现分词DAG、支持自定义词典与自定义消歧义规则等。【开源中文分词工具...原创 2017-01-11 19:21:00 · 593 阅读 · 0 评论 -
中文分词工具探析(二):Jieba
【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP开源中文分词工具探析(六):Stanford CoreNLP开源中文分词工具探析(七):LTP1. 前言Jieba是由fxsjy大神开...原创 2016-12-29 18:08:00 · 201 阅读 · 0 评论 -
中文分词工具探析(一):ICTCLAS (NLPIR)
【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP开源中文分词工具探析(六):Stanford CoreNLP开源中文分词工具探析(七):LTP1. 前言ICTCLAS是张华平老师推出...原创 2016-12-27 11:05:00 · 1304 阅读 · 0 评论 -
新词发现(一):基于统计
1. 什么是新词现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如:快的打车优惠券英雄联盟怎么不可以打排位“快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词(out-of-vocabulary, OOV)笼统地之未在词典中出现的词,序列标注方法HMM与CRF可以根据上下文很好地识别未登录词,...原创 2017-04-12 15:43:00 · 105 阅读 · 0 评论 -
TF-IDF提取行业关键词
1. TF-IDF简介TF-IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词\(w\)对于查询(Query,可看作文档)所能提供的信息。词频(Term Frequency, TF)表示关键词\(w\)在文档\(D_i\)中出现的频率:\[TF_{w,D_i}= \frac {count(w...原创 2016-09-07 10:46:00 · 133 阅读 · 0 评论 -
【十大经典数据挖掘算法】C4.5
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 决策树模型与学习决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其...原创 2015-12-02 19:41:00 · 123 阅读 · 0 评论 -
【十大经典数据挖掘算法】k-means
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 引言k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派,指...原创 2016-01-31 18:22:00 · 148 阅读 · 0 评论 -
【十大经典数据挖掘算法】SVM
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCARTSVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可分类为三类:线性可分(linear SVM in ...原创 2016-10-15 21:59:00 · 113 阅读 · 0 评论 -
【十大经典数据挖掘算法】Apriori
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 关联分析关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transactions)问题中,TIDIterms12...原创 2016-07-29 17:36:00 · 119 阅读 · 0 评论 -
【十大经典数据挖掘算法】EM
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布\(\theta\);那么可以通过最大似然估计方法求得。假如我们抛硬币\...原创 2016-10-24 19:12:00 · 106 阅读 · 0 评论 -
【十大经典数据挖掘算法】PageRank
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇,是因为本人是Google脑残粉。因了PageRank而Google得以成立,因了Google而这个世界变得好了那么一点点。1. 引言PageRank是Serg...原创 2016-12-02 10:40:00 · 102 阅读 · 0 评论 -
【十大经典数据挖掘算法】AdaBoost
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 集成学习集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习(weakly learnab...原创 2016-10-18 18:12:00 · 117 阅读 · 0 评论 -
【十大经典数据挖掘算法】kNN
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes...原创 2015-11-27 14:42:00 · 126 阅读 · 0 评论 -
【十大经典数据挖掘算法】Naïve Bayes
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART朴素贝叶斯(Naïve Bayes)属于监督学习的生成模型,实现简单,没有迭代,学习效率高,在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立,在输入向量的特征条件有关联的场景下并不适用。1. 朴素贝叶斯算法朴素...原创 2015-11-28 15:18:00 · 96 阅读 · 0 评论 -
【十大经典数据挖掘算法】CART
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles S...原创 2015-12-10 14:28:00 · 90 阅读 · 0 评论 -
Bagging决策树:Random Forests
1. 前言随机森林 Random Forests (RF) 是由Breiman [1]提出的一类基于决策树CART的集成学习(ensemble learning)。论文 [5] 在121数据集上比较了179个分类器,效果最好的是RF,准确率要优于基于高斯核SVM和多项式LR。RF自适应非线性数据,不易过拟合,所以在Kaggle竞赛大放异彩,大多数的wining solution都用到了RF。...原创 2017-01-18 11:19:00 · 350 阅读 · 0 评论 -
Boosting决策树:GBDT
GBDT (Gradient Boosting Decision Tree)属于集成学习中的Boosting流派,迭代地训练基学习器 (base learner),当前基学习器依赖于上一轮基学习器的学习结果。 不同于AdaBoost自适应地调整样本的权值分布,GBDT是通过不断地拟合残差 (residual)来“纠错”基学习器的。1. Gradient BoostingGradient Bo...原创 2017-06-01 14:21:00 · 138 阅读 · 0 评论 -
时间序列异常检测算法S-H-ESD
其中,\(N\)为数据集的样本数,\(t_{\alpha/(2N), N-2}\)为显著度(significance level)等于\(\alpha/(2N)\)、自由度(degrees of freedom)等于\(N-2\)的t分布临界值。若\(R_i > \lambda_j\),则原假设\(H_0\)不成立,该样本点为异常点;其中,\(X\)为原时间序列数据,\(S_X\)为STL分解后的周期分量,\(\tilde{X}\)为\(X\)的中位数。重复以上步骤\(k\)次至算法结束。原创 2018-06-20 10:48:00 · 268 阅读 · 0 评论