
机器学习
文章平均质量分 85
小牛_牛sky
学海无涯
展开
-
数据挖掘、OLAP、数据仓库和数据立方体的概念和关系
1.数据挖掘和数据挖掘系统首先是数据挖掘,数据挖掘的定义如下:“数据挖掘是从大量数据中挖掘有趣模式和知识的过程”,作为知识发现过程,数据挖掘通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。然后是数据挖掘系统,定义如下:数据挖掘系统(data mining system)是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的系统,数据挖掘系统主要在体系结构上进行研究,目前数据挖掘系统分为了集中式的数据挖掘系统和分布式的数据挖掘系统。我查阅了相关文献,并没有原创 2021-04-13 15:03:34 · 1028 阅读 · 0 评论 -
[学习笔记] 神经网络之三:BERT和相似度(1)
BERT本身提供了句子匹配的功能,它的做法是把相似度任务转化成二分类任务做的,匹配/不匹配。把两个句子先拼接成"[CLS]" + seq1 + "[SEP]" + seq2 + "[SEP]",然后取得[CLS]对应的向量,并经过一个sofmax,最后完成分类。在论文Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks...原创 2020-03-30 22:35:03 · 6869 阅读 · 13 评论 -
[学习笔记]神经网络之二:使用Bert进行二分类
本篇记录一下如何使用bert进行二分类。这里用到的库是pyotrch-pretrained-bert,原生的bert使用的是TensorFlow,这个则是pytorch版本。本篇文章主要参考了基于BERT fine-tuning的中文标题分类实战的代码以及如何用 Python 和 BERT 做中文文本二元分类?的数据。1.样本数据首先是要训练的文本数据,部分文本内容如下:该文本...原创 2020-03-23 13:40:24 · 17072 阅读 · 11 评论 -
[学习笔记]神经网络之一:简单实现一个神经网络
这几天开始学习神经网络,本帖为我在读完《Python神经网络编程》后的一个总结,因为我是神经网络的初学者,当出现一些错误或者说法不当时,请多多指正。本文的目的是使用三层神经网络(输入层、隐藏层和输出层,输入层一般只是负责输入)来实现对手写体数字的识别,这里分别采用《Python神经网络编程》中的代码和Pytorch来实现。训练数据集:http://www.pjreddie.com/medi...原创 2020-03-15 12:33:42 · 851 阅读 · 0 评论 -
无监督学习 k-means算法
一、无监督学习无监督学习是机器学习算法中的一种。监督学习的目的主要是对数据进行分类和回归预测,它主要是通过已知推测未知,大部分监督学习算法有一个训练模型的过程;相对于监督学习,无监督学习则是主要着重于数据的分布特点,与有监督学习不同,无监督学习并没有训练的过程。二、 聚类针对给定的样本数据,聚类算法会根据它们的特征相似度或距离,把相似的数据划分为若干个簇中。相似的样本划分到相同的簇中,...原创 2019-10-09 19:32:08 · 2488 阅读 · 0 评论