
机器学习
文章平均质量分 76
天一生水water
这个作者很懒,什么都没留下…
展开
-
人工智能中的特征是什么?
在人工智能中,特征(feature)是指从原始数据中提取出的、能够代表数据关键信息并用于模型训练的属性或变量。特征通常是对原始数据的抽象或转换,目的是捕捉数据中的模式、结构或相关性,从而帮助机器学习模型更有效地学习和预测。简单来说,特征是原始数据经过提炼后的结果,能够突出对任务有用的信息,同时去除冗余或无关的部分。特征是从原始数据中提取的、能够代表数据关键信息的抽象表示。与原始数据相比,特征更简洁、更有针对性,能够提高模型的训练效率和预测准确性。原创 2025-02-26 22:08:20 · 990 阅读 · 0 评论 -
NLP中的嵌入层
在自然语言处理(NLP)中,嵌入层(Embedding Layer)是一个特殊的层,。每个单词或短语被映射到固定大小的密集向量中。嵌入层基本上是一个查找表,模型通过查找表中对应的单词索引来获取单词的向量表示。原创 2023-12-22 22:32:38 · 1132 阅读 · 1 评论 -
LSTM预测股票
LSTM预测股票原创 2022-04-29 16:40:24 · 1354 阅读 · 0 评论 -
机器学习优质视频
1贝叶斯网络深蓝学院https://www.bilibili.com/video/BV1ig4y1v764?from=search&seid=9683871677976225711原创 2020-12-12 21:44:48 · 325 阅读 · 0 评论 -
Python数据挖掘
1、特征工程 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 一个非常简单的例子,现在出一非常简答的二分类问题题,请你使用逻辑回归,设计一个身材分类器。输入数据X:身高和体重 ,标签为Y:身材等级(胖,不胖)。显...原创 2019-11-25 22:10:17 · 788 阅读 · 0 评论 -
机器学习实战-微额借款用户人品预测
团队分享网址1、项目背景 互联网金融近年来异常火热,吸引了大量资本和人才进入。 在金融领域中,无论是投资理 财还是借贷放款,风险控制永远是最为核心和重要的问题,而存目前所有的互联网金融产品 中,微额借款,即借款金额在 500~JOOO 元的借款,由于其主要服务对象的特殊性,被企认为 是风险最高的细分借贷领域。 将要进行的实战比赛的主题便是通过数据挖掘和机器学习等技 术,分析小额微贷...原创 2019-11-03 22:01:49 · 1219 阅读 · 0 评论 -
机器学习的一些知识
1、机器学习中经常会面临以下两大问题: 维度灾难和过拟合。1..1维度灾难 维度灾难( Curse of Dimensionality )是指数据量过大和特征数过多导致的一系列问题。 随着数据的不断积累,在实际应用问题中我们接触到的数据集、数据记录可能有几万、几十 万、 几百万乃至更多,特征数量也可能达到几百甚至几千个。 我们自然希望获取尽可能多的数据 即希望二维表的...原创 2019-11-03 21:08:22 · 874 阅读 · 0 评论 -
Day 3 Multiple Linear Regression
1 概念多元线性回归是对简单线性回归的推广,同时有着不同于简单线性回归的特性。多元线性回归(Multiple Linear Regression)尝试通过已知数据找到一个线性方程来描述两个及以上的特征(自变量)与输出(因变量)之间的关系,并用这个线性方程来预测结果。多元线性回归的数学形式如下:应用多元线性回归时,我们需要关注不同变量对预测结果的影响,以及不同的变量之间有什么...原创 2019-04-18 10:18:52 · 1026 阅读 · 0 评论 -
随机变量
为何要引入随机变量 尽管随机实验结果的意义是明确的,但这种实验结果往往是不利于进行数学分析。例如,随机实验结果是硬币的正面或反面,这并不是一个方便的数学表示。 在这些情况下,如果我们为随机实验的结果分配一个数字或一系列值,通常会更方便。例如,硬币的正面可以对应1,反面可以对应于0。为随机实验的结果分配一个数字的过程,我们叫做用随机变量表达。 一个随机试验的...原创 2019-04-26 21:29:27 · 2442 阅读 · 1 评论 -
Python数据挖掘
一、python中数据分析工具NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速...原创 2019-04-17 21:24:41 · 360 阅读 · 0 评论 -
Day 1_Data PreProcessing
数据集DATA.CSVCountry,Age,Salary,PurchasedFrance,44,72000,NoSpain,27,48000,YesGermany,30,54000,NoSpain,38,61000,NoGermany,40,,YesFrance,35,58000,YesSpain,,52000,NoFrance,48,79000,YesGerma...转载 2019-04-12 22:42:13 · 264 阅读 · 0 评论 -
机器学习100天
人工智能很火所以网上各式各样的资料特别多动辄几十GB,上百GB的云盘链接但是能把一个教程完整看完的少之又少坚持下去确实很难最近在github看到一个很不错的机器学习教程100 Days of ML Codinghttps://github.com/Avik-Jain/100-Days-Of-ML-Code大家可以去关注一下内容从易到难,非常适合刚入门的初学者...转载 2019-04-12 22:00:19 · 254 阅读 · 0 评论 -
Github 高赞机器学习路线
机器学习路线 链接:https://pan.baidu.com/s/1maiXkb75HqP__gzYACuHQg提取码:7ljrGitHub上一份机器学习完整路线引起了广泛关注,在短短的十个小时里已经收获了一千多个点赞。刚博士毕业的在一家AI创业公司工作的Giacomo回顾了自己三四年间学习机器学习的心路历程,毫无保留的分享出自己收藏的各种学习资源,工程,工具,awosome...原创 2019-04-09 17:21:46 · 713 阅读 · 0 评论 -
Day 2_Simple Linear Regression
简单线性回归是我们接触最早,最常见的统计学分析模型之一。假定自变量 x与因变量 y 线性相关,我们可以根据一系列已知的 (x,y) 数据,通过某种方法,拟合出一条直线 y=b0+b1x并利用这条直线预测 y yy 的值 。这种方法就叫作简单线性回归那么我们该如何去拟合出这条直线,才能使预测的结果最准确呢...原创 2019-04-18 09:36:56 · 365 阅读 · 0 评论 -
数据挖掘综述
1、定义 数据挖掘(Data mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更...原创 2019-04-11 10:41:05 · 3200 阅读 · 0 评论 -
Github标星超7k!从零开始,最简明扼要的数据科学学习路径
大数据文摘出品作者:蒋宝尚 试图入门一个新话题时,多数人会感到不知所措?这时候,一份明确的学习路径可以帮你去除这一焦虑。数据科学当然也有这样一套路径。 一周前在Github上出现的一份超高赞贴就总结出了这样一份“入门套路”,据这位神秘的发帖人所说,数据科学的学习不需要繁杂的准备和高深的数学知识,你只需有足够的时间、正确的学习方法、对数据分析的好奇心就足够...转载 2019-04-11 10:15:57 · 2812 阅读 · 0 评论 -
nlp文本处理开源工具,及聊天机器人实现
原文地址:http://www.leiphone.com/news/201702/4OZau7OfcNO0v1u5.html第一篇传送门:聊天机器人的发展状况与分类第二篇传送门:基于规则和检索的聊天机器人引擎本篇文章以这个开源项目为主线进行。数据预处理模型能聊的内容也取决于选取的语料。如果已经具备了原始聊天数据,可以用SQL通过关键字查询一些对话,也就是从大库里选取出一个小库来...转载 2019-01-02 22:37:45 · 1098 阅读 · 0 评论 -
基于深度学习的智能问答
原文地址:https://yq.aliyun.com/articles/58745摘要: 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史。但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应。自此,自动问答系统较以往任何时候都显得离实际应用更近。这一方面归功于机器学习与自然语言处理技术的长足进步,另一方面得作...转载 2019-01-02 22:34:20 · 1631 阅读 · 0 评论 -
自然语言处理发展历程
自然语言处理是包括了计算机科学、语言学心理认知学等一系列学科的一门交叉学科,这些学科性质不同但又彼此相互交叉。因此,梳理自然语言处理的发展历程对于我们更好地 了解自然语言处理这一学科有着重要的意义。 1950 年图灵提出了著名的“图灵测试”,这一般被认为是自然语言处理思想的开端, 20 世纪 50 年代到 70 年代自然语言处理主要采用基于规则的方法,研究人员们认为自然语...转载 2019-01-02 22:03:26 · 7085 阅读 · 0 评论 -
自然语言处理概念
自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发 展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语 言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。在整个人类历史上以语 言文字形式记载和流传的知识占到知识总量的 80%以上。就计算机应用而言,据统计,用于 数学计算的仅占 10%,用于过程控制的不到 5%,其余 85%左右都是用...转载 2019-01-02 21:58:24 · 2244 阅读 · 0 评论 -
中文文本中的关键字提取
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作。 ...转载 2018-12-31 23:14:21 · 9070 阅读 · 2 评论 -
结巴分词
Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,“结巴”中文分词目标是做最好的 Python 中文分词组件。 jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式。基于前缀词典实现...原创 2018-12-31 22:31:11 · 2348 阅读 · 0 评论 -
Day 4 Logistic Regression
逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。在线性回归模型中,输出一般是连续的,例如 y=f(x)=ax+b,对于每一个输入的x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞, +∞]。但是对于逻辑回归,输入可以是连续的[-∞, +∞],但输出一般是离散的,即只有有限多个输出值。例如,其值域可以只有两个值{0, 1...原创 2019-04-18 20:35:02 · 272 阅读 · 0 评论 -
概率分布
泊松分布泊松分布的定义泊松概率分布是考虑在连续时间和空间单位上发生的随机事件的概率。通俗解释:基于过去的经验,预测该随机事件在新的同样长的时间或同样大的空间中发生N次的概率。泊松分布包括以下条件: 单独事件在给定区间内随机、独立地发生,给定区间可以是时间或空间,例如可以是一个星期,也可以是一公里; ...转载 2019-05-02 22:12:39 · 640 阅读 · 0 评论 -
Python3 机器学习笔记
慕课网Python3 机器学习记录老师github地址https://github.com/liuyubobobo/Play-with-Machine-Learning-Algorithms.git2.6机器学习环境搭建Anaconda是一个方便的python包管理和环境管理软件,一般用来配置不同的项目环境。下载地址:https://mirror.tuna.tsinghua.e...原创 2019-10-02 16:00:17 · 372 阅读 · 0 评论 -
重磅!《深度学习 500 问》已更新,GitHub 标星 2.6W
数据π几个月前,红色石头发文介绍过一份在 GitHub 上非常火爆的项目,名为:DeepLearning-500-questions,中文译名:深度学习 500 问。作者是川大的一名优秀毕业生谈继勇。该项目以深度学习面试问答形式,收集了 500 个问题和答案。内容涉及了常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题。该热门项目一直在不断更新,作者本着开源精神,不断...转载 2019-07-12 16:51:02 · 276 阅读 · 0 评论 -
操龙兵:非独立同分布学习
原文地址:非独立同分布AIDL简介 “人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流,对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注获取最新消息。导读在第三届“人工智能前沿讲习班”上,...转载 2019-06-04 21:40:30 · 5872 阅读 · 1 评论 -
为什么机器学习中常常假设数据是独立同分布的?
1、基本概念(1)独立:每次抽样之间没有关系,不会相互影响举例:给一个骰子,每次抛骰子抛到几就是几,这是独立;如果我要抛骰子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关。(2)同分布:每次抽样,样本服从同一个分布意味着X1和X2具有相同的分布形状和相同的分布参数,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数...原创 2019-06-04 21:13:01 · 4537 阅读 · 0 评论 -
各种机器学习任务的顶级结果(论文)汇总
今日,机器之心小编在 Github 上发现了一个良心项目:RedditSota 统计了各种机器学习任务的最顶级研究成果(论文),方便大家索引查阅。机器之心对此项目做了介绍。项目地址:https://github.com//RedditSota/state-of-the-art-result-for-machine-learning-problems该 GitHub 库提供了所有机器学习问题...转载 2019-06-20 15:45:41 · 408 阅读 · 0 评论 -
深度学习论文阅读路线
作者一年前整理的东西,有些最新的论文没有包含进去,但是对于新手来说,入门足够了!如果你是深度学习领域的新人,你的第一个问题可能是“我该从哪些论文开始读起呢?”这就是深度学习论文的阅读路线图!这个路线图是根据下面几个规则构建的:从概要到细节从老的到最新的业界领先从通用的到细分领域的聚焦业界领先的你会发现很多论文很新,但是确实值得一读。我会继续在这个路线...转载 2019-06-18 21:47:42 · 863 阅读 · 0 评论 -
建立自己的知识体系
多元化思维模型1、概率思维2、逻辑思维3、复利思维(1)复利的定义(2)复利思维的应用(3)复利思维的核心...原创 2019-06-02 11:47:10 · 572 阅读 · 0 评论 -
Hugging Face出品:如何快速跟上NLP领域最新技术?
【导读】Hugging Face团队的大牛们,在博客上分享了自己认为的,能够帮助你了解自然语言处理前沿问题和技术的论文列表,小编将文章翻译成了中文,大家一起来看看吧。原文地址:https://medium.com/huggingface/the-best-and-most-current-of-modern-natural-language-processing-5055f409...转载 2019-05-23 20:13:16 · 3501 阅读 · 0 评论 -
手把手教你用Python构建你的第一个多标签图像分类模型(附案例)
原文链接:https://www.analyticsvidhya.com/blog/2019/04/build-first-multi-label-image-classification-model-python/你正在处理图像数据吗?我们可以使用计算机视觉算法来做很多事情:对象检测图像分割图像翻译对象跟踪(实时),还有更多……这让我思考——如果一个图像中有多个对象类别,我们...转载 2019-05-17 09:33:46 · 3366 阅读 · 0 评论 -
人工智能有价值文章资源
数学 概率质量函数与累积分布函数(离散类型)动画 交互式动画学人工智能 https://okai.brown.edu/zh/index.html基本概念 一文读懂数据科学、机器学习和AI区别在哪里?https://mp.weixin.qq.com/s/bzRvOxYe2U7apUjjs36bRA?成为一名机器学习算法工程师,你需要这些必备技能机器学...原创 2019-04-25 18:12:26 · 471 阅读 · 0 评论 -
Datawhale:完备的 AI 学习路线,最详细的中英文资源整理
本文由知名开源平台,AI 技术平台以及领域专家:Datawhale,ApacheCN,AI 有道和黄海广博士联合整理贡献,内容涵盖 AI 入门基础知识、数据分析\挖掘、机器学习、深度学习、强化学习、前沿 Paper 和五大 AI 理论应用领域:自然语言处理,计算机视觉,推荐系统,风控模型和知识图谱。是你学习 AI 从入门到专家必备的学习路线和优质学习资源。原文地址:https://mp.we...转载 2019-04-30 09:32:23 · 5151 阅读 · 0 评论 -
从超平面到SVM(一) 源| 小象 文| 数据挖掘机
SVM(support vector machines,支持向量机)是机器学习算法里面非常重要的一个二分类模型,不过该模型也可以算是机器学习算法里面最基础、最难理解的一个算法,因为该算法涉及到大量的数学知识,包括线性代数、高等数学,所以本文将从最基本的知识讲起,逐步深入讲清楚SVM的原理。一、深入理解超平面很多讲解支持向量机的文章从一开头就开始讲超平面及其方程,这样对多数没有基础的人来说较...转载 2019-04-24 19:17:17 · 514 阅读 · 0 评论 -
10分钟搭建你的第一个图像识别模型(附步骤、代码)
作者:Pulkit Sharma翻译:王威力校对:丁楠雅本文约3400字,建议阅读10分钟。本文介绍了图像识别的深度学习模型的建立过程,通过陈述实际比赛的问题、介绍模型框架和展示解决方案代码,为初学者提供了解决图像识别问题的基础框架。序言“几分钟就可以建立一个深度学习模型?训练就要花几个小时好吗!我甚至没有一台足够好的机器。”我听过无数次有抱负的数据科学家这样说,他们害怕在...转载 2019-05-17 14:22:55 · 4921 阅读 · 1 评论 -
机器之心:从贝叶斯定理到概率分布:综述概率论基本定义
本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野编者按:本文选自 Medium &analyticsvidhya,机器之心编译。本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,...转载 2019-04-18 22:04:09 · 494 阅读 · 0 评论 -
使用sklearn 机器学习基础知识
特征转化数据预处理:为什么要转化数据呢,就是要让它成为有效的特征,因为原始数据是很多脏数据无用数据的。常用的方法是标准化,归一化,特征的离散化等等连续型数据处理之二值化:Binarizer假设淘宝现在有个需求,我得根据年龄来进行物品推荐,把50以上的人分为老年,50以下分为非老年人,那么我们根据二值化可以很简单的把50以上的定为1,50以下的定为0。这样就方便我们后续的推荐了。Bina...原创 2019-04-18 21:45:52 · 573 阅读 · 0 评论 -
概率统计好资源
贝叶斯统计https://www.springboard.com/blog/probability-bayes-theorem-data-science/统计学导论http://open.163.com/movie/2011/5/M/O/M807PLQMF_M80HQQGMO.htmlhttp://open.163.com/special/opencourse/informatio...原创 2019-05-03 22:40:42 · 285 阅读 · 0 评论