
ML | 机器学习
文章平均质量分 85
machine learning:机器学习
DrugAI
Fight Disease With Code ! Fight Disease With Data Technology !
药学、医学、化学和生物与计算机和AI交叉的爱好者从业者。
展开
-
GitHub 3.6k Satr自监督学习(Self-Supervised Learning)资源你值得拥有!
自我监督学习已成为AI社区中令人兴奋的方向。Jitendra Malik: "Supervision is the opium of the AI researcher" Alyosha Efros: "The AI revolution will not be supervised" Yann LeCun: "self-supervised learning is the cake, supervised learning is the icing on the cake, reinforceme原创 2021-04-12 15:06:43 · 5157 阅读 · 0 评论 -
Machine Learning | (12) 非监督学习-k-means
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-15 19:58:15 · 1126 阅读 · 0 评论 -
Machine Learning | (11) 回归性能评估与欠拟合、过拟合
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-15 19:51:35 · 1063 阅读 · 0 评论 -
Machine Learning | (10) 回归算法-岭回归
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-14 22:31:53 · 1088 阅读 · 0 评论 -
Machine Learning | (9) 回归算法-线性回归
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-14 22:21:20 · 1627 阅读 · 0 评论 -
Machine Learning | (8) Scikit-learn的分类器算法-随机森林(Random Forest)
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-13 19:48:54 · 1859 阅读 · 0 评论 -
Machine Learning | (7) Scikit-learn的分类器算法-决策树(Decision Tree)
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-13 19:48:48 · 1421 阅读 · 0 评论 -
Machine Learning | (6) Scikit-learn的分类器算法-性能评估
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-13 19:32:11 · 1208 阅读 · 0 评论 -
Machine Learning | (5) Scikit-learn的分类器算法-朴素贝叶斯
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻Machine Learning | (4) Scikit-learn的分类器算法...原创 2020-02-13 19:21:31 · 1424 阅读 · 0 评论 -
Machine Learning | (4) Scikit-learn的分类器算法-逻辑回归
Machine Learning | 机器学习简介Machine Learning | (1) Scikit-learn与特征工程Machine Learning | (2) sklearn数据集与机器学习组成Machine Learning | (3) Scikit-learn的分类器算法-k-近邻逻辑回归(Logistic Regression),简称LR。它的特点是能够...转载 2020-02-13 19:02:50 · 1275 阅读 · 0 评论 -
Machine Learning | (3) Scikit-learn的分类器算法-k-近邻
Machine Learning | 机器学习简介分类算法之k-近邻k-近邻算法采用测量不同特征值之间的距离来进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型一个例子弄懂k-近邻电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片。动作片有哪些公共的特征?那么爱情...原创 2020-02-13 00:05:42 · 1312 阅读 · 0 评论 -
Machine Learning | (2) sklearn数据集与机器学习组成
Machine Learning | 机器学习简介机器学习组成:模型、策略、优化《统计机器学习》中指出:机器学习=模型+策略+算法。其实机器学习可以表示为:Learning= Representation+Evalution+Optimization。我们就可以将这样的表示和李航老师的说法对应起来。机器学习主要是由三部分组成,即:表示(模型)、评价(策略)和优化(算法)。表...原创 2020-02-13 00:05:23 · 1636 阅读 · 0 评论 -
Machine Learning | (1) Scikit-learn与特征工程
Machine Learning | 机器学习简介Scikit-learn与特征工程“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需要进行一些特征处理,特征的缩放等等,满足训练数据的要求。将初次接触到Scikit-learn这个机器学习库...原创 2020-02-12 22:21:56 · 1474 阅读 · 0 评论 -
深度学习在药物发现领域的兴起
翻译《The rise of deep learning in drug discovery》摘要过去的十年中,深度学习(DeepLearning,DL)在各种人工智能研究领域取得了显着的成功。从以前对人工神经网络的研究演变而来,该技术在诸如图像和语音识别,自然语言处理等领域表现出优于其他机器学习(Machine Learning,ML)算法的性能。近年来,深度学习在医药研...原创 2018-05-28 17:11:18 · 8641 阅读 · 2 评论 -
深度学习在小分子药物研发中的应用
一、深度学习在小分子药物研发中的应用二、深度学习工具TensorFlow Python https://www.tensorflow.org/Torch Lua http://torch.ch/Theano Pyt...原创 2018-05-26 20:13:38 · 5406 阅读 · 0 评论 -
药物设计的深度学习(Deep Learning for Drug Design)
翻译《Deep Learning for Drug Design: an Artificial Intelligence Paradigm for DrugDiscovery in the Big Data Era》摘要过去的十年中,深度学习(deeplearning, DL)方法已经非常成功并广泛用于开发几乎每个领域的人工智能(AI)。与传统的机器学习(machine...原创 2018-05-27 00:58:11 · 16050 阅读 · 4 评论 -
Python自然语言处理 NLTK 库用法入门教程
NLP (Natural Language Processing):自然语言处理那么 NLP 到底是什么?学习 NLP 能带来什么好处?简单的说,自然语言处理( NLP )就是开发能够理解人类语言的应用程序和服务。我们生活中经常会接触的自然语言处理的应用,包括语音识别,...原创 2019-11-07 22:38:16 · 2370 阅读 · 0 评论 -
机器学习的应用
Applied Machine Learning原创 2019-10-29 17:30:40 · 1051 阅读 · 0 评论 -
人工智能 vs 机器学习 vs 深度学习的区别
In fact, the business plans of the next 10,000 startups are easy to forecast: Take X and add AI. Find something that can be made better by adding online smartness to it-Kevin Kelly, The Inevitabl...原创 2019-10-29 17:05:39 · 1240 阅读 · 0 评论 -
知识图谱(Knowledge Graph)之综述理解
注:该博文是我在看了数篇知识图谱综述以及阅读了相关资料后的一个总结以及自己的相关理解。知识图谱技术是人工智能技术的重要组成部分,以结构化的方式描述客观世界中的概念、实体及其键的关系。知识图谱提技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智...转载 2019-12-13 14:54:29 · 15653 阅读 · 0 评论 -
NLP(5) | 命名实体识别
NLP(1) | 词向量one hot编码词向量编码思想NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词NLP(3)| seq to seq 模型NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练为什么需要实体识别普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需要实体识别的算法。下面就...转载 2019-10-25 22:00:50 · 1978 阅读 · 0 评论 -
NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练
NLP(1) | 词向量one hot编码词向量编码思想NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词NLP(3)| seq to seq 模型前言:出于种种原因,总是不自觉把爱好和工作相互结合起来,每每感叹于曹雪芹构思的巧妙,语言的精炼,情节的感人……于是蹦出想法,看机器能否读懂“宝黛”之间的爱情。数据处理数据当然是伟大的《红楼梦》本身了,下载txt文件。...转载 2019-10-25 21:47:55 · 2628 阅读 · 1 评论 -
NLP(3)| seq to seq 模型
NLP(1) | 词向量one hot编码词向量编码思想NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型变好 几种Seq2Se...转载 2019-10-25 21:16:42 · 2859 阅读 · 0 评论 -
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(1) | 词向量one hot编码词向量编码思想分词的概念 简单来说就是把词进行分开,分词的难点: 1.如何避免歧义,如:“白开水不如果汁甜”。如何让机器避免将“如果”分到一起。 2.如何识别未登录词,并判断词性(人物,地点) 解决歧义的方法有很多,使用n_gram模型或者概率统计在解决歧义的作用下很好实现,如下面要介绍的HMM和CRF.分词方法分类基于...转载 2019-10-25 21:01:34 · 1652 阅读 · 0 评论 -
NLP(1) | 词向量one hot编码词向量编码思想
词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样前言:深度学习网络rnn能解决有序的问题,我们就生活在这样一个有序的世界。比如时间,音乐,说话的句子,甚至一场比赛,比如最近正在举办的俄罗斯世界杯。one hot编码我们在做分类任务的时候经常用到one hot编码,如果把自然语言中每个词当做一个...转载 2019-10-25 20:38:18 · 3580 阅读 · 0 评论 -
回归模型-衡量预测质量的指标:
衡量预测质量的指标:误差平方:缺点:取值与样本量n有关,随着数据集的增大而增大均方误差(Mean Squared Errer,MSE):平方误差的均值缺点:平均偏离误差数是呈x^2平方增长均方根误差(Root Mean Squared Error,RMSE)缺点:取值范围为无穷,不能直观的看出模型的质量拟合优度 r2=r2xy(SST=Syy):...原创 2019-10-24 15:24:29 · 2494 阅读 · 0 评论 -
图神经网络(GNN)的简介
近年来,图神经网络(GNN)在社交网络、知识图、推荐系统甚至生命科学等各个领域得到了越来越广泛的应用。GNN在对图节点之间依赖关系进行建模的强大功能,使得与图分析相关的研究领域取得了突破。本文介绍了图神经网络的基本原理,以及两种高级的算法,DeepWalk和GraphSage。图(Graph)在讨论GNN之前,我们先来了解一下什么是图。在计算机科学中,图是由顶点和边两部分组成的一种数据结构...转载 2019-10-09 17:22:59 · 59610 阅读 · 1 评论 -
数据科学 | Python数据科学常用库
Python 在解决数据科学任务和挑战方面继续处于领先地位。目录核心库IPythonNumPySciPyPandasStatsModels可视化MatplotlibSeabornPlotlyBokehPydot机器学习Scikit-learnXGBoost / LightGBM / CatBoostEli5深度学...原创 2019-10-04 18:18:57 · 1750 阅读 · 0 评论 -
Data Science | 数据分析
数据分析:Data Analysis 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的过程数据收集:本地数据或者网络数据的采集与操作. 数据处理:数据的规整,按照某种格式进行整合存储。 ...原创 2019-10-04 16:45:24 · 1256 阅读 · 0 评论 -
Data Science | 数据科学简介
数据科学(Data Science) 数据科学是一个跨学科的领域,包含所有与结构化和非结构化数据相关的内容,从准备、清理、分析和源于有用的视角开始。它结合了数学、统计学、智能数据捕获、编程、问题解决、数据清理、不同的观察角度、准备和数据对齐。 简而言之,它是对数据进行处理的几种技术和流程的组合,以获得有价值的业务视角。通过使用科学的方法、算法、流程和系统来有效地提取...原创 2019-10-04 01:24:44 · 4081 阅读 · 0 评论 -
Machine Learning | 机器学习简介
什么是机器学习 机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习算法是一类从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的算法机器学习应用程序的开发步骤(1)收集数据 可以...原创 2019-10-04 01:01:00 · 1530 阅读 · 0 评论 -
Machine Learning | 基于逻辑回归做二分类进行癌症预测
导入包import pandas as pdimport numpy as npfrom sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegressionfrom sklearn.model_sel...原创 2019-10-03 16:34:59 · 1409 阅读 · 0 评论 -
只需十四步:从零开始掌握Python机器学习(附资源)
Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1 掌握 Python 机器学习,至于后面再从 1 到 100 变成机器学习专家,就要看你自己的努力了。本教程原文分为两个部分,机器之心在本文中将其进行了整合,原文可参阅:suo.im/KUWgl和suo.im/96wD3。...转载 2018-08-14 18:11:30 · 1495 阅读 · 0 评论 -
《机器学习Python实践》——数据导入(CSV)
一,CSV逗号分隔值(逗号分隔值,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。字幕:纯意味着该文件的英文一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的的英文逗号或制表符。通常,所有记录都有完全相同的字段序列。通...原创 2018-08-14 18:14:10 · 8133 阅读 · 1 评论 -
Nature | 机器学习在药物研发中的应用
摘要药物研发管线漫长、复杂且取决于许多因素。机器学习(ML)通过丰富且高质量的数据改进指定问题的发现和决策。机器学习在药物发现的所有阶段都有应用:靶标验证、生物标志物的鉴定和临床试验中数字病理学数据的分析。应用程序的范围和方法不同,有些方法可以产生准确的预测和解释。应用机器学习的主要挑战在于ML产生的结果缺乏可解释性和可重复性,可能限制其应用。在所有领域,仍然需要生成系统和全面的高维数据。...原创 2019-06-18 12:48:18 · 6157 阅读 · 1 评论