- 博客(42)
- 收藏
- 关注
原创 Git pull 拉取代码到本地的几种方式(附 快速进入Git命令行)
进入Git项目主目录,鼠标右键选择 Git Bash Here 即可快速进入Git命令行需要下载Git,并且目录已经设置成项目地址。Git pull 强制拉取并覆盖本地代码git fetch --allgit reset --hard origin/mastergit pullGit pull 拉取远程代码(非强制)git resetgit pull...
2020-09-27 21:18:38
11356
原创 互联网人用什么软件画出大神级别的架构图?如何画出顶级架构图?
互联网行业对于架构来说,一张清洗明了又漂亮的架构图是必不可少的。什么软件适合互联网人设计架构图。我统计了几个个人觉得比较好用的。如果您正在建模企业体系结构,那么企业体系结构最流行的建模语言是ArchiMate。或者如果你说的是云架构,比如阿里巴巴、IBM、AWS, Google Cloud, Oracle……每个云架构都有自己的一组形状和图标来表示其云服务和架构。1.Visual Paradigm Online 我认为Visual Paradigm Online是您在市场上的...
2020-08-17 18:44:23
2170
原创 从NETSARANG官网下载 Xshell/Xftp个人免费版(所有版本)
来源,证实可用https://51.ruyo.net/10002.html
2020-08-12 11:10:16
2699
原创 go语言编译器goland下载安装(pycharm和IntelliJ IDEA用习惯的不妨试试同款界面和功能)
goland下载地址为 https://www.jetbrains.com/go/download/,进入直接安装即可。Go语言的IDE有很多,比如VS Code,Vim,Elipse,liteide,sublime ,相对这些来说,我还是喜欢用goland,原因是用习惯了pycharm和IDEA所以熟悉、效率高。我不会为了追求高大上,使用类似vim这样的工具来编写 golang 的代码,因...
2019-07-04 11:51:59
2252
原创 初学go语言开发第一个爬虫项目
package main import ( "fmt" "net/http" "os" "regexp" "strconv" "strings") func HttpGet(url string) (result string, err error) { resp, err1 := http.Get(url)//发送Get请求 if err1 != nil { er...
2019-05-25 10:31:16
400
原创 深入浅出带你理解静态方法和类方法的区别
class A(): x1 = 3 def __init__(self): self.num = 1 @ staticmethod def test1(): print("这里是静态方法输出") print(A().num) # 静态方法调用实例属性,类属性,类方法都需要 类名() # 这种属于实例一个对象调...
2019-05-14 16:35:39
1069
原创 探索TextRank提取文本关键词
TextRank算法介绍 先说一下自动文摘的方法。自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction。其中Extraction是抽取式自动文摘方法,通过提取文档中已存在的关键词,句子形成摘要;Abstraction是生成式自动文摘方法,通过建立抽象的语意表示,使用自然语言生成技术,形成摘要。由于生成式自动摘要方法需要复杂的...
2019-04-10 18:08:52
1826
1
原创 探索tf-idf提取文本关键词
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Do...
2019-04-10 18:03:20
4042
3
原创 'ascii' codec can't encode characters in position 144-145: ordinal not in range(128) (Linux中py3)
用 python 将数据插入到Oracle 数据库 一直报这个错,(Linux运行)检查编码各项都没有发现问题,但是讲 赋值之后的sql 拿出来插入是可以成功的。网上查了很多解决方案都是:importsys reload(sys) sys.setdefaultencoding('utf8')但是我发现不可行,并且Python3好像已经不支持了。经过一番...
2019-03-29 17:48:40
428
1
转载 Linux程序前台后台切换(问题解决转载备用)
fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令一、&加在一个命令的最后,可以把这个命令放到后台执行,如watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本二、ctrl + z可以将一个正在前台执行的命令放到后台,并且处于暂停状态。三、jobs查看当前有多少在后台运行的命令jobs -l选...
2019-03-20 15:54:38
377
原创 Windows下安装Pytorch
找了很多都发现是下载不了的,找了下发现目前没有Windows版本。但是 似乎知乎有解决方案,我没有测试过。附上链接 : Windows下安装Pytorch ...
2019-03-05 15:44:35
603
原创 Win10上安装CUDA10 (tensorflow1.12+py3.6+cuda10+win10)
Win10上的CUDA10库装上了,anaconda最新版有坑,最终还是回到anaconda3.5搞定网盘链接如下,有需要的自取链接:https://pan.baidu.com/s/1iJtjydqfSyJbW6KnYe3ZZw 提取码:fhwp 复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-02-02 11:24:31
1441
原创 go语言编译器LiteIDE安装和下载
LiteIDE编译器下载地址链接:https://pan.baidu.com/s/1DQgTpg_5TpRg6Gz4X7GJkA 密码:vgoe 解压之后找到目录:liteide\bin下的liteide.exe双击打开即可。 GO语言下载安装地址官网安装包下载地址为:https://golang.org/dl/ #这是官网,需要翻。。。墙才能下载安装。如果打...
2018-09-21 10:15:35
2541
原创 sklearn如何做好特征工程
以下内容相关包信息:Python3 相关下载主要包:sklearn(scikit-learn),numpy ,scipy安装:pip install 包名 ,建议安装顺序numpy,scipy,sklearn(scikit-learn)以下信息参考于知乎,对于部分信息进行修改:1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼...
2018-09-07 10:47:27
4597
原创 No module named 'sklearn.lda'
当我们使用 sklearn 调用 lda 中的 线性判别分析法(LDA)报错问题。from sklearn.lda import LDA 这种调用方式是老版本的 sklearn 我们应该尝试用新版本的调用方式就可以解决问题。解决方式:from sklearn.discriminant_analysis import LinearDiscriminantAnalysi...
2018-09-07 10:23:52
8718
1
转载 机器学习之信息增益(熵和条件熵)
本文转载于:https://blog.youkuaiyun.com/chunyun0716/article/details/51289940要了解信息增益,我们要先知道熵与条件熵的定义。2.1 熵熵是无序度的度量,在信息论和统计中,熵表示随机变量不确定性的度量。假设XX是一个取有限值的离散型随机变量,它的概率分布如下:P(X=xi)=pi,i=1,2,…,nP(X=xi)=pi,i=1,2,...
2018-09-07 10:00:32
5905
转载 机器学习之特征选择方法总结
文章转载于:https://blog.youkuaiyun.com/lihaitao000/article/details/51213563?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义...
2018-09-07 09:18:34
4572
原创 人工智能算法公式中常见的数据符号的定义和解释?
长期更新中...... 没有记录的希望大家留言补充对数:(log,lg,ln,lb)loglog4 (8)=log4 (4*2)=log4 (4)+log4 (2)=1+0.5=1.5log4 (2)=0.5因为4的1/2次方是2ln是底数为e的对数,比如ln3,就是指e的x次方等于3,这个x就是ln3的值。e叫自然对数,他的值大约是2.718左右。P:概率...
2018-09-06 19:20:23
12569
转载 统计学离散型变量和连续型变量有什么区别?
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.如果变量可以在某个区间内取任一...
2018-09-06 18:48:07
81860
原创 机器学习度量方式之基尼不纯度(Gini impurity)和信息熵(Python实现)
决策树是一种简单的机器学习方法。决策树经过训练之后,看起来像是以树状形式排列的一系列if-then语句。一旦我们有了决策树,只要沿着树的路径一直向下,正确回答每一个问题,最终就会得到答案。沿着最终的叶节点向上回溯,就会得到一个有关最终分类结果的推理过程。以下为决策树过程:初始化:#! /usr/bin/python# -*- coding: utf8 -*-# @Time ...
2018-09-06 18:34:55
11194
转载 皮尔森相关系数和样本方差
数据来源百度百科皮尔森相关系数皮尔森相关系数的公式为:样本的简单相关系数一般用r表示,其中n 为样本量, 分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表...
2018-09-06 14:59:37
3687
原创 递归特征消除Recursive feature elimination (RFE)
递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据系数来选),把选出来的特征选择出来,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。因此,这是一种寻找最优特征子集的贪心算法。RFE的稳定性很大程度上取决于在迭代的时候底层用哪种模型。例如,假如RFE采用的普通的回归,没有经过正则化的回归是...
2018-09-06 09:32:12
11897
6
转载 机器学习特征选择之卡方检验与互信息
本文转载于:https://blog.youkuaiyun.com/yihucha166/article/details/50646615特征选择的主要目的有两点:1.减少特征数量提高训练速度,这点对于一些复杂模型来说尤其重要2.减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化(generalization),从而在测试集...
2018-09-05 19:41:39
3043
原创 数据预处理中常见的哑编码/独热编码(One-Hot Encoding)详解(一看就懂)
通常需要处理的数值都是稀疏而又散乱地分布在空间中,然而,我们并不需要存储这些大数值,这时可以用独热编码。例如:我们需要处理4维向量空间,当给一个特征向量的第n个特征进行编码时,编码器会遍历每个特征向量的第n个特征,然后进行非重复计数。若第n个特征的最大值为K,则就把这个特征转换为只有一个值为1而其他值都是0的K+1维向量。encoder=OneHotEncoder(sparse=Fal...
2018-09-04 15:47:08
21395
2
原创 机器学习中稀疏矩阵的处理方式和Python实现
在矩阵中,如果数值为0的元素数目远远多于非0元素的数目,并且非0元素分布无规律时,则称该矩阵为稀疏矩阵;与之相反,若非0元素数目占大多数时,则称该矩阵为稠密矩阵。大的稀疏矩阵在一般情况下是通用的,特别是在应用机器学习中,例如包含计数的数据、映射类别的数据编码,甚至在机器学习的整个子领域,如自然语言处理(NLP)。教程概述本教程分为5部分;分别为:稀疏矩阵稀疏的问题机器学习中...
2018-09-04 15:33:58
21369
4
原创 python用Levenshtein计算文本相似度(附带所有个人对函数的理解)
安装 Levenshtein 报错问题点击:解决安装python-Levenshtein时出现“Unable to find vcvarsall.bat”错误#! /usr/bin/python# -*- coding: utf8 -*-# @Time : 2018/8/30 10:11# @Author : yukangfrom Levenshtein import *...
2018-08-30 13:30:02
13685
1
原创 解决安装python-Levenshtein时出现“Unable to find vcvarsall.bat”错误
安装过程:1.pip install python-Levenshtein 或 下载包到本地,在cd到目录下运行 python setup.py install 我用的是第二种方式;2.此过程中报错 unable to find vcvarsall.bat; 详细解决方案见:https://blog.youkuaiyun.com/fyuanfena/article/details/520...
2018-08-30 11:44:55
8026
1
转载 各种相似度计算的python实现
来源:本文转载地址(注:相对转载代码 做了一些改动)前言在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤。计算相似度的有许多方法,其中有欧几里德距离、曼哈顿距离、Jaccard系数和皮尔逊相关度等等。我们这里把一些常用的相似度计算方法,用python进行实现以下。如果是初学者,我认为把公式先写下来,然后再写代码去实现比较好。欧几里德距离几个数据集之间的相似度一般是基于...
2018-08-30 11:18:16
22423
5
原创 jieba分词中所有词性对应字母符号显示(词性列表及符号表示)
1. 名词 (1个一类,7个二类,5个三类)n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素2. 时间词(1个一类,1个二类)t 时间词tg 时间词性语素3. 处所词(1个一类)s 处所词 (家中、门外、境内、西方……)4. 方位词(...
2018-08-30 10:09:43
7739
5
原创 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP自然语言处理
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话、办公写作、上网浏览希望机器能像人一样去理解,以人类自然语言为载体的文本所包含的信息,并完成一些特定任务内容中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入……应用篇章理解、文本摘要、情感分析、...
2018-08-30 10:07:09
5271
1
原创 深入jieba和NLTK提取文本词向量,词性等
#! /usr/bin/python# -*- coding: utf8 -*-# @Time : 2018/8/29 15:15# @Author : yukangimport nltk,jieba,reimport jieba.analyseimport jieba.posseg as psegfrom nltk.probability import FreqDist...
2018-08-30 09:36:45
6987
原创 NLTK:Resource punkt not found. Please use the NLTK Downloader to obtain the resource:2步解决
打开CMD 命令进入Python交互模式>>> import nltk >>> nltk.download()会弹出一个界面,如图:点击Models ,双击punkt或者选择点击Download安装完成就不会报错了。 ...
2018-08-29 15:50:08
12035
5
原创 error:Unable to find vcvarsall.bat 最简单直接彻底的解决方案
其他安装同理以下。 不少第一次尝试爬虫的小伙伴在安装scrapy或者scrapy-Redis的Windows安装过程都会遇到的问题。记得我第一次也搞了半天,网上很多模棱两可,看不是很明白。今天突然想记录一下。 第一步:登陆 : http://www.lfd.uci.edu/~gohlke/pythonlibs 搜索: twisted看到如图:第二步:...
2018-08-16 11:53:45
12951
15
转载 linux(服务器)下安装python3
由于centos7原本就安装了Python2,而且这个Python2不能被删除,因为有很多系统命令,比如yum都要用到。[root@iZuf6ititjgl7x9tgf1cyiZ ~]# pythonPython 2.6.6 (r266:84292, Aug 18 2016, 15:13:37) [GCC 4.4.7 20120313 (Red Hat 4.4.7-17)] on lin...
2018-08-09 10:19:49
9554
原创 简述ES(ElasticSearch入门简介)
根据ES的官方文档,可以简单定义以下3点:1 .一个分布式的实施文档存储,每个字段可以被索引与搜索2 .一个分布式实时分析搜索引擎3 .可以胜任上百个服务节点的扩展,并支持PB级别的结构化或者非结构化数据。 Elasticsearch请求和HTTP请求类似,由以下几个相同的部件构成curl -X<VERB>'<PROTOCOL>://<HOST...
2018-08-03 11:22:08
25933
4
转载 Mysql主从同步(1)-主从/主主环境部署梳理(亲测可用)
原文转载与:http://www.cnblogs.com/kevingrace/p/6256603.html Mysql复制概念说明Mysql内建的复制功能是构建大型,高性能应用程序的基础。将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其它主机(slaves)上,并重新执行一遍来实现的。复制过程中一个服务器充当主服务器,而一个或多个其它服...
2018-07-27 10:55:13
4029
转载 快速上手结巴分词
一.特点1、支持三种分词模式 精确模式,试图将句子最精确的切开; 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典4、MIT授权协议二.安装说明代码对Python 2/3 均兼容全自动安装:e...
2018-07-12 16:19:05
4781
原创 最全面的Hadoop框架以及整个大数据生态介绍
1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark...
2018-07-03 19:35:16
5413
原创 RecursionError: maximum recursion depth exceeded while calling a Python object
RecursionError: maximum recursion depth exceeded while calling a Python object爬虫的朋友一般分页或者回调的时候就经常会遇到这个错误,英文意思很明白,超过了Python的最大递归深度。解决方法很简单,在代码头部加入:import syssys.setrecursionlimit(1000000)这样修改Python最大递...
2018-07-02 14:21:27
15331
原创 Exception: Java gateway process exited before sending the driver its port number(以解决)附源码
代码如下:#! /usr/bin/python# -*- coding: utf8 -*-#author:yukangimport pysparkfrom pyspark import SparkContext as scfrom pyspark import SparkConfimport osconf = SparkConf().setAppName('test').setMa...
2018-03-16 14:12:32
15357
7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人