
python
littletomatodonkey
work and life balance
展开
-
PPOCR-3.5M超轻量中英文OCR模型详解-(一) 简介、方案概览和数据
PP-OCR: A Practical Ultra Lightweight OCR System论文地址:https://arxiv.org/abs/2009.09941代码地址:https://github.com/PaddlePaddle/PaddleOCR一、简介PP-OCR是一个实用的超轻量中英文OCR系统,是针对中英文OCR问题,对最新的文本检测算法 Differentiable Binarization (DB) 和经典的文本识别算法CRNN的能力充分挖掘,虽然没有理论创新,但是从骨干.转载 2020-09-25 23:07:51 · 10556 阅读 · 0 评论 -
MPI使用-python
MPI使用简介MPI(Message Passing Interface),消息传递接口,是一种基于消息传递的并行编程技术,常用于在非共享存储系统中开发并行程序。它定义了一套接口,许多其他厂商对其进行实现,并产生了许多库,几乎所有平台都可以使用MPI。消息传递指的是并行执行的各个进程具有自己独立的堆栈和代码段,作为互不相关的多个程序独立执行,进程之间的信息交互完全通过显示地调用通信...原创 2018-05-13 14:29:56 · 14940 阅读 · 2 评论 -
遗传算法-python
遗传算法-python注:有很多python-GA的库,deap、gaft等,这里选取了一个比较好上手的gaft简介遗传算法主要包括适应度函数、选择、交叉、变异生成新的个体几个模块,初始化种群大小,然后计算所有个体的适应度,(使用轮盘概率的方法)选择适应度最大的个体,进行交叉、变异生成新个体,并计算适应度,淘汰掉那些具有很低适应度的个体。以此往复,直到达到程序退出条件。参考...原创 2018-05-12 15:38:48 · 4272 阅读 · 6 评论 -
spark基本使用
spark使用spark基本配置python命令行启动pysparkcd /usr/local/spark./bin/pyspark统计文本的行数lines = sc.textFile("file:///usr/local/spark/README.md")lines.count()* 在这里需要使用本地文件系统的绝对路径,因为在pyspark中...原创 2018-03-21 21:19:38 · 7789 阅读 · 0 评论 -
RDD的键值对操作(pair RDD)
RDD的键值对操作创建可以从RDD中直接通过map函数进行创建lines = sc.textFile("file:///usr/local/spark/README.md")pairs = lines.map( lambda x : (x.split(" ")[0], x) ) # 将第一行的第一个单词作为key,该行字符串作为value,构建pairRDDprint( pa...原创 2018-03-22 17:57:29 · 3743 阅读 · 0 评论 -
tensorflow RNN
RNN介绍setup code# 不显示python使用过程中的警告import warningswarnings.filterwarnings("ignore")%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport tensorflow as tfimport osde原创 2018-01-29 21:15:03 · 1114 阅读 · 0 评论 -
jupyter tensorflow配置
jupyter tensorflow配置Anaconda安装按照官网安装即可tensorflow按照官网安装即可使用时需要source activate tensorflowwindows防火墙配置在配置jupyter,使其能够远程访问之前,首先需要配置本地的防火墙,因为用服务器ping本地windows机器出现了无法连接的情况解决办法的链接:ht原创 2018-01-20 23:13:41 · 3675 阅读 · 0 评论 -
sklearn 降维方法概述
降维方法现实中的许多数据都是稀疏的(sparse),高维数据处理的时间和空间复杂度都十分大,因此需要对数据进行降维对数据进行降维,会在一定程度上降低数据的精度,同时也会增加机器学习模型处理流程的复杂度。主要的降维方法映射(Projection)现实中的许多数据的特征都是相关的,或者特征为常数,可以利用映射的方法将高维数据映射到低维流行学习(Manifold原创 2018-01-20 00:54:40 · 4519 阅读 · 0 评论 -
sklearn集成方法
集成方法 集成方法是训练很多基学习器,然后用这些基学习器去对进行分类或者回归,最后取所有结果中比例最大的作为模型的结果投票分类器(Voting Classifiers)定义:对于一个训练集,有很多分类器,比如说Logistic、KNN、SVM等。对于一个样本,我们给出所有分类器的分类结果,然后利用这个结果对样本的分类进行预测 hard voting classifier原创 2018-01-19 17:53:18 · 8360 阅读 · 3 评论 -
卷积神经网络的基本概念与mnist测试
CNN简介视觉皮质有一块很小的局部感受野(local receptive feld)。不同的感受野之间可能会发生重叠,所有的感受野组成了可视区域对视觉皮质的研究最终演化为CNN,CNN除了之前的全连接层以及激活函数等概念,还引入了卷积层和池化层等概念setup code# 不显示python使用过程中的警告import warningswarnings.fil原创 2018-01-28 12:11:47 · 2248 阅读 · 0 评论 -
tensorflow 增强学习
增强学习(Reinforcement Learning)增强学习的应用领域很广,它假定有一个智能体(agent)在系统中,智能体做出特定的决策,对于表现不好的行为给予惩罚,奖励表现好的行为Setup code# 不显示python使用过程中的警告import warningswarnings.filterwarnings("ignore")%matplotlib i原创 2018-02-03 16:14:08 · 3500 阅读 · 0 评论 -
sklearn 决策树
sklearn 决策树原创 2018-01-18 15:49:51 · 1462 阅读 · 0 评论 -
DNN训练过程中的一些问题以及技巧
DNN训练过程中的一些问题以及技巧首先介绍几个概念 lower layers :浅层的网络层,主要对简单的特征进行梯度,如边缘、角点等deeper layers:深层的网络层,主要用于提取十分复杂的特征。在使用DNN的过程中,我们可能会遇到一些问题 梯度弥散或者梯度爆炸,这会提升DNN的训练难度对于大型的网络来说,其训练速度十分慢如果网络参数过多,很容易发生过拟合的问题原创 2018-01-25 17:26:14 · 6535 阅读 · 0 评论 -
tensorflow 自编码器
AutoencodersAutoencoder可以对输入数据进行无监督的学习,coding得到的结果的维度往往很低,因此自编码器可以用于数据的降维;自编码器也可以用于特征检测;同时也可以生成许多与训练数据相似的新数据,这可以被称为生成模型(generative model)。setup code# 不显示python使用过程中的警告import warningswarn原创 2018-01-31 19:43:58 · 1997 阅读 · 2 评论 -
tensorflow 神经网络基本使用
TF使用ANN(artificial neural network)简介受到生物神经网络的启发发展历史 生物神经网络单元逻辑运算单元:and、or、xor等运算感知机(perceptron):hw(x)=step(wT⋅x)h_w(x)=step(w^T \cdot x)多层感知机和反向传播(multi-perceptron and backpropagation)p原创 2018-01-22 20:40:18 · 5143 阅读 · 0 评论 -
tensorflow入门
tensorflow 基本使用简介TF底层是用C++封装的,因此十分高效TF定义一个图,然后利用优化的C++代码对图进行计算TF有可视化工具tensorboard,可以对计算图进行可视化TF可以实现自动微分(automatic differentiating)TF默认情况下会使用所有gpu,同时占满所有gpu内存,如果需要对其进行修改,可以参考:https://www.cnb原创 2018-01-22 15:05:23 · 380 阅读 · 0 评论