- 博客(20)
- 资源 (7)
- 收藏
- 关注
原创 C++后台开发学习路线
一、语言基础1 语法基础重点掌握:(务必熟悉底层机制原理)指针和引用的概念指针与内存关系程序编译过程static、const、#define的用法和区别C和C++区别内存模型内存中的栈和堆分配2 面对对象基础(务必熟悉底层机制原理)面向对象理解析构函数构造函数拷贝构造多态纯虚函数和虚函数虚函数实现机制虚函数表访问限定符 public、private、protected继承原理、虚继承、菱形继承静态绑定和动态绑定new/delete和malloc/free重载
2020-08-26 15:28:12
1203
1
原创 服务机器人问答纠错模块总结
现有客服机器人处理顺序,先通过ASR技术将语音转文本或直接使用客户端输入的文本得到客户输入的问题文本,再处理该文本。得到正确的文本是所有NLU处理的起点与基础。本文介绍的纠错主要是基于ASR系统转换之后的纠错。语音系统中语音内容识别(ASR)的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文本可能包含错误,继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASR的query文本进行预处理纠错成了
2020-07-15 16:04:57
1521
原创 Windows10内置Linux子系统安装及C++编程环境配置
Windows10内置了Linx内核,可以安装Ubuntu子系统,比安装双系统和虚拟机更加方便。1、设置界面设置开发者选项2、然后按照以下步骤启动或关闭Windows功能:控制面板->程序与功能->启动或关闭Windows功能,在适用于Linu的Windows子系统栏进行勾选。3、再通过应用商店进行Ubuntu安装4、首次打开Ubuntu,需要设置用户名和密码首次打开装好的Ubuntu,需要按着提示一步步设置用户名以及密码。5、更换为国内源,以便快捷搜索直接用
2020-07-15 14:08:09
1701
转载 2020 年 中英文拼写纠错开源框架梳理
一、中文:1、Pycorrector:https://github.com/shibing624/pycorrector当前主流的中文纠错框架,支持规则和端到端模型2、FASPell:https://github.com/iqiyi/FASPell/blob/master论文:https://www.aclweb.org/anthology/D19-5522.pdf使用bert进行预训练+微调,再经过CSD过滤器得到最终结果。支持简体中文文本; 繁体中文文本; 人类论文; OCR结果等3
2020-07-09 10:01:49
1885
转载 部分数据集
为防丢失,进行记录大学公开数据集(Stanford)69G大规模无人机(校园)图像数据集【Stanford】http://cvgl.stanford.edu/projects/uav_data/人脸素描数据集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html自然语言推理(文本蕴含标记)数据集【NYU】htt...
2020-01-09 11:27:01
15753
原创 Ubuntu gitlab 操作手册
1、Ubuntu 配置 ssh Keys打开电脑终端,生成ssh的key输入命令: ssh-keygen -o -t rsa -b 4096 -C "登录邮箱"注意: -C 后面的邮箱,是你自己注册的时候的邮箱成功之后的结果2、gitlab中添加ssh key终端输入:cat ~/.ssh/id_rsa.pub,将你的key拷贝出来添加到gitlab中设置中,Add ...
2019-12-02 14:55:42
721
转载 梯度优化讲解
预防过拟合常用的方法有L1、L2正则化,Dropout 正则化、Data Augmentation、Early Stopping 等。本文将重点介绍如何使用梯度优化来使神经网络训练更快更有效率。mini-Batch 梯度下降神经网络反向传播的过程需要使用梯度下降算法来优化网络参数,迭代更新。梯度下降算法做法是每次训练都使用全部 m 个训练样本(称为 Batch)。该做法的缺点是当m很大...
2019-11-22 17:27:50
841
原创 自然语言处理的数据增强分析☞Easy Data Augmentation
自然语言处理的EDA-最简单数据增强探索性数据分析论文原文详情:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks论文英文代码:代码中国大哥做的中文扩展代码:代码 数据增强常用于计算机视觉。翻折、旋转或镜像一幅图片,改变相应的标记便是可以的。然而,在自然语...
2019-09-27 16:03:47
1052
原创 pylucene之FSDirectory
Lucene是一套用于全文检索和搜寻的开源程序库。使用Pylucene可以简单的帮助我们完成对采集到的信息进行处理,包括索引的建立和搜索java中首先:Directory是Lucene对文件系统的操作, java 中 FSDirectory有三个子类SimpleFSDirectory、MmapDirectory、NIOFSDirectory; FSDirectory是一个...
2019-08-21 17:30:35
453
原创 语种识别之音频处理
基本原理: 语种识别,根据一段音频判断该音频是英语、中语还是法语,即判断音频的语种。语种识别项目的整体思想就是把语音数据转换成相应的语谱图或者MFCC特征,再对特征进行分析,从而判断出该语音数据的语种类别。公开数据集: Topcoder 竞赛 数据(44.1khz 的 mp3 录音,每条 10 秒,176 种语言合计 66176(176*376)条数据,诸多小语种),网址如下。...
2019-08-14 17:59:01
4033
2
原创 PyTorch Dataset Dataloader加载自定义多分类数据,重写Dataset类
不多说,直接上源码我做的是语种分类的项目,所以直接上了,里面有些介绍。还是先简要介绍,继承torch.data.dataset,然后重写init、len和getitem方法。代码如下:import osimport torchimport librosaimport librosa.displayimport matplotlib.pyplot as pltimport...
2019-08-05 20:03:23
4262
原创 ubuntu 16.04 安装neo4j,详细步骤(实验多次悟出的结晶)
首先使用Debian repository: wget -O - https://debian.neo4j.org/neotechnology.gpg.key | sudo apt-key add - echo 'deb https://debian.neo4j.org/repo stable/' | sudo tee /etc/apt/sources.list.d/n...
2018-12-14 17:11:58
3036
转载 Windows10下VS2017+caffe2
平台:Windows10_x64工具:VS2017,anaconda3(python3.6),Cmake 在GitHub下载caffe2源码:https://github.com/caffe2/caffe2,最好是clone,不要下载.zip会缺少包,可以用VS下载。然后打开caffe2/scripts,用命令行或者powershell运行build_host_protoc.sh,然...
2018-08-19 12:53:35
2132
原创 ubuntu16.04 caffe python2.7 cpu 安装
在工作之中,很多时候我们需要同时使用Windows系统和ubuntu系统做开发。对于有钱大佬来说可以选择两台电脑一台Windows和一台ubuntu。而对于普通办公人员可以选择装一个虚拟机。实现共存。 而本文主要讲解如何在ubuntu16.04 安装caffe版本.一、依次安装依赖包依次执行以下语句,安装依赖包:sudo apt-get install libprotobuf...
2018-08-08 19:24:06
1265
转载 Ubuntu16.04 python3.6 caffe安装教程
目前搜索到的caffe配置版本多数是2.7和3.5,关于python3.6的配置基本没有.所以我配置python3.6版本的caffe.流程如下:1,配置opencv 3.4.1我们需要达到的目标是在python3中可以直接使用import cv2,其中关于编译这方面的资料很多.主要分为编译本体库,以及编译一个附加下载的库.但是在编译完成之后发现,依然无法成功import cv2.程序...
2018-08-06 16:39:38
5033
3
原创 python实现程序化翻译
由于工作原因需要做中英文转换,故在工作之余写了一个基于google的中英文翻译,主要是中文转英文或者是英文转中文,只需要在calues值那里配置以下就好,下面代码主要是from中文toEnglish。对于某些英文水平不好的同学,这个将是你们的福音。 首先导入下面库文件,其实有些是不必要的,但是基于写插件的习惯我就全部导入了,如下:# coding=utf-8impor...
2018-08-03 16:55:39
551
原创 神经网络机器学习(一)学习笔记整理
接触人工智能工作差不多半年时间了,现在就了解到的知识做简要回顾与总结。似乎毫无章法,但是基础知识。很多只有点,容我慢慢进行完善。 神经网络可以处理图像语音文本等数据,可以用在自动驾驶、语音助手、新闻媒体等方面。1、激活函数:作用在提高规模化的非线性化能力,模拟被激化的能力 sigmoid函数:整个区间可导、非中心对称、数据后期变化不大,趋向于1学习效率降低。...
2018-06-27 20:53:10
323
1
原创 你会爬虫吗,我来教你爬海关蜀黍
爬虫是近年来一直比较流行的,今天无聊就来和你聊聊爬虫.在例子中讲解,让你学会使用爬虫.并将自己爬取的数据保存在excel中,首先来看看网站页面就是下面这样,不得不说这个页面做的还是比较好看的 现在进入正题,首先的导入利用到的库咯 re,正则表达式;bs4,request和对excel文件夹进行操作的xlwt库.import refrom bs4 import BeautifulSoup...
2018-06-08 16:23:21
5028
8
原创 百度图片下载脚本
最近爬虫炒的越来越火,我也想加入其中一探究竟,闲来无聊,手动修改了一个在百度网爬取图片的脚本. 一.代码详细讲解介绍: 1.头文件介绍 import itertoolsimport urllibimport requestsimport osimport reimport sys 在脚本中用到了不少库,理所当然的库有request和urllib,正则表达式...
2018-05-29 10:40:22
558
2
原创 根据输入的文件夹名称和两个txt文件名和输入的比例,将文件夹中的某类文件按比例输入到两个文件中
前不久在学习过程中遇到一学生问我这样一个问题,如下:描述: 在工作过程中,我们有一个图片文件夹以及标签文件夹,我们需要使用标签文件夹生成两个txt文件,txt文件中存放的是被打乱后的标签文件的文件名(不包括后缀),两个txt中的文件名的数量按照一定比例来,要保证两个文件中的文件名数量和是标签文件夹中文件的数量。输入: 标签文件夹名,两个txt名称,其中一个txt所含
2018-01-10 16:48:31
404
1
唐宇迪word2vec的系列代码自然语言处理
2020-07-25
LCQMC数据集.tar.gz
2020-04-24
平安人寿谢舒翼-智能问答系统的探索与实践.pdf
2020-04-09
软件设计师近五年考试案例分析真题及答案解析
2018-07-04
python实现逻辑回归与梯度下降策略
2018-04-26
手写数字识别代码加mnist数据集
2018-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人