自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 基于隐马尔科夫模型(HMM)的中文分词(CWS)(附代码以及注释)

我是一个刚入门的菜鸟,刚学习了HMM算法,记录下学习过程,欢迎大家讨论。本文以模型使用为导向,介绍如何一步步使用HMM算法进行中文分词。本文github地址:https://github.com/WhiteGive-Boy/CWS-Hmm_BiLSTM-CRF目录1.HMM1.1HMM简单介绍1.2HMM参数解释2.CWS2.1.大体介绍2.2.应用HMM进行分...

2020-04-12 13:42:53 10966 14

原创 计算机网络:自顶向下方法 笔记

计算机网络:自顶向下方法 笔记一级目录二级目录三级目录一级目录二级目录三级目录

2022-05-22 23:55:00 2176

原创 程序员的自我修养—链接、装载与库 笔记

程序员的自我修养—链接、装载与库 笔记目标文件静态链接编译和链接过程动态链接装载过程函数调用过程系统调用过程堆栈目标文件静态链接编译和链接过程动态链接装载过程函数调用过程系统调用过程堆栈...

2022-05-18 13:03:19 3543

原创 正则表达式、grep、sed、awk

正则表达式grepgrep ’patten‘ filename-i:在搜索的时候忽略大小写-n:显示结果所在行号-c:统计匹配到的行数,注意,是匹配到的总行数,不是匹配到的次数-o:只显示符合条件的字符串,但是不整行显示,每个符合条件的字符串单独显示一行-v:输出不带关键字的行(反向查询,反向匹配)-w:匹配整个单词,如果是字符串中包含这个单词,则不作匹配-Ax:在输出的时候包含结果所在行之后的指定行数,这里指之后的x行,A:after-Bx:在输出的时候包含结果所在

2022-03-13 14:19:51 211

原创 Mysql知识点总结

mysql总结Mysql概述体系结构存储引擎InnoDB存储引擎插入缓冲两次写自适应哈希索引异步IO刷新临界页MyISAM存储引擎日志文件错误日志重做日志(redo log)回滚日志(undo log)二进制日志(binlog)慢查询日志查询日志InnoDB存储结构InnoDB逻辑存储结构InnoDB物理存储结构约束索引B+树索引聚集索引clustered index辅助索引Secondary IndexB+树索引的分裂Cardinality联合索引回表查询索引覆盖优化器哈希索引全文检索倒排索引锁锁的类型一

2022-02-07 19:47:04 2197

原创 线程同步--信号量 互斥锁 条件变量

C++线程同步--信号量 互斥锁 条件变量线程同步的方式信号量互斥锁条件变量封装三类线程同步线程同步的方式信号量linux sem 信号量是一种特殊的变量,访问具有原子性, 用于解决进程或线程间共享资源引发的同步问题。用户态进程对 sem 信号量可以有以下两种操作:等待信号量当信号量值为 0 时,程序等待;当信号量值大于 0 时,信号量减 1,程序继续运行。发送信号量将信号量值加 1通过对信号量的控制,从而实现共享资源的顺序访问。信号量 和互斥锁的区别在于:互斥锁只允许一个线程进入临界区

2022-01-18 13:28:20 332

原创 C++类内静态变量初始化

C++类内静态变量初始化非const staticconst staticIDE:VSCODEGCC:6.3.0非const static均需在类外初始化//string#include<iostream>#include <string>using namespace std;class A{public: static string a;}; string A::a="666";int main(){ cout<<A

2021-05-24 20:29:22 6471

原创 Linux 进程间传递文件描述符

Linux 进程间传递文件描述符进程表文件描述符表父子进程传递文件描述符进程表参考https://zhuanlan.zhihu.com/p/56251739进程(程序)开始运行时,由Linux系统调用自己的系统函数,在内存中开辟task_struct结构体,又叫进程表。这个结构体的成员项非常多,多达近300个。task_struct结构体专门用于存放进程在运行过程中,所涉及到的所有与进程相关的信息。其中,文件描述符表就被包含在了task_struct结构体当中。在进程运行结束后,进程表所占用的内

2021-05-06 16:52:28 917

原创 位运算技巧总结

位运算技巧总结基本运算性质自身运算与0运算与全1运算与或异或运算率交换律结合律分配律优先级技巧异或取反取int极大极小值取负原地交换操作判断奇偶比较判断符号是否相同第i+1位操作异或去重异或可逆删除最末尾的1个1,用于统计1的个数仅保留最后一个1基本运算性质自身运算a & a = aa | a = aa ^ a = 0与0运算a & 0 = 0a | 0 = aa ^ 0 = a与全1运算a & (~0) = aa | (~0) = ~0a ^ (~0) =

2021-05-06 11:34:20 997

原创 信号量/共享内存进行进程间通信

这里写目录标题信号量共享内存信号量信号量是一种特殊的变量,它只能取自然数值并且只支持两种操作:等待(wait)和信号(signal)。不过在Linux/UNIX中,“等待”和“信号”都已经具有特殊的含义,所以对信号量的这两种操作更常用的称呼是P、V操作。这两个字母来自于荷兰语单词passeren(传递,就好像进入临界区)和vrijgeven(释放,就好像退出临界区)。假设有信号量SV,则对它的P、V操作含义如下:P(SV),如果SV的值大于0,就将它减1;如果SV的值为0,则挂起进程的执行。V(S

2021-05-05 21:13:49 401

原创 定时器--Linux高性能服务器编程学习笔记

定时器--Linux高性能服务器编程学习笔记系统定时相关APIsocket选项SO_RCVTIMEO和SO_SNDTIMEOSIGALRM信号基于升序链表的定时器系统定时相关APILinux提供了三种定时方法,它们是:socket选项SO_RCVTIMEO和SO_SNDTIMEO实例#include <sys/types.h>#include <sys/socket.h>#include <netinet/in.h>#include <arpa/

2021-04-28 18:20:51 722

原创 信号--Linux高性能服务器编程学习笔记

信号--Linux高性能服务器编程学习笔记定义信号概述发送信号信号处理函数linux信号signal系统调用sigaction系统调用信号集函数使用管道统一事件源SIGHURG发送带外数据定义信号是由用户、系统或者进程发送给目标进程的信息,以通知目标进程某个状态的改变或系统异常。Linux信号可由如下条件产生:信号概述发送信号Linux下,一个进程给其他进程发送信号的API是kill函数。其定义如下:#include<sys/types.h>#include<signal.h>int ki

2021-04-28 11:15:00 509

原创 poll简单聊天室--Linux高性能服务器编程学习笔记

简单聊天室clientserver该聊天室程序能让所有用户同时在线群聊,它分为客户端和服务器两个部分。其中客户端程序有两个功能:一是从标准输入终端读入用户数据,并将用户数据发送至服务器;二是往标准输出终端打印服务器发送给它的数据。服务器的功能是接收客户数据,并把客户数据发送给每一个登录到该服务器上的客户端(数据发送者除外)。client客户端程序使用poll同时监听用户输入和网络连接,并利用splice函数将用户输入内容直接定向到网络连接上以发送之,从而实现数据零拷贝,提高了程序执行效率#defin

2021-04-27 10:44:42 289

原创 STL algorithm/numeric 函数总结

STL algorithm函数总结一级目录一级目录

2021-04-26 17:49:52 848

原创 Linux高级I/O函数---Linux高性能服务器编程学习笔记

Linux高级I/O函数---Linux高性能服务器编程学习笔记管道pip函数双向管道socketpair函数重定向函数dup/dup2管道pip函数pipe函数可用于创建一个管道,以实现进程间通信。它表现出来的形式将前面每一个进程的输出(stdout)直接作为下一个进程的输入(stdin)。#include<unistd.h>int pipe(int fd[2]);pipe函数的参数是一个包含两个int型整数的数组指针。该函数成功时返回0,并将一对打开的文件描述符值填入其参数指向的数组。如果失

2021-04-25 11:59:07 310

原创 Linux各种ID及其Linux c接口

Linux 各种ID及其Linux c接口ls -l命令字段1-文件类型字段2-文件权限字段3-目录/链接个数字段4、5-所有者及组字段6-文件大小字段7-修改日期字段8-文件名称,字体颜色用户IDUID、GID与附加组id私有组主要组与附加组进程IDUID、EUID、GID和EGIDPID PPID PGID用户执行进程过程先介绍下ls -l命令ls -l命令字段1-文件类型“-”表示普通文件;“d”表示目录;“l”表示链接文件;“p”表示管理文件;“b”表示块设备文件;“c”表示字符

2021-04-19 21:34:20 683

原创 Linux网络编程基础API---Linux高性能服务器编程学习笔记

这里写目录标题Socket API字节序内存对齐socket地址字符串与ip地址转换创建socket命名socket---bind函数监听socket---listen函数接受连接--accept函数发起连接--connet函数关闭连接---close和shutdown发送和接收数据Socket API字节序字节序包括大端序和小端序。小端字节序:也叫host主机字节序,PC采用。指整数的高位字节存储在内存的高地址处,而低位字节则存储在内存的低地址处。大端字节序:也叫network网络字节序,网络通

2021-04-19 16:09:50 741

原创 C++ STL 常用知识总结

C++ STL 常用知识总结顺序容器迭代器vectorarraystringdequelistforward_list顺序容器1. 大部分时候选择vector2. 随机访问选择vector or deque3. 空间开销很重要 不使用forward_list or list4. 头尾插入或删除 deque5. 中间插入或删除 forward_list or list迭代器//iterator 迭代器list<string>::iterator iter; //iter是lis

2021-03-03 22:26:35 620

原创 中文文本分类 传统机器学习+深度学习

中文文本分类为了完成课程要求,做了一个中文文本分类的简易系统,再此纪录。使用到的算法:机器学习:朴素贝叶斯 逻辑斯蒂回归 lightgbm深度学习:CNN LSTM BERT深度学习大部分内容使用https://github.com/649453932/Chinese-Text-Classification-Pytorch机器学习部分自造。数据集为了不撞数据,github上随便找的一个头条新闻数据集,地址:https://github.com/BenDerPan/toutiao-text-c

2021-03-01 22:14:33 2007

原创 使用keras+bert进行房产行业聊天问答匹配

比赛菜鸟,给一个keras版本的bert baseline。比赛地址:https://www.datafountain.cn/competitions/474代码地址:https://github.com/WhiteGive-Boy/ccf_beike代码参考苏大神的keras下bert的使用,其博客https://kexue.fm/archives/6736贝壳问答匹配给定的数据形式如下:中文bert预训练模型下载:https://github.com/google-research/bert

2020-11-04 13:08:42 1897 3

原创 linux 查看 cpu/gpu 使用率等

cpu:top%us:表示用户空间程序的cpu使用率(没有通过nice调度)%sy:表示系统空间的cpu使用率,主要是内核程序。%ni:表示用户空间且通过nice调度过的程序的cpu使用率。%id:空闲cpu%wa:cpu运行时在等待io的时间%hi:cpu处理硬中断的数量%si:cpu处理软中断的数量%st:被虚拟机偷走的cpu注:99.0 id,表示空闲CPU,即C...

2020-04-15 12:33:48 1144

原创 基于BiLSTM+CRF的中文分词(CWS)(附代码以及注释)

本人菜鸟,写的不好的大家包涵!之前做过HMM进行中文分词,这次使用BiLSTM加CRF(条件随机场)进行中文分词。HMM中文分词:https://blog.youkuaiyun.com/Yang_137476932/article/details/105467673本文代码github地址:https://github.com/WhiteGive-Boy/CWS-Hmm_BiLSTM-CRF ...

2020-04-12 15:21:36 5746 8

原创 模型检验方法:holdout、k-fold、bootstrap

参考:https://www.cnblogs.com/chay/articles/10745417.htmlhttps://www.cnblogs.com/xiaosongshine/p/10557891.html1.Holdout检验Holdout 检验是最简单也是最直接的验证方法, 它将原始的样本集合随机划分成训练集和验证集两部分。 比方说, 我们把样本按照70%~30% 的比例分...

2020-04-01 19:23:27 8032

原创 P-R曲线 RPC曲线

参考:https://blog.youkuaiyun.com/zhanht/article/details/88669537https://zhuanlan.zhihu.com/p/1049172321.样本正反例基本概念TP: True Positive指正确分类成为正的样本数,实际为正,预测为正FP: False Positive指错误分类为正的样本数,实际为负,预测为正FN: F...

2020-04-01 13:41:13 1397

原创 对抗欠拟合

欠拟合是指模型在训练集合测试集数据上的表现均不好的情况。结果就是训练出的模型表达能力不够,精度不够,还没有学习到数据的特征,还有待继续学习如何防止欠拟合防止欠拟合的方法有3种:1)增加特征数;当特征不足或者现有特征与样本标签的相关性不强时,模型易出现欠拟合。可以通过挖掘上下文特征,ID类特征,组合特征等新的特征,可以取得较好的效果。这属于特征工程相关的内容,如因子分解机,梯...

2020-03-31 21:50:46 226

转载 NLP常见任务 转载

NLP常见任务借助BERT论文, 梳理下自然语言处理当前常见的任务.NLP任务根据判断主题的级别, 将所有的NLP任务分为两种类型:token-level task: token级别的任务. 如完形填空(Cloze), 预测句子中某个位置的单词; 或者实体识别; 或是词性标注;SQuAD等. sequence-level task: 序列级别的任务, 也可以理解为句子级别的任务...

2020-03-31 21:44:33 198

原创 对抗过拟合各种方法

参考大佬博文:https://www.cnblogs.com/jermmyhsu/p/8227950.html逐步介绍了过拟合的出现以及各种解决办法

2020-03-31 21:42:53 676

原创 归一化 标准化 正则化

参考:https://zhuanlan.zhihu.com/p/46377151https://zhuanlan.zhihu.com/p/29957294记录下几个ML的数据处理方法归一化一般是将数据映射到指定的范围,用于去除不同维度数据的量纲以及量纲单位。常见的映射范围有 [0, 1] 和 [-1, 1] ,最常见的归一化方法就是Min-Max 归一化:...

2020-03-31 21:12:13 496

原创 逻辑回归代价函数导数求解自我记录

借鉴了github还有网上的大神的东西,总结记录下其中,逻辑函数的求导如下:

2020-03-18 22:35:36 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除