- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 Linux shell 笔记
第二章 变量和运算符本地变量:尽可以被本进程使用1 赋值varname=varvaluevarname="varvalue"可以通过set命令查看本地变量readonly varname//设置为只读readonly varnmae=varvalue//设置并初始化readonly命令本身可以显示所有只读变量 环境变量:可以被子进程使用系统初始化的环境变
2010-03-18 21:19:00
316
原创 Windows与Unicode
标准C库支持Unicode,并且定义了wchar_t, ws系列函数。Windows为了统一C标准库中的Unicode/Anscii 通用函数,引入了 TCHAR.h (为了C标准库)改头文件定义了 _tcslen, _tprintf,_Text等一系列宏,根据程序是否定义_Unicode来决定这些宏对应 strlen printf, 等ANSCII系列函数或者Unicoe函数。同事定义
2010-02-28 18:55:00
432
原创 C语言
在讨论编码问题时,我不想首先介绍编码方式有哪些,网上的文章巨多。我想从一个编程人员的角度来看这个问题:编码为什么是我们困惑?编码用于什么?我认为是存储。有了存储,那么就有了I/O(输入输出);编码问题复杂,就在于存储和I/O。存储是某个具体编码方式来决定,没什么复杂的。我认为复杂的是I/O,也就是在不同的存储之间转换。I/O的本质,我认为就是流。流有字节流,有字符流。字节流有编码问题吗
2010-02-28 18:36:00
554
原创 常见编码总结
ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者
2010-02-26 20:54:00
433
原创 编码
编码是指对字符进行表示。编码方式ANSCII,ANSI gbk, gb2312,Unicode,utf-8, utf-16 这些编码方式有分类,类内又有联系。1、字符编码、内码,顺带介绍汉字编码 字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体
2010-02-26 20:00:00
647
原创 Win32Console工程加入MFC
vs 2005下1project properties->general 左侧的 project defaults 中 use of MFC 改成 Using MFC in a shared DLL 或者是 静态库2 加入 #include //注意,如果加入其它的头文件,有可能会连接错误。我就加入了stdlib.h 又加入了 afxwin.h 静态链接MFC就出错来了.后来就有好
2010-02-26 14:56:00
464
原创 字符串处理函数
//作为标准C/C++ ,这里的函数都是标准库里的函数1字符串拷贝(1)char * strcpy(char * dest, const char * src) //来自cppreference: http://www.cplusplus.com/reference/clibrary/cstring/strcpy/功能: 把src指向的字符串拷贝到dest指向的位置,包括/0
2010-02-26 14:26:00
318
转载 Eclipse编码问题
果要使插件开发应用能有更好的国际化支持,能够最大程度的支持中文输出,则最好使 Java文件使用UTF-8编码。然而,Eclipse工作空间(workspace)的缺省字符编码是操作系统缺省的编码,简体中文操作系统 (Windows XP、Windows 2000简体中文)的缺省编码是GB18030,在此工作空间中建立的工程编码是GB18030,工程中建立的java文件也是GB18030。如果要使新
2010-02-26 11:24:00
286
原创 中文分词工具
最近从头开始对复旦大学以及搜狗的数据进行分词。关于分词工具,下载地址总结如下1 ictcas 包括Java,LinuxC, WindowsC 的版本均在 http://www.ictclas.org/index.html 有下载。2 imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,作者高小平,算法基于隐马尔科夫模型(Hidden Mar
2010-02-26 11:14:00
1090
转载 SDK在VC下的设置
1. SDK和API的概念请参考http://blog.programfan.com/article.asp?id=334212. Visual Studio的SDKVisual Studio 6.0自带的SDK是1998年的,目录为C:/Program Files/Microsoft Visual Studio/VC98/,这里简记为VS6SD
2010-02-25 15:39:00
2014
原创 Windows 下目录的遍历
组要思想是通过 FindFirstFile函数,获得所要遍历的目录的句柄。然后用FindNextFile来进行遍历。在使用FinderFirstFile时,目标文件为 目的目录/* 的形式 Windows 与 Unicode WCHAR wchar_tCHAR charTCHAR 与UNICODE和_UNICODE宏的定义有关。总的来说
2010-02-25 14:29:00
836
转载 复旦大学中文语料库的一些统计信息
复旦大学中文语料库的一些统计信息复旦大学的中文语料库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该语料库的一些基本信息如下: 类别总数量:20 文档总数量:19637 类别名称(类别代码):文档数量 Agriculture(C32):2043
2010-02-25 14:10:00
2968
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅