
perl
文章平均质量分 94
cnki_ok
这个作者很懒,什么都没留下…
展开
-
perl词典分词
<br />从网上看了一篇perl分词的程序,运行程序后发现,数字全部给分开了,例如,“2010年国家GDP是...”,运行程序后结果为“2 0 1 0 年 国家 G D P 是 ....”,文中“2010”是不应该分开的,我改进了这个程序,可以实现数字不分开,如下:<br />#!/usr/bin/perl<br />print "Begin Loading Dictionary.../n";<br />open(FileIn, "地名.txt"); #读取辞典<br />$MaxLen原创 2011-03-31 16:30:00 · 1420 阅读 · 0 评论 -
HTML::Parser 简单解释
HTML::Parser 是一个非常强大的用于处理 html 解析的模块。 HTML::Parser 的文档没有一个完整的例子。所以我就把下面的我写在 ShellWeb 里的例子摘取出来,并简单的解释一下。 use HTML::Parser;my $parser = HTML::Parser->new( api_version => 3, start_h => [/&start转载 2011-06-08 17:09:00 · 665 阅读 · 0 评论 -
获取当前工作目录
<br />方法一:<br />#include <direct.h><br />#include <stdlib.h><br />#include <stdio.h><br />void main( void )<br />{<br /> char buffer[_MAX_PATH];<br /> /* Get the current working directory: */<br /> if( _getcwd( buffer, _MAX_PATH ) == NULL )<br />转载 2011-04-28 11:44:00 · 4496 阅读 · 0 评论 -
为UltraEdit配置perl编译环境
经常处理脚本的人对perl语言一定非常熟悉。perl以其强大的文本处理能力以及良好的平台移植性在系统程序员和web设计师中非常流行。由于实验室常常会遇到文本处理方面的工作,完全用C语言实现往往需要花费一定的时间,而用perl的话,也许短短数行代码就能很好地解决问题。 perl的优点很多,缺点也非常明显。perl最大的问题就是代码的可读性较差。也许是平时不怎么使用perl的原因,经常一个月转载 2012-05-17 14:41:21 · 1715 阅读 · 0 评论 -
百度下拉框联想词获取(perl实现)
#!/usr/bin/perluse strict;use warnings;use Encode;use LWP::Simple;my $tword="中国";my $url='http://suggestion.baidu.com/su?wd='.$tword.'&cb=window.bdsug.sug&from=superpage&t=1335581987353'原创 2012-07-30 12:33:28 · 1695 阅读 · 0 评论 -
UE正则表达式语法
% 匹配行首 - 表示搜索字符串必须在行首,但不包括任何选定的结果字符中的行终止字符。$ 匹配行尾 - 表示搜索字符串必须在行尾,但不包括任何选定的结果字符中的行终止字符。? 匹配任何除换行符的字符。如:m?n 匹配“man”、“men”、“min”,但不匹配“moon”。* 匹配任何除换行符外所出现的任意数量的字符。如:t*t 匹配“test”、“tonight”和“tea转载 2012-12-03 13:31:51 · 560 阅读 · 0 评论 -
perl中如何将按hash的排序方法
如果是按ASCII码排序,则代码如下:foreach my $key ( sort { $hash{$a} cmp $hash{$b} } keys %hash ) {my $value = $hash{$key}; # do something with ($key, $value)} foreach my $key ( sort { $hash{$a} cmp转载 2013-06-20 15:13:06 · 832 阅读 · 0 评论 -
用perl将全角标点数字改为半角
在GB2312下的全角标点和ascii码下的半角标是有联系的。不要什么对照表,全角字符是两个字节,跟半角字符有一一对应的线性关系, 很简单. 第一字节: 160+区号 { 全角的第一字节相等 } 第二字节: 128+半角ascii码 因此,将全角标点转换为半角标点可用以下语句完成$str=~s/(\xA3(.))/chr(ord($2)-128)/eg; [1]转载 2014-02-12 10:30:13 · 1097 阅读 · 0 评论 -
perl的LWP模块简单介绍
一 LWP::Simple 功能1. 如何在Perl中使用该模块?use LWP::Simple;2. 如何获取一个页面内容?my $content = get(’http://www.yahoo.com.cn’);get函数把从www.yahoo.com.cn上获取得页面内容全部赋给$content这个变量,如果获取失败将返回一转载 2014-08-19 10:13:39 · 1126 阅读 · 0 评论 -
perl模块安装
转自:http://www.mike.org.cn/blog/index.php?load=read&id=643Perl 到了第五版增加了模块的概念,用来提供面向对象编程的能力。这是 Perl 语言发展史上的一个里程碑。此后,广大自由软件爱好者开发了大量功能强大、构思精巧的 Perl 模块,极大地扩展了 Perl 语言的功能。CPAN(Comprehensive Perl Archive转载 2014-08-19 10:17:22 · 962 阅读 · 0 评论 -
用perl分析html
注:本文参考Perl&LWP一书。http://sendtowu.blog.163.com/ 我的博客地址本人英语水平有限,以下文字是基于我的理解写的,并非原文翻译(我也没那本事)。前些日子需要从网页上提取文字信息,我决定用perl做这件事情。在网上搜了半天发现用HTML::TreeBuilder是一个很好的选择。于是从网上又找到了Perl&LWP这本书。看了两天终于看明白了,也转载 2011-06-09 16:47:00 · 2186 阅读 · 0 评论 -
Perl 的 html 解析模块
HTML::TreeBuilder这个解析模块使用了强大的 HTML::Element 模块。解析时,HTML::TreeBuilder模块把整个 html 文档转换成了 perl 的数据结构,可以进行任意的操作。使用时先创建一个 HTML::TreeBuilder 对象。use Data::Dumper qw(Dumper);$Data::Dumper::Indent = 1;use HTML:转载 2011-06-09 16:48:00 · 1966 阅读 · 0 评论 -
Perl如何处理字符串
在Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说: Perl只认识两种编码: Ascii(octets)和utf8(string)本文内容适用于perl 5.8及其以上版本.perl internal form在Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说:转载 2011-04-06 13:12:00 · 1248 阅读 · 0 评论 -
正则表达式文中列表
<br />/ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。<br />^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的Multiline 属性,^ 也匹配 ’/n’ 或 ’/r’ 之后的位置。 <br />$ 匹配输入字符串的结束位置。如果设置了 RegExp 对象的Multiline 属性,$ 也匹配 ’/n’ 或 ’/r’ 之前的位置。 <br />* 匹配前面的子表达式零次或多次。 <br />+ 匹配前面的子表达式一次或多次。+ 等价于 {1,转载 2011-04-15 15:04:00 · 743 阅读 · 0 评论 -
正则表达式perl语言的文字处理模式
<br />如果在Unix中曾经使用过sde,awk,grep这些指令的话,相信对于 Perl 语言中的文字处理模式(Regular Expression)应该不会感到陌生才对。在Perl语言中因为有这个功能,所以对于字符串的处理能力是非常强有力的。Regular Expression可视为用来处理字符串的一种模式(pattern),其使用的格式为/pattern/。在Perl语言的程序中,经常可以看到类似语法的应用,在CGI程序设计中也不例外。只要能够善用文字处理模式的话,要处理任何难的字符串皆可迎刃而解转载 2011-04-15 15:06:00 · 510 阅读 · 0 评论 -
perl正则表达式中文问题
<br /> <br />在使用perl从地址中提取街道的时候遇到了个很诡异的问题<br />同样一个地址,连续进行两次匹配出来的结果居然不一样<br />一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事<br />看来perl的中文处理能力还是有待加强<br />后来在进行正则匹配之前尝试用了use encoding "gbk"; <br />还算运气不错,居然搞定了<br />use encoding "gbk"; <br />$address=~/^(.*(市|区))?(.*?(街|路|道)).*转载 2011-04-15 15:34:00 · 1863 阅读 · 0 评论 -
例详细介绍各种字符集编码转换问题 [转]
本文背景:本人在编程时需要匹配字符串,由此想到了如果文件是各种字符编码的话,匹配结果有可能不正确,那么,如何判断不同的字符集?如何在不同字符集之间做转换?对于UNICODE编码逐渐通用的情况下,我们软件人员如何从容应对? 本文首先对常用字符集进行总结,然后在字符集的显示及转换上以实例介绍,最后总结了编程中遇到的编码问题。本文目的:对字符集编码做详细介绍,关键配以实例讲解,降低问题的复杂度。本文内容:1. 常用字符集分类1.1 简介· ASCII及其扩展字符集作用:表语英语及西欧语言。位数转载 2011-04-15 15:53:00 · 879 阅读 · 0 评论 -
perl hash 常见用法
基本用法# 初始化 %h为空数组%h = {};# 用数组初始化%h为 a=>1, b=>2%h = (a, 1, b, 2);# 意义同上,只是另一种更形象化的写法。%h = (a=>1, b=>2);#如果key是字符串,可以省略引号。下面这行和上面那行是一样的%h = (a=>1, b=>2);# 用{}来访问print "$h{a}/n&q转载 2011-06-08 09:21:00 · 611 阅读 · 0 评论 -
PleacPerl——Hashes
Introduction#-----------------------------%age = ( "Nat", 24, "Jules", 25, "Josh", 17 );#-----------------------------$age{"Nat"} = 24;$age{"Jules"} = 2转载 2011-06-08 10:04:00 · 694 阅读 · 0 评论 -
Perl 的 html 解析模块
HTML::TreeBuilder这个解析模块使用了强大的 HTML::Element 模块。解析时,HTML::TreeBuilder模块把整个 html 文档转换成了 perl 的数据结构,可以进行任意的操作。使用时先创建一个 HTML::TreeBuilder 对象。use Data::Dumper qw(Dumper);$Data::Dumper::Indent = 1;use HTML:转载 2011-06-09 16:20:00 · 1955 阅读 · 1 评论 -
Perl 的正则表达式中如果出现 ()
<br />这几天使用了perl进行文本处理,感觉很方便。<br />下面是几点经验,以后可能用到,记载在这防止遗忘。<br />1.perl中匹配汉字(处理中文)<br />使用 [/x80-0xff]来匹配汉字。我用它来匹配的是GB18030 编码的汉字,不知道其他的编码像unicode,utf-8,utf-16等可不可以。<br />2.正则表达式的匹配<br />".*?"为最小匹配<br />".*"为最大匹配<br />使用'/'来进行转义<br />3.正则表达式<br />正则表达式有三种存转载 2011-04-15 15:08:00 · 640 阅读 · 0 评论 -
perl的时间处理之localtime和strftime
大家都是使用的 localtime 来取得当地日期时间和日期。这个函数如果在标量环境时,会以字符串的形式来传回目前的时间和日期 。默认的 localtime 的函数是以 1970 到今天的秒来做整数计算的。默认这个程序会调用 time 的函数来给它提供一个值。使用方法:例如,print scalar (localtime)这个代码,它输出的结果将类似于Thu Sep 16 23:0转载 2015-03-20 17:50:47 · 2700 阅读 · 0 评论