
文本处理
w_j_w2010
生于龙门镇,学于天河东,顠于四海,无归处。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
正则表达式所有元字符及其使用方法一览表
\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 后向引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。$ 匹配输入字符串的结转载 2015-11-23 17:43:46 · 463 阅读 · 0 评论 -
正则表达式学习--RegexBuddy工具的使用
标签: 正则表达式工具tokenlayoutlibraryinsert2009-01-22 14:29 17323人阅读 评论(8)收藏 举报 分类: 正则表达式 版权声明:本文为博主原创文章,未经博主允许不得转载。 开始学习正则表达式了,增取今年过后能够熟悉的使用它,太强大了!!昨天晚上对这几天学习过程中使用的工具Regex转载 2015-11-23 16:36:15 · 454 阅读 · 0 评论 -
基于Source和正则表达式的Scala网页内容抓取
网页内容的抓取使用了Scala标准库的Source,网页内容的提取使用了正则表达式。中间练习了集合类的一些操作和文件读写操作,对正则表达式也重温了一下,特别是跨行匹配(多行匹配)研究了一些时间。提取后的文本写在了文件中。在Ubuntu 10.04 和 Scala 2.10.0 下运行成功。代码如下:import java.io._ def getIndex() = {转载 2015-12-11 16:58:33 · 672 阅读 · 0 评论 -
scala 正侧表达式 -多行文本处理
//code blockdef getCodeBlock(start:String ,end:String,htmlContent:String):List[String]={ val list=List[String]() //使用单行模式提取字符,(?s)单行模式,(?m)多行模式 val regex1=("(?s)(?+start+")(.*?)(?="+end+")").原创 2015-12-11 17:22:22 · 1458 阅读 · 0 评论 -
Scala文件I/O
由 Folyd 翻译整理 注:由于水平有限,欢迎指正。转载请务必注明出处。1Scala打开文件是利用Java对象和java.io.File,它们都可在Scala编程中用来读取和写入文件。以下是写入文件的一个例子:import java.io._object Test { def main(args: Array[String]) {转载 2015-11-25 15:44:33 · 873 阅读 · 0 评论 -
正则表达式系统教程.CHM
正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。索引1._引子2._正则表达式的历史3._正则表达式定义3.1_普通字符3.2_非打印字符3.3_特殊字符3.4_限定符3.5_定位符3.6_选择3.7_后向引用4._各种操转载 2015-11-25 14:37:23 · 478 阅读 · 0 评论 -
JAVA 正则表达式 (超详细)
在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包。 可粗略估计一下,除了偶尔用Linux的外,其他Linu x用户都会遇到正则表达式。正则表达式是个极端强大工具,而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里,正则表达式几乎没有什么限制,可肯定的是,它应用非常之广泛。 正转载 2015-11-24 17:13:33 · 3293 阅读 · 0 评论 -
JavaScript、Java正则表达式详解
什么是正则表达式?正则表达式(Regular Expression)就是用某种模式去匹配一类字符串的公式。如你要在一篇文章中查找第一个字是“罗”最后一个字是“浩”的三个字的姓名,即“罗*浩”;那么“罗*浩”就是公式,也称作模式(Pattern),这篇文章就是要匹配的串(或叫文本text)。再如,你要检查输入的一个字符串是否是126邮箱的格式,你得制定一个规则去查检,这种规则就是正则表达式。转载 2015-11-24 17:26:11 · 656 阅读 · 0 评论 -
Java进行HTML数据采集:浅谈强大的group正则
作者主要从group正则表达式来说明如何帮助Java进行html页面采集,所以对于不知道Java正则表达式的朋友们可以先去学习下(下面有链接)再阅读本文。简 介作为全球运用最广泛的语言,Java 凭借它的高效性,可移植性(跨平台),代码的健壮性以及可强大的可扩展性,深受广大应用程序开发者的喜爱. 作为一门强大的开发语言,正则表达式在其中的应用当然是必不可少的,而且正则表达式的转载 2015-11-24 17:01:15 · 1246 阅读 · 0 评论 -
RegexBuddy图文使用教程
一、RegexBuddy下载及安装本站下载地址:JGsoft-RegexBuddy-v3.1.0.rar,也可以在http://www.regexbuddy.com/(RegexBuddy的官网)进行最新版本的下载和正版的购买。下载后直接安装,打开界面如下:二、工具界面1、首先切换到 Side By Side Layout,这个布局,更方便操作。2、界面主要包括:正则表达式转载 2015-11-25 11:28:39 · 3232 阅读 · 0 评论 -
常用正则表达式大全(匹配空格、替换等)
部分匹配规则预览:中国电话号码验证匹配形式如:0511-4405222 或者021-87888822 或者 021-44055520-555 或者 (0511)4405222正则表达式 "((d{3,4})|d{3,4}-)?d{7,8}(-d{3})*"中国邮政编码验证匹配形式如:215421正则表达式 "d{6}"电子邮件验证匹配形式如:justali@转载 2015-11-25 14:42:40 · 8680 阅读 · 0 评论 -
正则表达式简明教程
前言 这是一份比较简单的正则表达式指南,是我按照自己学习正则时做的笔记整理出来的,并不能保证没有瑕疵,但我会尽最大可能来完善它,特此我在标题上加上了 持续更新。 格式 为了使大家更加容易阅读,我在使用了几处高亮, 例子统一用黄色标注, 注意事项使用红色警示, 专业术语加粗。 目录 引言 什么事正则表达式 元字符 重复 转义字符 反义 字符类 分支条件 分组 向后引用转载 2015-11-25 14:50:22 · 390 阅读 · 0 评论 -
抓取远程网页并解析HTML
正则表达式HTMLApache 学习java的正则表达式,抓取网页并解析HTML部分内容 Java代码 收藏代码 import java.util.regex.Matcher; import java.util.regex.Pattern; import org.apache.commons.httpclient.Ht转载 2015-11-24 11:11:56 · 439 阅读 · 0 评论 -
java正则表达式(HTML提取)
1、 过滤标签]*\\s*>\\s*(.*?)\\s*2、过滤Img标签]*)\\s*/?\\s*>3、过滤Img标签下的src]*)src\\s*=\\s*([^>]+)4、过滤Javascript标签]*?>[\\s\\S]*?5、link标签]*\\s*/?\\s*>6、link标签]*?\\s*>\\s*[\\s\\S]*?\转载 2015-11-24 16:45:46 · 574 阅读 · 0 评论 -
java正则表达式抽取html数据
由于项目需求,需要抓取一些网站数据,于是这两天研究了下java正则表达式和java模拟http请求。一直以来,看到正则表达式就头疼,认为很难看懂,需要就从网上搜,但是这次需要抽取的是html数据,样式多样,靠不住百度,只能靠自己了。介绍下正则表达式学习历程:首先是在百度上搜了些简单的入门文章,比如[a-zA-Z]、.*等的意思,然后主要是通过java API文档介绍进行学习,其实里转载 2015-11-24 09:43:50 · 1771 阅读 · 0 评论 -
PHP 正则表达式截取HTML
用php的正则表达式相关函数,实现提取html超链接中的地址。代码如下 复制代码 $preg='//is';$str ='URLNAME文本段1URLNAME文本段2URLNAME...文本段n';preg_match_all($preg,$str,$match);//在$str中搜索匹配所有符合$preg加入$match中for($i=0;$i{echo $m转载 2015-11-24 10:07:31 · 3214 阅读 · 0 评论 -
HTML中<script ...>....</script>标签的正则表达式?
RT:求一个能匹配HTML代码中....标签的正则表达式??? HTML代码可以看成是一个字符串,我试了好多帖子中的正则表达式,自己也写过,都有问题。比如对 搜狐 的首页进行匹配。 我自己写的: String html = html .replaceAll("", ""); (不考虑HTML Code换行,我已经去掉换行了) 老外帖子上找的:转载 2015-11-24 11:32:33 · 4578 阅读 · 0 评论 -
使用Java正则表达式匹配、替换HTML内容
本文向您介绍使用Java正则表达式匹配和替换HTML的内容,作者介绍了两种方法,一种用于替换链接地址,一种用于替换图片。AD:【活动】Web和APP兼容性实战 Win10训练营免费报名曾经了解过JavaScript的正则表达式,知道其功能的强大,对于处理文本比用普通的API处理不管从效率上还是从功能上都有很大的优势。今天项目要求用到Java的正则表达式,于是在网上Google,找到转载 2015-11-24 16:11:19 · 4369 阅读 · 0 评论 -
java正则表达式修改html标签中属性
Java代码 package com.ez; import java.util.regex.Matcher; import java.util.regex.Pattern; public class ZYJ { /** * @param args */ public static void main(String[] args转载 2015-11-24 16:14:55 · 637 阅读 · 0 评论 -
java正则表达式取得html标签内的内容
Pattern p = Pattern.compile("(?]*?>)[^)");Matcher matcher= p.matcher("你好");while(matcher.find()){system.out.printl( matcher.group() );}转载 2015-11-24 16:27:43 · 2991 阅读 · 1 评论 -
使用正则表达式匹配嵌套Html标签
概述正则表达式是做文本解析工作必不可少的技能。如Web服务器日志分析,网页前端开发等。很多高级文本编辑器都支持正则表达式的一个子集,熟练掌握正则表达式,经常能够使你的一些工作事半功倍。例如统计代码行数,只需一个正则就搞定。嵌套Html标签的匹配是正则表达式应用中一个比较难的话题,因为它涉及到的正则语法比较多,也比较难。因此也就更有研究的价值。思路任何复杂的正则表达式都是由简单的子表达式转载 2015-11-24 09:59:52 · 1522 阅读 · 0 评论 -
常用正则表达式
正则表达式(Regular Expression,在代码中常简写为regex、regexp或RE)是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。转载 2015-11-24 16:01:30 · 346 阅读 · 0 评论 -
Java正则表达式提取html纯文本
做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题。现将我做的正则匹配贴上:import java.util.regex.Matcher;import java.util.regex.Pattern;public class TestReg {static String reg = "([\s\S]*?)";public static void main(Stri转载 2015-11-24 16:33:47 · 2946 阅读 · 0 评论 -
如何使用java的正则表达式提取html标签?
import java.util.ArrayList;import java.util.Iterator; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Test { public static void转载 2015-11-24 16:37:25 · 7215 阅读 · 0 评论 -
Java去除掉HTML里面所有标签,
Java去除掉HTML里面所有标签的两种方法——开源jar包和自己写正则表达式时间 2015-06-16 10:17:20 博客园精华区原文 http://www.cnblogs.com/wytings/p/4580065.html 主题 Java HTML开源主要就两种,要么用开源的jar处理,要么就自己写正则表达式。自己写的话,可能处理转载 2015-11-24 16:41:43 · 1685 阅读 · 0 评论 -
基于Scala与正则表达式的Html文本分析应用
文本分析与提取:scala正则持久化:anormweb:play 2scala 正则关键代码示例: val regex1="(?)(.*?)(?=)".r val html_node= regex1.findFirstIn( htmlContent) package service.spider.htmlparser转载 2015-12-16 17:26:32 · 2408 阅读 · 0 评论