1
content是根据网址获得的网页源码字符串
NSRegularExpression
*regularExpretion=[NSRegularExpression
regularExpressionWithPattern:@"<[^>]*>|\n"
options:0
error:nil]; content=[regularExpretion
stringByReplacingMatchesInString:content
options:NSMatchingReportProgress
range:NSMakeRange(0,
content.length)
withTemplate:@"-"];//替换所有html和换行匹配元素为"-" regularExpretion=[NSRegularExpression
regularExpressionWithPattern:@"-{1,}"
options:0
error:nil]
; content=[regularExpretion
stringByReplacingMatchesInString:content
options:NSMatchingReportProgress
range:NSMakeRange(0,
content.length)
withTemplate:@"-"];//把多个"-"匹配为一个"-" //根据"-"分割到数组 NSArray
*arr=[NSArray
array]; content=[NSString
stringWithString:content]; arr
= [content
componentsSeparatedByString:@"-"]; NSMutableArray
*marr=[NSMutableArray
arrayWithArray:arr]; [marr
removeObject:@""]; return
marr;
本文介绍了一种使用NSRegularExpression从HTML源码中提取纯文本的方法。通过正则表达式匹配并替换HTML标签及换行符,最终将文本内容分割成数组。
764

被折叠的 条评论
为什么被折叠?



