使用XPath解析html

本文介绍如何使用XPath解析HTML文件,通过指定XPath查询表达式来查找特定元素,并提取其属性值,实现从HTML页面中批量获取链接的功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用XPath解析html
可以从此处 https://github.com/topfunky/hpple下载工程,将TFHpple.h,TFHpple.m,TFHppleElement.h,TFHppleElement.m,XPathQuery.h,XPathQuery.m加到自己的项目中,在Frameworks中导入libxml2.x
iOS开发之html解析

在项目中找到Other Linker Flags,加入-libxml2
iOS开发之html解析

在项目中找到Header Search Paths,加入/usr/include/libxml2
代码如下:

NSString *urlString =nil;

 

urlString =@"http://www.xiyou.edu.cn/new/lm.jsp?urltype=tree.TreeTempUrl&wbtreeid=724";

 

NSData *htmlData = [[NSData alloc] initWithContentsOfURL:[NSURLURLWithString:urlString]];

 

NSData *toHtmlData =[self toUTF8:htmlData];

 

TFHpple *xpathParser =[[TFHpple alloc] initWithHTMLData:toHtmlData];

 

 

NSArray*aArray = [xpathParser searchWithXPathQuery:@"//a"];

 

if ([span count] > 0) {

          

          for (int i = 87; i < 102; i++) {

                      //从<a>的第82个开始取值,共获取15个值

              TFHppleElement *aElement = [aArrayobjectAtIndex:i];   

              NSArray *aArr = [aElement children];

              TFHppleElement *aEle = [aArr objectAtIndex:0];

              NSArray *aChild = [aEle children];

              TFHppleElement *aChildEle = [aChildobjectAtIndex:0];

              NSArray *aChildren = [aChildElechildren];

              NSString *aStr = [[aChildren objectAtIndex:0] content];

              NSLog(@"aStr:%@",aStr);

              NSDictionary *aAttributeDict = [aElementattributes];

              NSLog(@"aAttributeDict:%@",aAttributeDict);

              

                       //获取a中的属性值

              NSString *hrefStr = [NSString stringWithFormat:@"http://www.xiyou.edu.cn%@",[aAttributeDictobjectForKey:@"href"]];

              NSLog(@"hrefStr:%@",hrefStr);

              

              [currentNewsArr addObject:aStr];

              [currentHrefArr addObject:hrefStr];

              

           }

[htmlData release];

[xpathParser release];

}


//如果解析的网页不是utf8编码,如gbk编码,可以先将其转换为utf8编码再对其进行解析

 

-(NSData *)toUTF8:(NSData *)sourceData { 

   CFStringRef gbkStr =CFStringCreateWithBytes(NULL,[sourceData bytes],[sourceData length],kCFStringEncodingGB_18030_2000,false);  

    

    if (gbkStr == NULL) {  

       returnnil;  

    } else {  

       NSString*gbkString = (NSString*)gbkStr; 

       //根据网页源代码中编码方式进行修改,此处为从gbk转换为utf8

           NSString *utf8_String =[gbkString stringByReplacingOccurrencesOfString:@"METAhttp-equiv="Content-Type" content="text/html; charset=GBK"" 

                                                           withString:@"META http-equiv="Content-Type"content="text/html; charset=UTF-8""]; 

       

       return[utf8_String dataUsingEncoding:NSUTF8StringEncoding];                        

                                 

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值