利用com调用ie进行html解析

HTML解析技巧
本文提供了一种使用COM接口和.NET框架中的mshtml库进行HTML解析的方法,并实现了一个简单的HTML解析器类。该解析器可通过URL直接解析网页内容或通过指定HTML字符串进行解析。文章最后提出了一项挑战:如何在不依赖临时文件的情况下直接解析HTML字符串。
    别的就不多说了,直接上代码,代码很简单的,不懂的留言。
ContractedBlock.gifExpandedBlockStart.gifCode
 1using System;
 2using System.Collections.Generic;
 3using System.Linq;
 4using System.Text;
 5using System.Runtime.InteropServices;
 6using mshtml;
 7using System.Threading;
 8using System.Runtime.InteropServices.ComTypes;
 9using System.IO;
10
11namespace Eric.Utilities.Html
12ExpandedBlockStart.gifContractedBlock.gif{
13    public enum HRESULT
14ExpandedSubBlockStart.gifContractedSubBlock.gif    {
15        E_FAIL = -2147467259,
16        E_INVALIDARG = -2147024809,
17        E_NOINTERFACE = -2147467262,
18        E_NOTIMPL = -2147467263,
19        E_UNEXPECTED = -2147418113,
20        S_FALSE = 1,
21        S_OK = 0
22    }

23
24    [ComImport, Guid("0000010c-0000-0000-C000-000000000046"), InterfaceType(ComInterfaceType.InterfaceIsIUnknown), ComVisible(true)]
25    public interface IPersist
26ExpandedSubBlockStart.gifContractedSubBlock.gif    {
27        void GetClassID(ref Guid pClassID);
28    }

29
30    [ComImport, InterfaceType(ComInterfaceType.InterfaceIsIUnknown), ComVisible(true), Guid("7FD52380-4E07-101B-AE2D-08002B2EC713")]
31    public interface IPersistStreamInit : IPersist
32ExpandedSubBlockStart.gifContractedSubBlock.gif    {
33        new void GetClassID(ref Guid pClassID);
34        [PreserveSig]
35        int IsDirty();
36        [PreserveSig]
37        HRESULT Load(IStream pstm);
38        [PreserveSig]
39        HRESULT Save(IStream pstm, [MarshalAs(UnmanagedType.Bool)] bool fClearDirty);
40        [PreserveSig]
41        HRESULT GetSizeMax([In, Out, MarshalAs(UnmanagedType.U8)] ref long pcbSize);
42        [PreserveSig]
43        HRESULT InitNew();
44    }

45
46    public class HtmlParser
47ExpandedSubBlockStart.gifContractedSubBlock.gif    {
48        public IHTMLDocument3 Parse(string url)
49ExpandedSubBlockStart.gifContractedSubBlock.gif        {
50            HTMLDocument objMSHTML = new HTMLDocument();
51            IHTMLDocument2 objMSHTML2;
52            IHTMLDocument3 objMSHTML3;
53
54            IPersistStreamInit objIPS;
55            objIPS = objMSHTML as IPersistStreamInit;
56            objIPS.InitNew();
57            objIPS = null;
58
59            objMSHTML2 = objMSHTML.createDocumentFromUrl(url, "null");
60            while (objMSHTML2.readyState != "complete")
61ExpandedSubBlockStart.gifContractedSubBlock.gif            {
62                Thread.Sleep(1000);
63            }

64            objMSHTML3 = objMSHTML2 as IHTMLDocument3;
65            return objMSHTML3;
66        }

67
68        public IHTMLDocument3 ParseHtml(string html, Encoding encoding)
69ExpandedSubBlockStart.gifContractedSubBlock.gif        {
70            string tmpFile = Path.GetTempFileName();
71            File.WriteAllText(tmpFile, html, encoding);
72            return Parse(tmpFile);
73        }

74    }

75}

76
    说一个问题,进行parsehtml的时候,是先建立了一个临时文件,想不建立临时文件直接进行,但是不得法,网上有通过makup service进行的,但我发现不好用。不知道大家有没有好的办法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值