Asp.net 数据采集基类(远程抓取,分解,保存,匹配)

本文介绍了一个用于ASP.NET的数据采集基类,包括日期随机函数、获取文件后缀及远程文件源代码等功能。通过实例展示了如何使用这些功能进行网页内容抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Asp.net 数据采集基类(远程抓取,分解,保存,匹配)
详细参考地址:http://www.opent.cn/article.asp?id=5


#region 日期随机函数
        /**********************************
         * 函数名称:DateRndName
         * 功能说明:日期随机函数
         * 参    数:ra:随机数
         * 调用示例:
         *          GetRemoteObj o = new GetRemoteObj();
         *          Random ra = new Random();
         *          string s = o.DateRndName(ra);
         *          Response.Write(s);
         *          o.Dispose();
         * ********************************/
        /// <summary>
        /// 日期随机函数
        /// </summary>
        /// <param name="ra">随机数</param>
        /// <returns></returns>
        public  string DateRndName(Random ra)
        {
            DateTime d = DateTime.Now;
            string s = null, y, m, dd, h, mm, ss;
            y = d.Year.ToString();
            m = d.Month.ToString();
            if (m.Length < 2) m = "0" + m;
            dd = d.Day.ToString();
            if (dd.Length < 2) dd = "0" + dd;
            h = d.Hour.ToString();
            if (h.Length < 2) h = "0" + h;
            mm = d.Minute.ToString();
            if (mm.Length < 2) mm = "0" + mm;
            ss = d.Second.ToString();
            if (ss.Length < 2) ss = "0" + ss;
            s += y + m + dd + h + mm + ss;
            s += ra.Next(100, 999).ToString();
            return s;
        }
        #endregion

        #region 取得文件后缀
        /**********************************
         * 函数名称:GetFileExtends
         * 功能说明:取得文件后缀
         * 参    数:filename:文件名称
         * 调用示例:
         *          GetRemoteObj o = new GetRemoteObj();
         *          string url = @"http://www.baidu.com/img/logo.gif";
         *          string s = o.GetFileExtends(url);
         *          Response.Write(s);
         *          o.Dispose();
         * ********************************/
        /// <summary>
        /// 取得文件后缀
        /// </summary>
        /// <param name="filename">文件名称</param>
        /// <returns></returns>
        public string GetFileExtends(string filename)
        {
            string ext = null;
            if (filename.IndexOf('.') > 0)
            {
                string[] fs = filename.Split('.');
                ext = fs[fs.Length - 1];
            }
            return ext;
        }
        #endregion

        #region 获取远程文件源代码
        /**********************************
         * 函数名称:GetRemoteHtmlCode
         * 功能说明:获取远程文件源代码
         * 参    数:Url:远程url
         * 调用示例:
         *          GetRemoteObj o = new GetRemoteObj();
         *          string url = @"http://www.baidu.com";
         *          string s = o.GetRemoteHtmlCode(url);
         *          Response.Write(s);
         *          o.Dispose();
         * ********************************/
        /// <summary>
        /// 获取远程文件源代码
        /// </summary>
        /// <param name="url">远程url</param>
        /// <returns></returns>
        public string GetRemoteHtmlCode(string Url)
        {
            string s = "";
            MSXML2.XMLHTTP _xmlhttp = new MSXML2.XMLHTTPClass();
            _xmlhttp.open("GET", Url, false, null, null);
            _xmlhttp.send("");
            if (_xmlhttp.readyState == 4)
            {
                s = System.Text.Encoding.Default.GetString((byte[])_xmlhttp.responseBody);
            }
            return s;
        }

        #endregion
取得页面HTML代码的例子上面已经给出不少了
下面的代码是使用正则表达式取得HTML中内容的代码
Regex regex1 = new Regex(this.NameKey, RegexOptions.Singleline | RegexOptions.IgnoreCase );
MatchCollection collection1 = regex1.Matches(this.ArtHtml);
if (collection1.Count>0)
{
result=collection1[0].Result("${title}");
}

转载于:https://www.cnblogs.com/BoKeRen/archive/2006/12/22/600095.html

电动汽车数据集 该综合数据集包含许多品牌和年份的电动汽车和插电式车型的记录,捕获了技术规格、性能、定价、制造原产地、销售和安全相关属性。每一行代表由Vehicle_ID标识的唯一车辆列表。 主要特征 覆盖范围:全球制造商和车型组合,包括纯电动汽车和插电式混合动力汽车。 范围:电池化学成分、容量、续航里程、充电标准和速度、价格、产地、自主水平、排放、安全等级、销售和保修。 时间跨度:模型跨越多个年份(旧版和即将推出的)。 数据质量说明: 某些行的某些字段可能缺失(空白)。 多个分类字段包含不同的特定于供应商的值(例如,Charging_Type、Battery_Type)。 单位在列之间混合;注意千瓦时、公里、小时、美元、克/公里和额定等级。 列 Vehicle_ID 每个车辆记录的唯一标识符。 制造者 车辆品牌或 OEM。 型 年 Battery_Type 使用的电池化学/技术 Battery_Capacity_kWh 标称电池容量(以千瓦时为单位)。 Range_km 充满电后声称的行驶里程(公里)。 Charging_Type 主要的充电接口或功能。 Charge_Time_hr 大致充电时间(小时),上下文因充电方法而异 Price_USD 以美元为单位的指示性车辆价格。 颜色 Country_of_Manufacture 车辆制造/组装的国家/地区。 Autonomous_Level 自动化能力级别(例如,0-5),可能包括子级别的小数。 CO2_Emissions_g_per_km 尾气二氧化碳排放量(以克/公里为单位)(纯电动汽车通常为 0) Safety_Rating 安全等级 Units_Sold_2024 在 2024 年售出的单位 Warranty_Years 保修期(以年为单位)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值