关于手机等品牌型号搜索与采集的中文分词分离

本文介绍了一种通过编程方式自动分离手机品牌与型号的方法。该方法适用于搜索查询中输入的品牌和型号混合字符串,通过简单的字符串操作及正则表达式实现准确分离。

很久以前,写过一个手机的搜索查询,这里要涉及到手机类型和型号的分离。

很久之后前,有人问起这个问题,于是,写点说明就把这函数的草稿发布了,并写下了这一些说明。

函数说明,如搜索输入:诺基亚N95,将被拆分成品牌:诺基亚 型号:N95

对于手机数据采集,也可以用这函数分离出品牌和型号。

SetSearchKey("诺基亚N95",out 诺基亚,out N95);

 

函数代码如下:

 

protected void SetSearchKey(string keyword, out string goodsName, out string goodsModel)
        {
            keyword 
= keyword.ToLower().Trim();
            
if (keyword.Contains(" "))//带空格,分离
            {
                goodsName 
= keyword.Split(' ')[0].Trim();
                goodsModel 
= keyword.Split(' ')[1].Trim();
            }
            
else if (Regex.Match(keyword, @"^[\u4E00-\u9FA5]+[\w\d]+").Success)//以中文开头,包含英文,分离
            {
                goodsName 
= Regex.Match(keyword, @"^([\u4E00-\u9FA5]+)[\w\d]+").Groups[1].Value;
                goodsModel 
= keyword.Replace(goodsName, string.Empty);
            }
            
else
            {
                
string[] keys = new string[] { "nec""lg""vk""cect" };
                
for (int i = 0; i < keys.Length; i++)
                {
                    
if (keyword.IndexOf(keys[i]) == 0)
                    {
                        goodsName 
= keys[i];
                        goodsModel 
= goodsModel = keyword.Replace(goodsName, string.Empty);
                        
return;
                    }
                }
                goodsName 
= keyword;
                goodsModel 
= keyword;

            }
        }

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值