C#正向分词

这篇博客介绍了如何使用C#语言进行正向分词。作者通过读取txt文本,设定cutword变量存储8个字符的待切分字段,然后与词库对比。若词库中有该词,则输出并移动cutword;若无,则减字重试。当cutword只剩一个字时也需输出。此外,处理末尾不足8个字的情况。虽然是初级尝试,但作者承诺会继续努力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用C#语言进行分词。

大体思路:

①读入txt文本

<pre name="code" class="csharp"><pre name="code" class="csharp"> FileStream fs = new FileStream("E:\\data\\my_data\\yuanwen.txt", FileMode.Open);
            StreamReader wholetext = new StreamReader(fs, System.Text.Encoding.Default);
            // Console.WriteLine(wholetext.ReadLine());//C#读入中文txt文件
            string txt = wholetext.ReadLine();
            Console.WriteLine(txt);
            char[] words = txt.ToCharArray();//将整篇文章打散,数组的每一个成员存入一个字
            int wholelen = words.Length;//数组的总长度
            Console.WriteLine(words.Length);//求整篇文章存入数组之后的长度,一共有227个字,但数组长度为231,貌似空格也被计入数组?!!?
            Console.WriteLine(words[7]);//用来测试数组的输出,输出的是“在”,但是“在”实际上是第四个数


 

 ②连入数据库,数据库用的是access 

  //以下要连入数据库
            string mystr, mysql;//最后是否要写入一个txt文件,先假定不写
            OleDbConnection myconn = new OleDbConnection();
            OleDbCommand mycmd = new OleDbCommand();
            mystr = "Provider=Microsoft.Jet.OLEDB.4.0;Data Source=words.mdb";
            myconn.ConnectionString = mystr;
            myconn.Open();

            string cutword = null;//预备用来放入待切的数组元素,并将其转化成字符串
            mycmd.Connection = myconn;
            if (myconn.State == ConnectionState.Open)
                Console.WriteLine("已成功连入数据库");
            else
                Console.WriteLine("未成功连入数据库");
③下面进行分词

举个例子:

如果不是你,我不会相信,朋友比情人还死心塌地。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值