宋词分析改编版(ruby)

宋词分析与Ruby编码转换
本文介绍了一个基于Ruby 1.9版本的宋词分析程序。该程序在UTF-8编码环境下运行,并实现了从GBK到UTF-8的转换。通过使用Iconv库处理编码问题,程序能够对宋词文本进行分词并统计词频。
上一次我写的[url=http://fangu002.iteye.com/blog/1312519]宋词分析[/url],是在Windows环境下的,缺省编码是GBK(936),所以在处理UTF-8的时候,需要转换为GBK,再进行处理分析。
不过现在已经是ruby1.9版了,那么就改一下,在uft-8下处理程序,主要就是把原宋词文件内容从gbk编码为utf-8,再进行相应的处理,dos下需要chcp 65001转换为utf-8编码,再执行才可以看到正确结果,否则就是乱码。
我用的SciTE,在Options->Open Global Options File中,code.page=65001,output.code.page=65001去除前面的#,就可以正确处理utf-8文字了。
嗯,Windows就是麻烦,Linux和mac一直想玩玩,但是单位无法上网,需要联网的东西太费事了。
还有就是改写为utf-8版后,计数和gbk版的不同了,gbk版的,和原文的计数一致,utf-8版的,一是计数多了,二是很多后面的也提到了前面,不知道为什么,也许是gbk->utf-8转换的时候,一些文字出现问题了吧。


#coding: utf-8
require "iconv"

NUM1 = 2 #分词长度
NUM2 =500 #显示大于多少的记录

def splitword(s,l) #分词,s是字符串,l是字符分词长度
lt = s.length
k = Array.new
0.upto(lt-l) do |i|
k<<s[i..i+l-1]
end
return k
end

t = Time.now

x = Array.new #记录分词结果的数组
File.open("ci.txt", "r") do |file|
file.each do |line|
line = Iconv.conv("UTF-8//IGNORE","GBK", line)
line.chomp!
column = line.split(/,|。|!|?|、/) #使用标点分割
column.delete_if {|i| i.length >10 } #去除大于10个字的语句
column.each do |col|
splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词
end
end
end

h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash
h.delete_if {|key, value| value <NUM2} #去除hash中小于指定数值的部分

y = Array.new
y = h.sort {|a,b| b[1]<=>a[1]} # 从大到小排序
y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }

puts "运行时间是:"<<(Time.now-t).to_s<<"秒"
潮汐研究作为海洋科学的关键分支,融合了物理海洋学、地理信息系统及水利工程等多领域知识。TMD2.05.zip是一套基于MATLAB环境开发的潮汐专用分析工具集,为科研人员与工程实践者提供系统化的潮汐建模与计算支持。该工具箱通过模块化设计实现了两大核心功能: 在交互界面设计方面,工具箱构建了图形化操作环境,有效降低了非专业用户的操作门槛。通过预设参数输入模块(涵盖地理坐标、时间序列、测站数据等),用户可自主配置模型运行条件。界面集成数据加载、参数调整、可视化呈现及流程控制等标准化组件,将复杂的数值运算过程转化为可交互的操作流程。 在潮汐预测模块中,工具箱整合了谐波分解法与潮流要素解析法等数学模型。这些算法能够解构潮汐观测数据,识别关键影响要素(包括K1、O1、M2等核心分潮),并生成不同时间尺度的潮汐预报。基于这些模型,研究者可精准推算特定海域的潮位变化周期与振幅特征,为海洋工程建设、港湾规划设计及海洋生态研究提供定量依据。 该工具集在实践中的应用方向包括: - **潮汐动力解析**:通过多站点观测数据比对,揭示区域主导潮汐成分的时空分布规律 - **数值模型构建**:基于历史观测序列建立潮汐动力学模型,实现潮汐现象的数字化重构与预测 - **工程影响量化**:在海岸开发项目中评估人工构筑物对自然潮汐节律的扰动效应 - **极端事件模拟**:建立风暴潮与天文潮耦合模型,提升海洋灾害预警的时空精度 工具箱以"TMD"为主程序包,内含完整的函数库与示例脚本。用户部署后可通过MATLAB平台调用相关模块,参照技术文档完成全流程操作。这套工具集将专业计算能力与人性化操作界面有机结合,形成了从数据输入到成果输出的完整研究链条,显著提升了潮汐研究的工程适用性与科研效率。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值