使用神经网络进行语言分类及聚类算法介绍
1. 语言数据下载与处理
首先,我们可以通过以下代码下载并存储多种语言的《使徒行传》和《马太福音》经文:
uri = [
url,
URI.encode_www_form({
search: "#{URI.escape(search)}+#{page}",
version: "#{search_pattern.fetch('version')}"
})
].join('?')
puts uri
doc = Nokogiri::HTML.parse(open(uri))
doc.css('.passage p').each do |verse|
text += verse.inner_text.downcase.gsub(/[\d,;:\\\-\"]/,'')
end
end
File.open("#{language}_#{i}.txt", 'wb') {|f| f.write(text)}
end
end
这段代码会将不同语言的经文下载并存储为以语言和索引命名的文本文件。
2. 构建语言类及测试
为了处理训练数据,我们需要构建一个 Language 类,它的目的是将给定语言的文本文件加载到字符频率分布中,并在需要时输出字符向量,且所有向量元素之和为 1。以下是相关代码:
# encoding: utf-8
# test/lib/language_spec.rb
require 'sp
超级会员免费看
订阅专栏 解锁全文
2997

被折叠的 条评论
为什么被折叠?



