使用 AlgorithmStar 与 Spark 实现 词频统计,并进行对比
数据分析案例
(AS 算法之星 机器学习库)(Spark 分布式计算 框架)实现 词频 统计 数据分析 的 案例
目录
文章目录
AlgorithmStar 实现词频统计
AlgorithmStar 是相较于Spark来说,使用起来比较简单的框架,API非常简洁,推荐使用Java语言调用,下面开始进行一个实现。
优点:非庞大数据量都可以支持,API简单,有预制词频函数,自动识别符号,内存占用非常小
缺点:分布式性能与支持略低于spark
代码
在下面的代码中,每个步骤都进行了注释,同时在结尾处演示了两种打印方法。
package org.example;
import io.github.beardedManZhao.algorithmStar.algorithm.featureExtraction.WordFrequency;
import io.github.beardedManZhao.algorithmStar.core.AlgorithmStar;
import io.github.beardedManZhao.algorithmStar.operands.matrix.ColumnIntegerMatrix;
public class Main {
public static void main(String[] args) {
// 准备一个句子
final String data =