- 博客(6)
- 收藏
- 关注
转载 C++语言实现中文的ac自动机
#include #include #include #include #include #include #include #include using namespace std;#define VISIBLE_NUMBER 224//定义节点结构struct StateNode {bool finish_{false};int state_{0};int num_{0};string pattern_{};//goto tablevector<StateNod.
2021-06-11 09:53:24
721
2
原创 SimHash算法----海量数据如何根据文本内容快速找到相似文本原理及案例
SimHash算法----海量数据如何根据文本内容快速找到相似文本原理及案例SimHash算法原理转载自:https://blog.youkuaiyun.com/Daverain/article/details/80919418一、什么是SimHashSimHash算法是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling》中提到的一种...
2020-04-30 14:54:02
2894
原创 用户画像(2)使用keras框架搭建神经网络模型
import pickleimport pandas as pdimport tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltfrom keras import backend as Kfrom keras.models import Modelfrom keras.layers import Dens...
2018-09-19 10:24:29
973
原创 用户画像(1)使用sikuquanshu的中文词向量
import numpy as npimport pickleimport matplotlib.pyplot as pltfrom sklearn.preprocessing import OneHotEncoder,LabelEncoder从整个训练集数据集中抽取部分数据作为训练模型的训练集数据和测试集数据,并且指定要使用的目标变量def input_data(train_file,...
2018-09-19 10:23:07
464
原创 安装spark的详细步骤
1.下载spark的地址 http://spark.apache.org/downloads.html2.把下载好的压缩包拖拽到虚拟机的桌面3.把压缩包移动到/opt目录下 mv spark-2.3.1-bin-hadoop2.7.tgz /opt 4. 解压 tar -zxvf spark-2.3.1-bin-hadoop2.7.t...
2018-08-07 16:22:35
40945
3
原创 Hadoop配置无密码登陆
定义列表减价额外 python @requires_authorization DEF somefunc(参数1 ='',参数2 = 0):'''文档字符串''',如果参数1&amp;gt; param2的: #有趣打印'大'返回(参数2 - 参数1 + 1)无或类SomeClass的的:通过&amp;gt;&amp;gt;&amp;gt...
2018-08-06 10:06:22
1907
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人