- 博客(4)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 (python )LDA perplexity计算
前期训练数据使用的工具包是LDA, [ 文档传送 ]如果需要Java版本,可以参考下面链接,本文也是基于此文改写为python,不得不说,python还是要简洁的多哈哈 https://blog.youkuaiyun.com/dongweionly/article/details/50286961代码'''dw是文档-词矩阵,dt是经过LDA训练后的文档-主题矩阵,tw是经过LDA训练后...
2018-04-29 14:20:08
3028
原创 python构建关键词共现矩阵速度优化
首先感谢[AlanConstantineLau]的文章,为做共现矩阵提供了思路。本文也是基于他的代码进行一定的速度优化。 (http://blog.youkuaiyun.com/alanconstantinelau/article/details/69258443)按照原作者的代码,在构造一个较大数据量的矩阵(excel数据10000条,截选出关键词1200余个)时,花费了5个小时,后来修改了算法之后
2018-01-24 11:18:27
7317
21
原创 kettle中"数据库查询"与"数据库连接"步骤的区别
“数据库查询”步骤对于每一行输入流最多只能向输出流返回一行,而”数据库连接”步骤是从数据库中返回的 每一行都输出到输出流中. 换句话说,”数据库连接”步骤包含了”数据库查询”的结果,同时返回更多的数据行.1.示例表: 2.输入数据: 3.用数据库查询显示如下: 纵使 id=2707 有不同的两条数据,但是只返回一条;4.用数据库连接显示如下: 返回了所有id=2707的数据.
2017-05-09 19:08:09
2179
1
关于数据仓库的产品维度属性不确定问题
2017-04-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人