
python
walk walk
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
解决采集时使用selenium被屏蔽的办法
UC模式是基于undetected-chromedriver 但做了一些优化更新,使用起来更方便。关于seleniumbase 更多,请参考官方文档。解决采集时使用selenium被屏蔽的办法。实用seleniumbase uc模式。原创 2024-02-21 12:41:11 · 734 阅读 · 1 评论 -
python logging 使用kafka进行日志收集
kafka日志处理类。原创 2024-01-24 12:08:34 · 575 阅读 · 1 评论 -
MinHashLSH使用redis存储
也可以将datasketch中的lsh.py和storage.py复制到自己程序目录下 修改,避免影响其他程序。datasketch自带的redis存储是没有设置有效期的,如果需要添加有效期,需要修改它的源代码。修改storage.py文件中_insert 函数 ,有两处,大于在1039和1084行左右。原创 2024-01-24 10:29:37 · 712 阅读 · 0 评论 -
selenium采集后Win平台下结束chrome进程的方法
【代码】selenium采集后Win平台下结束chrome进程的方法。原创 2024-01-24 09:44:48 · 508 阅读 · 0 评论 -
tf.compat.v1.estimator.tpu.TPUEstimator参数说明
tf.compat.v1.estimator.tpu.TPUEstimator 参数原创 2022-09-20 11:45:44 · 1229 阅读 · 0 评论 -
(转)python的nltk中文使用和学习资料汇总帮你入门提高
转自:http://blog.youkuaiyun.com/huyoo/article/details/12188573nltk是一个Python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnb...原创 2017-03-06 10:19:19 · 299 阅读 · 0 评论 -
spark2.3聚类算法lda代码(python)
spark的lda有两个一个是mllib下 一个是ml下的,下面代码是使用ml的from pyspark import SparkConf, SparkContext,SQLContextfrom pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizerfrom p...原创 2018-08-15 09:49:01 · 1002 阅读 · 1 评论 -
spark之word2vec使用(python)
[code="python"]from pyspark import SparkConf, SparkContext,SQLContextfrom pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizerconf = SparkConf().setAppName("...原创 2018-08-15 09:57:59 · 1875 阅读 · 0 评论 -
计算文本词频tf-idf然后进行聚类
import jieba import jieba.analyse import math import operator from sklearn.cluster import KMeans, MiniBatchKMeans, AffinityPropagation, DBSCAN from sklearn.cluster import MeanShift, estimate...原创 2019-07-12 10:30:03 · 2323 阅读 · 0 评论 -
卡方检验提取特征来对文本分类
count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(corpus) tfidf_transformer = TfidfTransformer() X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts) X_ch2...原创 2019-07-12 10:31:07 · 1439 阅读 · 4 评论 -
spark进行svd降维和kmeans聚类
import jieba import jieba.analyse import jieba.posseg as pseg from pyspark import SparkConf, SparkContext,SQLContext from pyspark.ml.feature import Word2Vec,CountVectorizer import pandas as pd ...原创 2019-07-12 10:32:06 · 797 阅读 · 0 评论 -
sklearn聚类之kmeans以及增量聚类
使用kmeans聚类时,计算量往往都比较大,当有新的数据要添加到现有类别时,怎么做呢使用sklearn简单做法就是训练时把模型保存,增量时加载模型,用predict预测就好了。前提条件是新数据和训练时的特征要一致,比如在训练时使用的分词idf,把所有分词idf的词典保存下来,对于新的增量数据,调用该词典。#聚类类别数 k_num = 50 mydatas = [] #加载数据,每一条...原创 2019-07-12 10:33:40 · 5287 阅读 · 1 评论 -
pyspark使用指定版本的python
系统中同时装了python2 和python3,如何让spark使用指定的python?只要在系统中设定一个环境变量PYSPARK_PYTHON 把该环境变量指向对应的python即可。比如我在windows中添加一个系统环境变量PYSPARK_PYTHON 然后把值指向d:\python3...原创 2019-07-12 10:47:27 · 4775 阅读 · 1 评论 -
python 转换中文为json时 ensure_ascii设置为False
因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=Falseimport jsonprint json.dumps(‘中文’,ensure_ascii=False)原创 2019-09-17 18:01:40 · 3002 阅读 · 0 评论 -
linux 编译安装 Python3.6 (保留自带Python2)
yum install wgetyum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-develcd /usr/local/srcwget https://www.python.org/ftp/python/3.6.0/Python-3.6.0....原创 2017-07-21 15:55:20 · 166 阅读 · 0 评论 -
TensorFlow 的SSE avx fma安装
W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE3 instructions, but these are available on your machine and could speed up CPU computations.W ten...原创 2017-05-06 19:22:09 · 422 阅读 · 0 评论 -
(转载)Seq2SeqModel参数
训练数据和预处理数据集是电影剧本中的对话,我们首先需要做一些预处理以获得正确的数据格式。切字分词 使用结巴分词。移除低频词 代码中,用vocabulary_size 限制词表的大小。用UNK代替不包括在词表中的单词。例如,单词“非线性”不在词表中,则句子“非线性在神经网络中是重要的”变成“UNK在神经网络中是重要的”。准备开始和结束标签以及填充标签 在decod...原创 2017-05-05 16:15:24 · 1668 阅读 · 0 评论 -
pickle.dumps参数
pickle.dumps(obj[,protocol])¶Return the pickled representation of the object as a string, instead of writing it to a file.If the protocol parameter is omitted, protocol 0 is used. If protocol is s...原创 2016-08-12 15:46:21 · 1067 阅读 · 0 评论 -
sklearn学习--读取mysql数据源进行训练样本和预测文本分类
[code="java"]# coding=utf-8import reimport pandas as pdimport stringimport MySQLdbimport jiebafrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extract...原创 2016-08-15 15:45:05 · 420 阅读 · 0 评论 -
[转载] 基于内容的推荐系统(含python代码)-简练
http://www.ryanzhang.info/archives/2594基于内容的推荐系统的核心思想是:推荐给用户 x 那些与 x 给出高评价的物品近似的物品。具体方法为:为物品简历“档案” item profiles根据用户对物品的打分建立用户“档案” user profiles推荐时,根据用户档案与物品档案之间的相似程度进行推荐用之前的文档做例子,TF-I...原创 2016-08-16 09:43:34 · 2939 阅读 · 2 评论 -
python开源推荐系统Crab
Crab是基于Python开发的开源推荐软件,其中实现有item和user的协同过滤Features:Recommender Algorithms: User-Based Filtering and Item-Based FilteringWork in progress: Slope One, SVD, Evaluation of Recommenders.Planed: Spa...原创 2016-08-16 10:04:07 · 1092 阅读 · 0 评论 -
scikit-learn选择正确的分类器
Often the hardest part of solving a machine learning problem can be finding the right estimator for the job. Different estimators are better suited for different types of data and different problems...原创 2016-08-23 17:15:30 · 238 阅读 · 0 评论 -
sklearn学习--文本分类多分类应用
[code="java"]#!/usr/bin/env python# coding=utf-8import sysimport jiebafrom sklearn.pipeline import Pipelinefrom sklearn.feature_extraction.text import CountVectorizer, TfidfTransformerfrom...原创 2016-08-29 12:27:22 · 1179 阅读 · 0 评论 -
php与python之间通信
前端app(PHP) 与 后端 python通信python端[code="java"]import socketimport subprocesssocket = socket.socket(socket.AF_INET,socket.SOCK_STREAM)socket.bind(('127.0.0.1',10000))socket.listen(10)whil...原创 2016-10-14 14:45:39 · 1187 阅读 · 0 评论 -
(转载)jieba全应用入门
# coding: utf-8# ###jieba特性介绍# 支持三种分词模式:# 精确模式,试图将句子最精确地切开,适合文本分析;# 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;# 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。# 支持繁体分词。# 支持自定义词典。# MIT 授权协议。...原创 2017-03-22 09:14:20 · 184 阅读 · 0 评论 -
Spark ALS推荐系统简单例子(python)
采用MovieLens 100k数据集 http://files.grouplens.org/datasets/movielens/ml-100k.zip[code="java"]# -*- coding: utf-8 -*-# spark-submit movie_rec.pyfrom pyspark import SparkConf, SparkContextfrom ...原创 2016-11-30 10:55:53 · 1647 阅读 · 0 评论 -
用Spark ALS通过预测推荐电影(python)
[code="java"]#!/usr/bin/env python# coding=utf-8'''运行命令/yourpath/spark/bin/spark-submit --driver-memory 1g MovieLensALS.py movieLensDataDir personalRatingsFilemovieLensDataDir 电影评分数据集目录 比如 m...原创 2016-12-02 11:34:09 · 1252 阅读 · 0 评论 -
pyspark在windows下java.net.SocketException: Connection reset by peer 错误
pyspark在windows加载数据集 训练模型出现 以下错误java.net.SocketException: Connection reset by peer: socket write error at java.net.SocketOutputStream.socketWrite0(Native Method) at java.net.Socket...原创 2016-12-05 16:12:51 · 1514 阅读 · 1 评论 -
windows下python中运用libsvm的配置(转载)
转载 http://blog.sina.com.cn/s/blog_132a9d5010102wsov.html先说明一下我的各个版本,电脑win7 64位,Python 2.7版本32位,已安装的各种python库都是32位。所以我这篇文章针对的是以上配置的情况,如果你是64位系统,64位python,请参考 http://blog.youkuaiyun.com/lj695242104/ar...原创 2016-12-13 14:03:29 · 245 阅读 · 0 评论 -
(转载)基于CRF的中文分词
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)本...原创 2017-04-28 17:27:33 · 416 阅读 · 0 评论 -
ubuntu下配置apache,mod_wsgi和django
安装apachesudo apt-get install apache2安装mysqlsudo apt-get install mysql-serversudo apt-get install python-mysqldb安装wsgisudo apt-get install libapache2-mod-wsgi安装djangosudo apt-get instal...原创 2016-07-28 13:45:35 · 271 阅读 · 0 评论