
机器学习
wakawakaohoh
这个作者很懒,什么都没留下…
展开
-
对长文本的聚类
需求:长文本的实时聚类\离线聚类,聚类新闻中重复或相似的文章BERT取句首[CLS]向量做聚类效果并不好,取出所有向量做处理做聚类据 说效果提升,没试,而且位置编码时速度太慢,弃用。SBERT没试。HashTrick+DBSCAN,效果不错,采用Single-Pass Clustering,效果应该也可以,没试。参考知乎Single-Pass Clustering...原创 2020-11-19 20:14:15 · 863 阅读 · 0 评论 -
conda 段错误解决办法
因为网络问题中断导致,要么找到未下完的包删掉,要么运行 conda clean -a原创 2020-10-14 09:18:34 · 335 阅读 · 0 评论 -
tensorflow2 搭建神经网络六步法
import tensorflow as tfimport osimport numpy as npfrom matplotlib import pyplot as pltnp.set_printoptions(threshold=np.inf)mnist = tf.keras.datasets.mnist(x_train, y_train), (x_test, y_test) = mnist.load_data()x_train, x_test = x_train / 255.0, x_原创 2020-09-21 15:21:49 · 855 阅读 · 0 评论 -
各种转码(bytes、string、base64、numpy array、io、BufferedReader )
# 将字节流转ndarrayimport ioimport structimport cv2import numpy as npa = b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\xa0\x00\x00\x00\xa0\x08\x02\x00\x00\x00\x04\xad\xf0z\x00\x00\x91[IDATx\x9cd\xfdi\x93,K\x93\x1e\x86\xf9\x16\x91YKw\x9fs\xee\xfen\x98\x转载 2020-07-11 18:21:21 · 29814 阅读 · 0 评论 -
numpy中的广播机制与维数和轴的总结
numpy几乎天天用,可一旦涉及到高维的广播和关于轴的聚合操作时都要琢磨一下,看了不少博客,都是互相抄,帮助不大,特地总结一下。一、 广播机制广播的原则:如果两个数组的后缘维度(trailing dimension,即从末尾开始算起的维度)的轴长度相符,或其中的一方的长度为1,则认为它们是广播兼容的。广播会在缺失和(或)长度为1的维度上进行。这句话分两种情况理解第一种情况:如果两个数组维度不同,则后缘维度的轴长度相同可以广播。例如:(3,4,2)和(4,2)的维度是不相同的,前者为3维,后者为2原创 2020-06-04 13:15:33 · 554 阅读 · 0 评论 -
ValueError: operands could not be broadcast together with shapes (112,4) (4,1)
X = pd.read_csv('train_X.csv').valuesy = pd.read_csv('train_y.csv').valuesweights=ones((4,1))print(X.shape,type(X))print(y.shape,type(y))print(weights.shape,type(weights))运行结果:(112, 4) <cla...原创 2020-01-08 16:28:07 · 1316 阅读 · 0 评论