julei3.py-20180824

本文介绍了一种结合TF-IDF和K-Means算法进行文本聚类的方法。首先利用TF-IDF提取文本特征,然后通过K-Means实现自动聚类。此外,还探讨了如何选择合适的K值,并展示了聚类结果。
# -*- coding: utf-8 -*-
"""
Created on Wed Jul 18 11:01:41 2018

@author: wenyun.wxw
"""

# coding=utf-8  
""" 
Created on 2016-01-06 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
import numpy as np
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer 
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans 
import pandas as pd 
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

#if __name__ == "__main__":
    
#########################################################################
#                           第一步 计算TFIDF

#文档预料 空格连接
corpus = []

#读取预料 一行预料为一个文档
for line in open('分词结果.csv','r',encoding='ansi').readlines():
    #print(line)
    corpus.append(line.strip())
#print corpus
#time.sleep(1)

#将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频
vectorizer = CountVectorizer()
 
#该类会统计每个词语的tf-idf权值
transformer = TfidfTransformer()
 
#第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
 
#获取词袋模型中的所有词语  
words = vectorizer.get_feature_names()
 
#将tf-idf矩阵抽取出来,元素w[i][j]表示j词在i类文本中的tf-idf权重
weight = tfidf.toarray()
#    from sklearn.feature_extraction import DictVectorizer
#    DV = DictVectorizer(sparse=False)
#    weight = DV.fit_transform(tfidf)
#    weight = tfidf

#    #打印特征向量文本内容
#    print('Features length: ' + str(len(words)))
#    resName = "分词结果2.csv"
#    result = codecs.open(resName, 'w', 'utf-8')
#    for j in range(len(words)):
#        result.write(words[j] + ' ')
#    result.write('\r\n\r\n')
# 
#    #打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for便利某一类文本下的词语权重  
#    for i in range(len(weight)):
#       # print(u"-------这里输出第",i,u"类文本的词语tf-idf权重------")
#        for j in range(len(words)):
#            #print weight[i][j],
#            result.write(str(weight[i][j]) + ' ')
#        result.write('\r\n\r\n')
# 
#    result.close()
 
 
########################################################################
#                               第二步 聚类Kmeans   
#---------选K------------------
#手肘法:画sse与K的图,拐点处为最佳K
SSE = []  # 存放每次结果的误差平方和
#K的上限为20
kmax=20
for k in range(1,kmax):
    estimator = KMeans(n_clusters=k,init='k-means++')  # 构造聚类器
    estimator.fit(weight)
    SSE.append(estimator.inertia_)
plt.xlabel('k')
plt.ylabel('SSE')
plt.plot(range(1,kmax),SSE,'o-')
plt.show()
#效果不好,看不出来拐点

#轮廓系数法,轮廓系数最大的k最佳
 
Scores = []  # 存放轮廓系数
for k in range(2,kmax):
    estimator = KMeans(n_clusters=k,init='k-means++')  # 构造聚类器
    estimator.fit(weight)
    Scores.append(silhouette_score(weight,estimator.labels_,metric='euclidean'))
plt.xlabel('k')
plt.ylabel('轮廓系数')
plt.plot(range(2,kmax),Scores,'o-')
plt.show()
#k=10时相对最大

#---------聚类------------------
#print('Start Kmeans:')
clf = KMeans(n_clusters=6,init='k-means++')
s = clf.fit(weight)
print(s)
 
#6个中心点
centers=clf.cluster_centers_


#分类结果:每个样本所属的簇
#print(clf.labels_)
label=clf.labels_

#    i = 1
#    while i <= len(clf.labels_):
#        print(i, clf.labels_[i-1])
#        i = i + 1

#Kmeans的sse
#用来评估簇的个数是否合适,距离越小说明簇分的越好,选取临界点的簇个数
print(clf.inertia_)

 
file = open('分类结果k=6.csv','w')
for i in list(range(len(label))):
    file.write(','.join((str(label[i]),str(ratecontent[i])))+'\n')
file.close()  

#把每类分开,k=1,2,...6
def divide(word,k):
    word_part=[]
    for i in range(len(label)):
        if label[i]==k:
            word_part.append(word[i])
    
    #合并所有词        
    wordall=[]
    for w in word_part:
        wordall.extend(w)
    
    #词频统计    
    wordcount= {} #字典
    for item in wordall:
      if item not in wordcount:
        wordcount[item] = 1
      else:
        wordcount[item] += 1

    #根据词频从高到低排序
    wordcount_sort=sorted(wordcount.items(),key=lambda item:item[1],reverse=True)
    
    #可视化词云   
    #按照词频决定字的大小,fit_words接受的参数为字典,注意必须为字典可以直接使用结巴分词带频率的结果
    wordcloud = WordCloud(background_color="white",font_path="file:///C:/windows/Fonts/MSYH.TTC",
               width=1000, height=860, margin=2).fit_words(wordcount)
    #perferences图片inline改为qt5
    plt.imshow(wordcloud) 
    plt.axis("off")
    plt.savefig('分类(k=6)-'+str(k)+'.png')
    
    file = open('词频统计_分类(k=6)'+str(k)+'.csv','w')
    for i in list(range(len(wordcount_sort))):
        file.write(','.join((wordcount_sort[i][0],str(wordcount_sort[i][1])))+'\n')
    file.close()
    
    return 0

for k in range(6):
    divide(word,k)
    

 

单向双向V2G 环境下分布式电源与电动汽车充电站联合配置方法(Matlab代码实现)内容概要:本文介绍了在单向和双向V2G(Vehicle-to-Grid)环境下,分布式电源与电动汽车充电站的联合配置方法,并提供了基于Matlab的代码实现。研究涵盖电力系统优化、可再生能源接入、电动汽车充放电调度、储能配置及微电网经济调度等多个关键技术领域,重点探讨了在不同电价机制和需求响应策略下,如何通过智能优化算法实现充电站与分布式电源的协同规划与运行优化。文中还展示了多种应用场景,如有序充电调度、鲁棒优化模型、多目标优化算法(如NSGA-II、粒子群算法)在电力系统中的实际应用,体现了较强的工程实践价值和技术综合性。; 适合人群:具备电力系统、新能源、智能优化算法等相关背景的科研人员、研究生及从事能源系统规划与优化的工程技术人员;熟悉Matlab/Simulink仿真工具者更佳。; 使用场景及目标:①用于科研项目中关于电动汽车与分布式电源协同配置的模型构建与仿真验证;②支持毕业论文、期刊投稿中的案例分析与算法对比;③指导实际电力系统中充电站布局与能源调度的优化设计。; 阅读建议:建议结合文中提供的Matlab代码与具体案例进行同步实践,重点关注优化模型的数学建模过程与算法实现细节,同时可参考文末网盘资源获取完整代码与数据集以提升学习效率。
【电动车】【超级棒】基于蒙特卡洛模拟法的电动汽车充电负荷研究(Matlab代码实现)内容概要:本文围绕基于蒙特卡洛模拟法的电动汽车充电负荷研究展开,利用Matlab代码实现对不同类型电动汽车(如常规充电、快速充电、换电模式)在不同场景下的充电负荷进行建模与仿真。通过蒙特卡洛方法模拟大量电动汽车的充电行为,结合用户出行规律、充电时间、电量需求等随机因素,分析电动汽车规模化接入电网后对电力系统负荷的影响,并探讨分时电价策略对充电负荷的引导作用,进而优化电网运行。研究涵盖充电负荷的空间分布特性、时间分布特征及对电网峰谷差的影响,旨在为电力系统规划和电动汽车有序充电管理提供理论支持和技术工具。; 适合人群:具备一定电力系统、交通工程或新能源汽车背景的研究生、科研人员及从事智能电网、电动汽车相关领域的工程技术人员。; 使用场景及目标:①用于研究大规模电动汽车接入对配电网负荷曲线的影响;②支撑分时电价、需求响应等政策制定与优化;③为充电站规划、电网调度、储能配置等提供数据支持和仿真平台;④适用于学术研究、课题复现及工程项目前期分析。; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注蒙特卡洛模拟的参数设置、充电行为的概率建模过程,并尝试调整输入变量以观察负荷变化趋势,加深对电动汽车充电负荷不确定性和聚合效应的理解。
先展示下效果 https://pan.quark.cn/s/43dfb91c1388 在Android开发领域中,`SurfaceView`被视为一种关键性的视图组件,它特别适用于处理需要高性能且低延迟的图形操作,例如游戏运行和视频播放等。 本篇内容将详细研究如何运用`SurfaceView`来制作动画效果,并涵盖相关的技术要点。 我们必须明确`SurfaceView`的基本属性。 与常规的`View`不同,`SurfaceView`拥有专属的绘图表面,该表面独立于应用程序窗口的堆叠结构,而是在窗口管理器中直接创建一个独立的层级。 这种构造方式使得`SurfaceView`能够提供更迅捷的渲染速度,因为它不受窗口重绘过程的影响。 这对于需要持续更新的动画来说具有显著的优势。 构建`SurfaceView`动画的核心在于`SurfaceHolder`接口,该接口作为`SurfaceView`的持有者,提供了对底层`Surface`的访问权限以及回调机制。 开发者可以通过监听`SurfaceCreated`、`SurfaceChanged`和`SurfaceDestroyed这三个事件来管理和控制动画的生命周期。 1. **SurfaceCreated**:当`Surface`准备妥当时触发,这是开始进行绘制的理想时机。 在此阶段初始化动画逻辑,例如设定帧率、载入图像资源等。 2. **SurfaceChanged**:当`Surface`的尺寸或格式发生变动时触发,比如设备屏幕发生旋转。 你需要在此处调整动画的尺寸以适应新的屏幕布局。 3. **SurfaceDestroyed**:当`Surface`变得不可用时触发,可能是`SurfaceView`被移除或系统资源得到回收。 此时,应该...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值