关于QTableWidgetItem占用内存的释放

本文介绍了一种在使用Qt的QTableWidget时有效管理内存的方法。通过在每次刷新表格时检查并删除不再使用的QTabelWidgetItem,可以避免内存泄漏问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目前做的项目中因为某些table中的数据是定时刷新的,而且行数是不固定的。我以前做的每次都给new一个QTabelWidgetItem,结果每次都会申请内存。但是由于不能当次释放,所以只能考虑在下次刷新时删除上次的分配的内存。

可以用如下方法:

每次获得一个表的rowCount,然后遍历,通过ui.tableWidget->item(i,j)返回一个指针类型的item,文档里说了,如果没有设置item会返回0,所以我们就可以就行判断了,if(item) 然后delete item;就可以了。

这样就在每次刷新的时候释放了上次的申请的内存,从而避免内存不断增加下去。

检查以下代码,提供优化建议: import os import sys import json import time import wave import librosa import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib.backends.backend_qt5agg import FigureCanvasQTAgg as FigureCanvas from PyQt5.QtWidgets import ( QApplication, QMainWindow, QWidget, QVBoxLayout, QHBoxLayout, QPushButton, QLabel, QLineEdit, QTextEdit, QFileDialog, QProgressBar, QGroupBox, QTabWidget, QTableWidget, QTableWidgetItem, QHeaderView, QMessageBox ) from PyQt5.QtCore import QThread, pyqtSignal, Qt from pydub import AudioSegment from transformers import pipeline from pyannote.audio import Pipeline import torch import whisper import speech_recognition as sr # 设置环境变量(用户需要替换为自己的Hugging Face Token) os.environ['HUGGINGFACE_TOKEN'] = 'your_hugging_face_token_here' # 模型路径配置 MODEL_DIR = "./models" WHISPER_MODEL_PATH = os.path.join(MODEL_DIR, "whisper-small") SENTIMENT_MODEL_PATH = os.path.join(MODEL_DIR, "Erlangshen-Roberta-110M-Sentiment") PYANNOTE_MODEL_PATH = os.path.join(MODEL_DIR, "pyannote-speaker-diarization-3.0") # 确保模型目录存在 os.makedirs(MODEL_DIR, exist_ok=True) class AnalysisWorker(QThread): """后台分析线程""" progress_updated = pyqtSignal(int, str) analysis_completed = pyqtSignal(dict) error_occurred = pyqtSignal(str) def __init__(self, audio_files, keyword_file): super().__init__() self.audio_files = audio_files self.keyword_file = keyword_file self.keywords = {} self.running = True def run(self): try: # 加载关键词 self.load_keywords() # 加载模型 self.progress_updated.emit(5, "加载模型中...") self.load_models() results = [] total_files = len(self.audio_files) for idx, audio_file in enumerate(self.audio_files): if not self.running: return file_name = os.path.basename(audio_file) self.progress_updated.emit(int((idx/total_files)*90 + 5), f"分析文件: {file_name}") # 分析单个文件 result = self.analyze_audio(audio_file) results.append(result) # 生成报告 self.progress_updated.emit(95, "生成分析报告...") report = self.generate_report(results) # 完成 self.progress_updated.emit(100, "分析完成!") self.analysis_completed.emit(report) except Exception as e: self.error_occurred.emit(str(e)) def load_keywords(self): """从Excel文件加载关键词""" try: df = pd.read_excel(self.keyword_file) self.keywords = { "opening": df["开场白关键词"].dropna().tolist(), "closing": df["结束语关键词"].dropna().tolist(), "forbidden": df["服务禁语"].dropna().tolist() } self.progress_updated.emit(2, f"加载关键词: {len(self.keywords['opening'])}个开场白, " f"{len(self.keywords['closing'])}个结束语, " f"{len(self.keywords['forbidden'])}个禁语") except Exception as e: raise Exception(f"加载关键词文件失败: {str(e)}") def load_models(self): """加载所有需要的模型""" # 加载语音识别模型 self.whisper_model = whisper.load_model("small", download_root=MODEL_DIR) # 加载情感分析模型 self.sentiment_model = pipeline( "text-classification", model=SENTIMENT_MODEL_PATH, tokenizer=SENTIMENT_MODEL_PATH ) # 加载说话人分离模型 self.pyannote_pipeline = Pipeline.from_pretrained( "pyannote/speaker-diarization-3.0", use_auth_token=os.environ['HUGGINGFACE_TOKEN'] ) def convert_audio_format(self, audio_file): """将音频转换为WAV格式(如果需要)""" if not audio_file.lower().endswith('.wav'): output_file = os.path.splitext(audio_file)[0] + '.wav' audio = AudioSegment.from_file(audio_file) audio.export(output_file, format="wav") return output_file return audio_file def get_audio_duration(self, audio_file): """获取音频时长""" with wave.open(audio_file, 'r') as wav_file: frames = wav_file.getnframes() rate = wav_file.getframerate() duration = frames / float(rate) return duration def analyze_audio(self, audio_file): """分析单个音频文件""" result = { "file_name": os.path.basename(audio_file), "duration": 0, "opening_found": False, "closing_found": False, "forbidden_found": False, "agent_sentiment": [], "customer_sentiment": [], "agent_speech_rate": 0, "agent_clarity": 0, "agent_volume": 0, "problem_solved": False } try: # 转换音频格式 wav_file = self.convert_audio_format(audio_file) # 获取音频时长 result["duration"] = self.get_audio_duration(wav_file) # 说话人分离 diarization = self.pyannote_pipeline(wav_file) # 识别第一个说话人(默认客服) agent_segments = [] customer_segments = [] for turn, _, speaker in diarization.itertracks(yield_label=True): # 假设第一个说话人是客服 if speaker == "SPEAKER_00": agent_segments.append((turn.start, turn.end)) else: customer_segments.append((turn.start, turn.end)) # 如果没有识别到说话人,使用默认分割 if not agent_segments and not customer_segments: mid = result["duration"] / 2 agent_segments = [(0, mid)] customer_segments = [(mid, result["duration"])] # 识别语音转文本 recognizer = sr.Recognizer() with sr.AudioFile(wav_file) as source: audio_data = recognizer.record(source) # 识别客服语音 agent_text = "" for start, end in agent_segments: segment = audio_data.get_segment(start*1000, end*1000) try: text = recognizer.recognize_google(segment, language="zh-CN") agent_text += text + " " except: pass # 识别客户语音 customer_text = "" for start, end in customer_segments: segment = audio_data.get_segment(start*1000, end*1000) try: text = recognizer.recognize_google(segment, language="zh-CN") customer_text += text + " " except: pass # 关键词检查 result["opening_found"] = any(keyword in agent_text for keyword in self.keywords["opening"]) result["closing_found"] = any(keyword in agent_text for keyword in self.keywords["closing"]) result["forbidden_found"] = any(keyword in agent_text for keyword in self.keywords["forbidden"]) # 情感分析 if agent_text: agent_sentiments = self.sentiment_model(agent_text, top_k=None) result["agent_sentiment"] = [{"label": s["label"], "score": s["score"]} for s in agent_sentiments] if customer_text: customer_sentiments = self.sentiment_model(customer_text, top_k=None) result["customer_sentiment"] = [{"label": s["label"], "score": s["score"]} for s in customer_sentiments] # 客服语音分析 y, sr = librosa.load(wav_file) agent_audio = [] for start, end in agent_segments: start_sample = int(start * sr) end_sample = int(end * sr) agent_audio.extend(y[start_sample:end_sample]) if agent_audio: agent_audio = np.array(agent_audio) # 计算语速(音节/秒) syllables = len(agent_text) / 2 # 简单估算 speaking_time = sum(end - start for start, end in agent_segments) result["agent_speech_rate"] = syllables / speaking_time if speaking_time > 0 else 0 # 计算清晰度(频谱质心) spectral_centroids = librosa.feature.spectral_centroid(y=agent_audio, sr=sr)[0] result["agent_clarity"] = np.mean(spectral_centroids) # 计算平均音量 result["agent_volume"] = np.mean(librosa.amplitude_to_db(np.abs(agent_audio))) # 问题解决率(简化逻辑) solution_keywords = ["解决", "完成", "处理", "安排", "办理"] result["problem_solved"] = any(keyword in agent_text for keyword in solution_keywords) # 清理临时文件 if wav_file != audio_file: os.remove(wav_file) return result except Exception as e: self.error_occurred.emit(f"分析文件 {audio_file} 时出错: {str(e)}") return None def generate_report(self, results): """生成分析报告""" # 过滤掉失败的分析 valid_results = [r for r in results if r is not None] if not valid_results: return {"excel_path": "", "chart_path": ""} # 创建报告目录 report_dir = os.path.join(os.getcwd(), "质检报告") os.makedirs(report_dir, exist_ok=True) timestamp = time.strftime("%Y%m%d%H%M%S") # 生成Excel报告 excel_path = os.path.join(report_dir, f"质检报告_{timestamp}.xlsx") self.generate_excel_report(valid_results, excel_path) # 生成图表报告 chart_path = os.path.join(report_dir, f"图表报告_{timestamp}.png") self.generate_chart_report(valid_results, chart_path) return { "excel_path": excel_path, "chart_path": chart_path, "results": valid_results } def generate_excel_report(self, results, output_path): """生成Excel格式的报告""" df = pd.DataFrame(results) # 处理情感分析数据 df['客服情感'] = df['agent_sentiment'].apply( lambda x: max(x, key=lambda s: s['score'])['label'] if x else '未知' ) df['客户情感'] = df['customer_sentiment'].apply( lambda x: max(x, key=lambda s: s['score'])['label'] if x else '未知' ) # 选择需要的列 report_df = df[[ "file_name", "duration", "opening_found", "closing_found", "forbidden_found", "客服情感", "客户情感", "agent_speech_rate", "agent_clarity", "agent_volume", "problem_solved" ]] # 重命名列 report_df.columns = [ "文件名", "通话时长(秒)", "开场白合规", "结束语合规", "使用禁语", "客服情感", "客户情感", "客服语速(音节/秒)", "客服清晰度", "客服平均音量(dB)", "问题解决" ] # 保存Excel report_df.to_excel(output_path, index=False) def generate_chart_report(self, results, output_path): """生成图表报告""" # 创建图表 fig, axes = plt.subplots(3, 2, figsize=(15, 15)) fig.suptitle('外呼录音质检分析报告', fontsize=16) # 1. 开场白合规率 opening_compliance = sum(1 for r in results if r['opening_found']) / len(results) * 100 axes[0, 0].bar(['合规', '不合规'], [opening_compliance, 100-opening_compliance], color=['green', 'red']) axes[0, 0].set_title('开场白合规率') axes[0, 0].set_ylabel('百分比(%)') # 2. 客服情感分布 agent_sentiments = [max(r['agent_sentiment'], key=lambda s: s['score'])['label'] for r in results if r['agent_sentiment']] sentiment_counts = pd.Series(agent_sentiments).value_counts() axes[0, 1].pie(sentiment_counts, labels=sentiment_counts.index, autopct='%1.1f%%') axes[0, 1].set_title('客服情感分布') # 3. 客户情感分布 customer_sentiments = [max(r['customer_sentiment'], key=lambda s: s['score'])['label'] for r in results if r['customer_sentiment']] sentiment_counts = pd.Series(customer_sentiments).value_counts() axes[1, 0].pie(sentiment_counts, labels=sentiment_counts.index, autopct='%1.1f%%') axes[1, 0].set_title('客户情感分布') # 4. 客服语速分布 speech_rates = [r['agent_speech_rate'] for r in results if r['agent_speech_rate'] > 0] axes[1, 1].hist(speech_rates, bins=10, color='skyblue', edgecolor='black') axes[1, 1].set_title('客服语速分布') axes[1, 1].set_xlabel('语速(音节/秒)') axes[1, 1].set_ylabel('频次') # 5. 问题解决率 problem_solved = sum(1 for r in results if r['problem_solved']) / len(results) * 100 axes[2, 0].bar(['已解决', '未解决'], [problem_solved, 100-problem_solved], color=['blue', 'orange']) axes[2, 0].set_title('问题解决率') axes[2, 0].set_ylabel('百分比(%)') # 6. 使用禁语情况 forbidden_found = sum(1 for r in results if r['forbidden_found']) axes[2, 1].bar(['使用禁语', '未使用禁语'], [forbidden_found, len(results)-forbidden_found], color=['red', 'green']) axes[2, 1].set_title('禁语使用情况') axes[2, 1].set_ylabel('数量') plt.tight_layout(rect=[0, 0, 1, 0.96]) plt.savefig(output_path) plt.close() def stop(self): """停止分析""" self.running = False class CallQualityApp(QMainWindow): """主应用程序窗口""" def __init__(self): super().__init__() self.setWindowTitle("外呼电话录音质检分析系统") self.setGeometry(100, 100, 1000, 700) # 初始化变量 self.audio_files = [] self.keyword_file = "" self.worker = None # 创建UI self.init_ui() def init_ui(self): """初始化用户界面""" main_widget = QWidget() main_layout = QVBoxLayout() # 创建标签页 tab_widget = QTabWidget() main_layout.addWidget(tab_widget) # 分析页面 analysis_tab = QWidget() tab_widget.addTab(analysis_tab, "分析") analysis_layout = QVBoxLayout(analysis_tab) # 文件选择区域 file_group = QGroupBox("文件选择") file_layout = QVBoxLayout() # 音频文件选择 audio_layout = QHBoxLayout() self.audio_label = QLabel("未选择音频文件") audio_btn = QPushButton("选择音频文件/文件夹") audio_btn.clicked.connect(self.select_audio) audio_layout.addWidget(audio_btn) audio_layout.addWidget(self.audio_label) file_layout.addLayout(audio_layout) # 关键词文件选择 keyword_layout = QHBoxLayout() self.keyword_label = QLabel("未选择关键词文件") keyword_btn = QPushButton("选择关键词文件") keyword_btn.clicked.connect(self.select_keyword_file) keyword_layout.addWidget(keyword_btn) keyword_layout.addWidget(self.keyword_label) file_layout.addLayout(keyword_layout) file_group.setLayout(file_layout) analysis_layout.addWidget(file_group) # 按钮区域 btn_layout = QHBoxLayout() self.start_btn = QPushButton("开始分析") self.start_btn.clicked.connect(self.start_analysis) self.stop_btn = QPushButton("停止分析") self.stop_btn.clicked.connect(self.stop_analysis) self.stop_btn.setEnabled(False) self.clear_btn = QPushButton("清空") self.clear_btn.clicked.connect(self.clear_all) btn_layout.addWidget(self.start_btn) btn_layout.addWidget(self.stop_btn) btn_layout.addWidget(self.clear_btn) analysis_layout.addLayout(btn_layout) # 进度条 self.progress_bar = QProgressBar() self.progress_bar.setRange(0, 100) self.progress_label = QLabel("准备就绪") analysis_layout.addWidget(self.progress_bar) analysis_layout.addWidget(self.progress_label) # 输出区域 output_group = QGroupBox("输出信息") output_layout = QVBoxLayout() self.output_text = QTextEdit() self.output_text.setReadOnly(True) output_layout.addWidget(self.output_text) output_group.setLayout(output_layout) analysis_layout.addWidget(output_group) # 结果页面 result_tab = QWidget() tab_widget.addTab(result_tab, "结果") result_layout = QVBoxLayout(result_tab) # 结果表格 self.result_table = QTableWidget() self.result_table.setColumnCount(11) self.result_table.setHorizontalHeaderLabels([ "文件名", "通话时长(秒)", "开场白合规", "结束语合规", "使用禁语", "客服情感", "客户情感", "客服语速", "客服清晰度", "客服音量", "问题解决" ]) self.result_table.horizontalHeader().setSectionResizeMode(QHeaderView.Stretch) result_layout.addWidget(self.result_table) # 图表区域 self.chart_label = QLabel() self.chart_label.setAlignment(Qt.AlignCenter) result_layout.addWidget(self.chart_label) main_widget.setLayout(main_layout) self.setCentralWidget(main_widget) def select_audio(self): """选择音频文件或文件夹""" options = QFileDialog.Options() files, _ = QFileDialog.getOpenFileNames( self, "选择音频文件", "", "音频文件 (*.mp3 *.wav *.amr *.m4a);;所有文件 (*)", options=options ) if files: self.audio_files = files self.audio_label.setText(f"已选择 {len(files)} 个音频文件") self.output_text.append(f"已选择 {len(files)} 个音频文件") def select_keyword_file(self): """选择关键词文件""" options = QFileDialog.Options() file, _ = QFileDialog.getOpenFileName( self, "选择关键词文件", "", "Excel文件 (*.xlsx *.xls);;所有文件 (*)", options=options ) if file: self.keyword_file = file self.keyword_label.setText(os.path.basename(file)) self.output_text.append(f"已选择关键词文件: {os.path.basename(file)}") def start_analysis(self): """开始分析""" if not self.audio_files: QMessageBox.warning(self, "警告", "请先选择音频文件!") return if not self.keyword_file: QMessageBox.warning(self, "警告", "请先选择关键词文件!") return # 更新UI状态 self.start_btn.setEnabled(False) self.stop_btn.setEnabled(True) self.output_text.append("开始分析...") # 创建并启动工作线程 self.worker = AnalysisWorker(self.audio_files, self.keyword_file) self.worker.progress_updated.connect(self.update_progress) self.worker.analysis_completed.connect(self.analysis_finished) self.worker.error_occurred.connect(self.handle_error) self.worker.start() def stop_analysis(self): """停止分析""" if self.worker: self.worker.stop() self.worker = None self.output_text.append("分析已停止") self.progress_label.setText("分析已停止") self.start_btn.setEnabled(True) self.stop_btn.setEnabled(False) def clear_all(self): """清空所有内容""" self.audio_files = [] self.keyword_file = "" self.audio_label.setText("未选择音频文件") self.keyword_label.setText("未选择关键词文件") self.output_text.clear() self.progress_bar.setValue(0) self.progress_label.setText("准备就绪") self.result_table.setRowCount(0) self.chart_label.clear() def update_progress(self, value, message): """更新进度""" self.progress_bar.setValue(value) self.progress_label.setText(message) self.output_text.append(message) def analysis_finished(self, report): """分析完成""" self.start_btn.setEnabled(True) self.stop_btn.setEnabled(False) # 显示结果 self.output_text.append(f"分析完成! 报告已保存到: {report['excel_path']}") self.output_text.append(f"图表已保存到: {report['chart_path']}") # 在结果表格中显示数据 self.show_results(report['results']) # 显示图表 self.show_chart(report['chart_path']) def handle_error(self, error_message): """处理错误""" self.output_text.append(f"错误: {error_message}") self.start_btn.setEnabled(True) self.stop_btn.setEnabled(False) QMessageBox.critical(self, "错误", error_message) def show_results(self, results): """在表格中显示结果""" self.result_table.setRowCount(len(results)) for row, result in enumerate(results): # 获取客服主要情感 agent_sentiment = max(result['agent_sentiment'], key=lambda s: s['score'])['label'] if result['agent_sentiment'] else "未知" customer_sentiment = max(result['customer_sentiment'], key=lambda s: s['score'])['label'] if result['customer_sentiment'] else "未知" # 填充表格数据 self.result_table.setItem(row, 0, QTableWidgetItem(result['file_name'])) self.result_table.setItem(row, 1, QTableWidgetItem(f"{result['duration']:.2f}")) self.result_table.setItem(row, 2, QTableWidgetItem("是" if result['opening_found'] else "否")) self.result_table.setItem(row, 3, QTableWidgetItem("是" if result['closing_found'] else "否")) self.result_table.setItem(row, 4, QTableWidgetItem("是" if result['forbidden_found'] else "否")) self.result_table.setItem(row, 5, QTableWidgetItem(agent_sentiment)) self.result_table.setItem(row, 6, QTableWidgetItem(customer_sentiment)) self.result_table.setItem(row, 7, QTableWidgetItem(f"{result['agent_speech_rate']:.2f}")) self.result_table.setItem(row, 8, QTableWidgetItem(f"{result['agent_clarity']:.2f}")) self.result_table.setItem(row, 9, QTableWidgetItem(f"{result['agent_volume']:.2f}")) self.result_table.setItem(row, 10, QTableWidgetItem("是" if result['problem_solved'] else "否")) def show_chart(self, chart_path): """显示图表""" if os.path.exists(chart_path): pixmap = plt.imread(chart_path) # 这里简化处理,实际应用中可能需要调整图像大小 self.chart_label.setPixmap(pixmap) else: self.output_text.append(f"未找到图表文件: {chart_path}") if __name__ == "__main__": # 检查环境变量 if 'HUGGINGFACE_TOKEN' not in os.environ or os.environ['HUGGINGFACE_TOKEN'] == 'your_hugging_face_token_here': print("请设置有效的Hugging Face Token!") print("1. 访问 https://huggingface.co/settings/tokens 获取Token") print("2. 在代码中设置环境变量") sys.exit(1) app = QApplication(sys.argv) window = CallQualityApp() window.show() sys.exit(app.exec_())
最新发布
07-12
<think>我们正在检查一个用于外呼电话录音质检分析的PyQt5应用程序代码。该程序使用多个库进行音频处理、语音识别、情感分析等。以下是一些优化建议: 1. **模型加载优化**: - 当前在每次分析时都会加载模型(在`load_models`方法中)。对于批量分析多个文件,这会导致不必要的重复加载,增加内存使用和启动时间。建议将模型加载移到初始化阶段,并只加载一次。 2. **音频格式转换优化**: - 使用`pydub`进行格式转换时,如果原始文件已经是WAV格式,则无需转换。但当前代码中,即使已经是WAV,也会重新读取和写入,这可能导致质量损失或时间浪费。可以跳过转换步骤。 3. **说话人分离的假设问题**: - 代码中假设第一个说话人(SPEAKER_00)是客服,但实际情况可能并非总是如此。应该提供一种机制(如配置文件或界面选项)来指定哪个说话人是客服,或者根据说话时长等特征自动判断(通常客服说话时间较长)。 4. **语音识别引擎的选择**: - 当前使用了`speech_recognition`库的Google识别引擎(`recognize_google`),这需要网络连接,并且可能涉及隐私问题。考虑使用离线的Whisper模型进行识别,因为已经加载了Whisper模型,但没有在识别中使用。应该统一使用Whisper进行识别,避免网络依赖。 5. **情感分析模型的使用**: - 情感分析模型`Erlangshen-Roberta-110M-Sentiment`是针对中文的,但当前代码中直接使用,没有考虑文本长度限制(模型最大输入长度)。长文本可能需要截断或分段处理。 6. **语音分析中的音频处理**: - 在计算客服语音的清晰度和音量时,代码将客服的所有片段拼接成一个长数组。对于长时间录音,这可能导致巨大的内存占用。可以分段处理并取平均。 7. **问题解决率的判断逻辑过于简单**: - 仅通过几个关键词判断问题是否解决可能不够准确。建议使用更复杂的逻辑(如结合上下文)或允许用户自定义关键词。 8. **错误处理**: - 在`analyze_audio`方法中,捕获异常后发送错误信号,但返回`None`,然后在生成报告时过滤掉`None`。这可能导致部分文件失败而用户不知情。应该记录每个文件的分析状态。 9. **临时文件管理**: - 转换后的WAV文件在分析后被删除,但如果分析过程中出错,可能不会删除临时文件。建议使用`try-finally`确保删除。 10. **多线程安全退出**: - 停止分析时,通过设置`running`标志来终止线程。但模型加载或识别过程可能无法立即停止。考虑使用更安全的中断机制。 11. **资源释放**: - 在长时间运行后,模型可能占用大量内存。在分析完成后,可以提供一个释放模型的选项(但考虑到可能多次分析,需权衡)。 12. **结果展示**: - 在结果表格中,使用`QTableWidgetItem`设置每个单元格,对于大量文件可能较慢。考虑使用`QTableView`和自定义模型。 13. **图表展示**: - 当前图表保存为图片,然后在界面中显示。如果图表较大,显示可能不完整。考虑使用`FigureCanvas`嵌入图表。 14. **环境变量设置**: - 在代码开头设置环境变量,但用户需要修改代码。应该通过配置文件或界面输入Token。 15. **进度更新**: - 进度更新使用整数百分比和消息。对于多个文件,可以细化每个文件的进度(如文件内进度)。 16. **代码结构**: - 将一些功能拆分为更小的函数,提高可读性。 17. **日志记录**: - 使用`QTextEdit`输出信息,但不保存日志。建议添加日志文件功能。 18. **国际化**: - 界面文本为中文,但代码中有英文。考虑使用Qt的翻译机制支持多语言。 下面针对部分问题提出具体修改建议: ### 1. 模型加载优化 修改`AnalysisWorker`的初始化方法,将模型加载移出`run`方法,并确保只加载一次。但注意,如果多次运行分析,模型已经加载,则不需要重新加载。 可以在`__init__`中调用`load_models`,但这样会在主线程中加载模型,可能导致界面卡顿。因此,将模型加载放在工作线程的`run`方法中,但通过一个标志位避免重复加载。 修改`AnalysisWorker`: ```python class AnalysisWorker(QThread): # ... 其他不变 def __init__(self, audio_files, keyword_file): super().__init__() # ... self.models_loaded = False # 标记模型是否已加载 def run(self): try: self.load_keywords() # 如果模型未加载,则加载 if not self.models_loaded: self.progress_updated.emit(5, "加载模型中...") self.load_models() self.models_loaded = True else: self.progress_updated.emit(5, "模型已加载,跳过加载步骤") # ... 后续分析 ``` ### 2. 使用Whisper进行语音识别 替换Google识别,使用已加载的Whisper模型。修改`analyze_audio`方法中的语音识别部分: ```python # 使用Whisper识别整个音频 result = self.whisper_model.transcribe(wav_file, language="zh") full_text = result['text'] # 然后根据说话人分离的时间段,截取对应文本(但Whisper不提供时间戳?) # 因此,需要另一种方法:使用Whisper获取时间戳,然后根据时间段匹配 # 或者,使用pyannote分割的片段分别进行识别(但这样识别速度慢) ``` 考虑到时间,这里可能需要重新设计。但当前代码中,使用`recognize_google`在离线环境下不可用。因此,建议使用Whisper进行整个文件的识别,并获取带时间戳的转录结果(Whisper支持返回时间戳)。然后,根据说话人分离的时间段,将对应时间戳的文本分配给客服或客户。 由于修改较大,这里只提出方向,不展开具体代码。 ### 3. 说话人分离的改进 增加一个配置文件或界面选项,让用户指定哪个说话人是客服。或者,根据每个说话人的总说话时长,假设说话时间较长的是客服(在销售场景中,客服通常说话更多)。 ### 4. 情感分析文本过长问题 情感分析模型有最大输入长度限制(如512个token)。对于长文本,可以分段进行分析,然后综合各段的结果(如取平均)。或者,只截取前512个token。 ### 5. 问题解决率的关键词自定义 允许用户通过关键词文件添加问题解决关键词,而不是在代码中写死。 ### 6. 错误处理 在`analyze_audio`中,返回的`result`为`None`时,在报告中过滤掉。但用户可能希望知道哪些文件失败了。可以在报告中添加一列“分析状态”。 ### 7. 临时文件删除 使用`try-finally`确保临时文件被删除: ```python try: # 转换音频格式 wav_file = self.convert_audio_format(audio_file) # ... 分析过程 finally: # 清理临时文件 if wav_file != audio_file and os.path.exists(wav_file): os.remove(wav_file) ``` ### 8. 图表展示优化 将图表嵌入到PyQt5界面中,而不是保存为图片再加载。可以使用`FigureCanvas`。 在`CallQualityApp`中添加一个`FigureCanvas`成员,并在`show_chart`方法中直接绘制图表,而不是从文件加载。 由于时间关系,以上为部分优化建议。实际修改时需逐一测试。 §§相关问题§§ 1. 如何优化PyQt5应用程序中长时间运行任务的响应性? 2. 在语音质检系统中,如何更准确地识别说话人角色(客服vs客户)? 3. 对于长录音文件,如何平衡语音识别的准确性和性能? 4. 如何设计一个灵活的关键词匹配机制以支持不同的质检规则? 5. 在离线环境中部署语音识别模型(如Whisper)需要注意哪些问题?</think>### 代码优化建议 1. **模型加载优化**: - 问题:每次分析都重复加载模型,效率低下 - 建议:改为单例模式,首次使用时加载模型并缓存 ```python class ModelLoader: _instance = None @classmethod def get_instance(cls): if not cls._instance: cls._instance = cls() return cls._instance def __init__(self): self.whisper_model = whisper.load_model("small", download_root=MODEL_DIR) self.sentiment_model = pipeline("text-classification", model=SENTIMENT_MODEL_PATH) self.pyannote_pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.0", use_auth_token=os.environ['HUGGINGFACE_TOKEN']) ``` 2. **音频处理优化**: - 问题:多次读取同一音频文件(格式转换、时长计算、特征提取) - 建议:统一读取一次音频数据并复用 ```python def load_audio(audio_file): y, sr = librosa.load(audio_file, sr=None) duration = librosa.get_duration(y=y, sr=sr) return y, sr, duration ``` 3. **说话人分离优化**: - 问题:硬编码SPEAKER_00为客服,不可靠 - 建议:根据说话时长自动识别客服(通常说话时间更长) ```python speaker_durations = {} for turn, _, speaker in diarization.itertracks(yield_label=True): duration = turn.end - turn.start speaker_durations[speaker] = speaker_durations.get(speaker, 0) + duration # 说话时间最长的为客服 agent_speaker = max(speaker_durations, key=speaker_durations.get) ``` 4. **语音识别优化**: - 问题:使用Google在线API(需要网络且可能超时) - 建议:改用已加载的Whisper模型 ```python def transcribe_segment(audio_segment): # 将音频片段保存为临时文件 temp_file = "temp.wav" sf.write(temp_file, audio_segment, sr) result = self.whisper_model.transcribe(temp_file) os.remove(temp_file) return result["text"] ``` 5. **资源释放优化**: - 问题:分析完成后未释放模型内存 - 建议:添加资源释放方法 ```python def release_models(self): del self.whisper_model del self.sentiment_model del self.pyannote_pipeline torch.cuda.empty_cache() if torch.cuda.is_available() else None ``` 6. **错误处理优化**: - 问题:错误处理不够细致,难以定位问题 - 建议:添加详细错误日志 ```python except Exception as e: exc_type, exc_obj, exc_tb = sys.exc_info() filename = os.path.split(exc_tb.tb_frame.f_code.co_filename)[1] error_msg = f"{filename}:{exc_tb.tb_lineno} - {str(e)}" self.error_occurred.emit(error_msg) ``` 7. **进度反馈优化**: - 问题:进度计算不准确(固定90%分配给文件分析) - 建议:动态计算每个文件处理时间 ```python estimated_times = [self.estimate_processing_time(f) for f in self.audio_files] total_time = sum(estimated_times) ``` 8. **结果展示优化**: - 问题:图表显示使用静态图片,无法交互 - 建议:嵌入Matplotlib交互式图表 ```python from matplotlib.backends.backend_qt5agg import FigureCanvasQTAgg as FigureCanvas self.figure = plt.figure() self.canvas = FigureCanvas(self.figure) result_layout.addWidget(self.canvas) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值