PAT 1022. D进制的A+B java实现

本文介绍了一个简单的程序,该程序接收两个非负十进制整数A和B(小于等于2^30-1),以及一个进制数D(1<D<=10)。程序将这两个整数相加,并将结果转换为指定的D进制数进行输出。通过使用Java的Scanner类读取输入值并实现进制转换逻辑。

输入两个非负10进制整数A和B(<=230-1),输出A+B的D (1 < D <= 10)进制数。

输入格式:

输入在一行中依次给出3个整数A、B和D。

输出格式:

输出A+B的D进制数。

输入样例:
123 456 8
输出样例:

1103




import java.util.Scanner;

public class Main{

    public static void main(String[] args) {
        // TODO Auto-generated method stub
        Scanner scanner = new Scanner(System.in);
        int a=scanner.nextInt();
        int b=scanner.nextInt();
        int d=scanner.nextInt();
        int c= a+b;
        int bigInteger1;
        String string="";
        while(true){
            bigInteger1 = c%d;
            c=c/d;
            string =bigInteger1+string;
            if(c==0){
                System.out.println(string);
                break;
            }
        }
    }
}

import os import re import sys import time import threading import tkinter as tk from tkinter import ttk, filedialog, messagebox, scrolledtext from tkinter.font import Font import fnmatch import subprocess import shutil import docx from openpyxl import load_workbook import PyPDF2 import zipfile import chardet import xlrd # 添加对旧版Excel的支持 class FileSearchApp: def __init__(self, master): self.master = master master.title("高级文件搜索工具") master.geometry("1200x800") master.minsize(900, 650) # 设置现代主题 self.style = ttk.Style() self.style.theme_use("vista" if sys.platform == "win32" else "aqua") # 创建主框架 main_frame = ttk.Frame(master, padding=10) main_frame.pack(fill=tk.BOTH, expand=True) # 创建左侧搜索面板 search_frame = ttk.LabelFrame(main_frame, text="搜索选项", padding=10) search_frame.pack(side=tk.LEFT, fill=tk.Y, padx=(0, 10), pady=5) # 使用网格布局管理器 row = 0 ttk.Label(search_frame, text="搜索目录:").grid(row=row, column=0, sticky="w", pady=5) self.dir_entry = ttk.Entry(search_frame, width=40) self.dir_entry.grid(row=row, column=1, padx=5, pady=5, sticky="we") self.dir_entry.insert(0, os.getcwd()) ttk.Button(search_frame, text="浏览...", command=self.browse_directory).grid(row=row, column=2, padx=5, pady=5) row += 1 ttk.Label(search_frame, text="关键词:").grid(row=row, column=0, sticky="w", pady=5) self.keyword_entry = ttk.Entry(search_frame, width=40) self.keyword_entry.grid(row=row, column=1, padx=5, pady=5, sticky="we") row += 1 ttk.Label(search_frame, text="文件过滤:").grid(row=row, column=0, sticky="w", pady=5) self.filter_entry = ttk.Entry(search_frame, width=40) self.filter_entry.grid(row=row, column=1, padx=5, pady=5, sticky="we") self.filter_entry.insert(0, "*") row += 1 # 添加隔线 ttk.Separator(search_frame, orient=tk.HORIZONTAL).grid(row=row, column=0, columnspan=3, sticky="ew", pady=10) row += 1 # 搜索选项 options_frame = ttk.Frame(search_frame) options_frame.grid(row=row, column=0, columnspan=3, sticky="we", padx=5, pady=5) # 使用网格布局替代pack布局,更紧凑 self.case_var = tk.BooleanVar(value=False) ttk.Checkbutton(options_frame, text="忽略大小写", variable=self.case_var).grid(row=0, column=0, sticky="w", padx=(0, 10)) self.regex_var = tk.BooleanVar(value=False) ttk.Checkbutton(options_frame, text="正则表达式", variable=self.regex_var).grid(row=0, column=1, sticky="w", padx=(0, 10)) self.binary_var = tk.BooleanVar(value=False) self.binary_check = ttk.Checkbutton(options_frame, text="包含二进制", variable=self.binary_var) self.binary_check.grid(row=0, column=2, sticky="w") # 添加文件大小限制选项 self.limit_var = tk.BooleanVar(value=True) ttk.Checkbutton(options_frame, text="限制大小(100MB)", variable=self.limit_var).grid(row=0, column=3, sticky="w", padx=(10, 0)) row += 1 # 添加隔线 ttk.Separator(search_frame, orient=tk.HORIZONTAL).grid(row=row, column=0, columnspan=3, sticky="ew", pady=10) row += 1 # 搜索按钮 button_frame = ttk.Frame(search_frame) button_frame.grid(row=row, column=0, columnspan=3, pady=10) self.search_button = ttk.Button(button_frame, text="开始搜索", command=self.start_search) self.search_button.pack(side=tk.LEFT, padx=5) self.stop_button = ttk.Button(button_frame, text="停止搜索", command=self.stop_search, state=tk.DISABLED) self.stop_button.pack(side=tk.LEFT, padx=5) self.export_button = ttk.Button(button_frame, text="导出结果", command=self.export_results) self.export_button.pack(side=tk.LEFT, padx=5) row += 1 # 添加隔线 ttk.Separator(search_frame, orient=tk.HORIZONTAL).grid(row=row, column=0, columnspan=3, sticky="ew", pady=10) row += 1 # 状态栏 status_frame = ttk.Frame(search_frame) status_frame.grid(row=row, column=0, columnspan=3, sticky="we", pady=5) # 状态标签(左对齐) self.status_label = ttk.Label(status_frame, text="就绪", font=("Arial", 9)) self.status_label.pack(side=tk.LEFT, anchor='w') # 进度条(中间,可伸缩) self.progress_var = tk.DoubleVar() self.progress_bar = ttk.Progressbar( status_frame, variable=self.progress_var, length=200, mode='determinate' ) self.progress_bar.pack(side=tk.LEFT, fill=tk.X, expand=True, padx=10) # 结果统计(右对齐) self.stats_label = ttk.Label(status_frame, text="", font=("Arial", 9)) self.stats_label.pack(side=tk.RIGHT) # 创建结果面板 results_frame = ttk.LabelFrame(main_frame, text="搜索结果", padding=10) results_frame.pack(fill=tk.BOTH, expand=True, padx=(5, 0), pady=5) # 割窗格 paned_window = ttk.PanedWindow(results_frame, orient=tk.HORIZONTAL) paned_window.pack(fill=tk.BOTH, expand=True) # 左侧文件列表 file_list_frame = ttk.Frame(paned_window) paned_window.add(file_list_frame, weight=1) # 使用Treeview替代Listbox columns = ("filename", "path") self.file_tree = ttk.Treeview(file_list_frame, columns=columns, show="headings", selectmode="browse") # 设置列标题 self.file_tree.heading("filename", text="文件名") self.file_tree.heading("path", text="路径") # 设置列宽 self.file_tree.column("filename", width=200, anchor="w") self.file_tree.column("path", width=300, anchor="w") self.file_tree.pack(side=tk.LEFT, fill=tk.BOTH, expand=True) self.file_tree.bind('<<TreeviewSelect>>', self.show_file_content) self.file_tree.bind('<Double-1>', self.open_selected_file) file_scroll = ttk.Scrollbar(file_list_frame, command=self.file_tree.yview) file_scroll.pack(side=tk.RIGHT, fill=tk.Y) self.file_tree.config(yscrollcommand=file_scroll.set) # 右键菜单 self.file_menu = tk.Menu(self.master, tearoff=0) self.file_menu.add_command(label="打开文件", command=self.open_selected_file) self.file_menu.add_command(label="打开文件位置", command=self.open_file_location) self.file_tree.bind("<Button-3>", self.show_file_context_menu) # 右侧文件内容预览 content_frame = ttk.Frame(paned_window) paned_window.add(content_frame, weight=2) self.content_text = scrolledtext.ScrolledText( content_frame, wrap=tk.WORD, font=("Consolas", 10), padx=5, pady=5 ) self.content_text.pack(fill=tk.BOTH, expand=True) # 文本区域右键菜单 text_menu = tk.Menu(self.master, tearoff=0) text_menu.add_command(label="复制", command=self.copy_selected_text) self.content_text.bind("<Button-3>", lambda e: text_menu.tk_popup(e.x_root, e.y_root)) # 高亮标签 self.content_text.tag_configure("match", background="yellow") self.content_text.tag_configure("linenum", foreground="blue") self.content_text.tag_configure("header", foreground="darkgreen", font=("Arial", 10, "bold")) self.content_text.tag_configure("warning", foreground="red", font=("Arial", 10, "italic")) # 初始化变量 self.results = {} self.all_files = [] self.file_paths = [] self.stop_requested = False self.search_thread = None def browse_directory(self): directory = filedialog.askdirectory(title="选择搜索目录") if directory: self.dir_entry.delete(0, tk.END) self.dir_entry.insert(0, directory) def start_search(self): # 重置状态 self.progress_var.set(0) self.stop_requested = False self.results = {} self.all_files = [] self.file_paths = [] self.file_tree.delete(*self.file_tree.get_children()) self.content_text.delete(1.0, tk.END) self.status_label.config(text="正在搜索...") self.search_button.config(state=tk.DISABLED) self.stop_button.config(state=tk.NORMAL) self.stats_label.config(text="") # 获取搜索参数 directory = self.dir_entry.get().strip() keyword = self.keyword_entry.get().strip() file_filter = self.filter_entry.get().strip() # 验证输入 if not directory or not os.path.isdir(directory): messagebox.showerror("错误", "请选择有效的搜索目录") self.search_button.config(state=tk.NORMAL) self.stop_button.config(state=tk.DISABLED) return if not keyword: messagebox.showerror("错误", "请输入搜索关键词") self.search_button.config(state=tk.NORMAL) self.stop_button.config(state=tk.DISABLED) return # 解析文件过滤器 if file_filter == "": filter_patterns = ['*'] else: separators = [';', '|', ' ', ','] for sep in separators: if sep in file_filter: filter_patterns = [pat.strip() for pat in file_filter.split(sep)] break else: filter_patterns = [file_filter] # 编译搜索模式 flags = re.IGNORECASE if self.case_var.get() else 0 try: if self.regex_var.get(): pattern = re.compile(keyword, flags) else: escaped_keyword = re.escape(keyword) pattern = re.compile(escaped_keyword, flags) except re.error as e: messagebox.showerror("正则表达式错误", f"无效的正则表达式: {str(e)}") self.search_button.config(state=tk.NORMAL) self.stop_button.config(state=tk.DISABLED) return # 在后台线程中执行搜索 self.search_thread = threading.Thread( target=self.perform_search, args=(directory, filter_patterns, pattern), daemon=True ) self.search_thread.start() def perform_search(self, directory, filter_patterns, pattern): """在后台线程中执行文件搜索""" try: # 收集所有匹配的文件 all_files = [] for root, _, files in os.walk(directory): if self.stop_requested: self.master.after(0, lambda: self.status_label.config(text="搜索已取消")) return for file in files: file_path = os.path.join(root, file) # 检查文件大小限制(避免处理超大文件) try: file_size = os.path.getsize(file_path) if file_size > 100 * 1024 * 1024: # 100MB continue except: continue # 检查是否符合任一过滤模式 if any(fnmatch.fnmatch(file, pat) for pat in filter_patterns): all_files.append(file_path) self.all_files = all_files total_files = len(all_files) # 初始化进度条 self.master.after(0, lambda: self.progress_bar.config(maximum=total_files)) self.master.after(0, lambda: self.stats_label.config(text=f"扫描到 {total_files} 个文件")) # 搜索每个文件 self.results = {} processed = 0 matches_found = 0 for file_path in self.all_files: if self.stop_requested: break processed += 1 # 更新进度条(安全方式) self.master.after(0, lambda v=processed: self.progress_var.set(v)) if processed % 10 == 0: # 每处理10个文件更新一次进度 self.master.after(0, lambda p=processed, t=total_files: self.stats_label.config(text=f"处理中: {p}/{t} 文件 ({round(p/t*100,1)}%)")) # 忽略二进制文件(除非用户选择包含) if not self.binary_var.get() and self.is_binary(file_path): continue # 获取文件扩展名 _, ext = os.path.splitext(file_path) ext_lower = ext.lower() # 处理Office文档 if ext_lower in ['.docx', '.xlsx', '.xls', '.xlsm', '.pptx', '.pdf', '.doc']: matches = self.search_in_office_file(file_path, pattern) # 处理压缩文件 elif ext_lower in ['.zip', '.rar', '.7z', '.tar', '.gz']: matches = self.search_in_archive(file_path, pattern) # 处理文本文件 else: matches = self.search_in_text_file(file_path, pattern) if matches: self.results[file_path] = matches matches_found += len(matches) # 在UI线程中添加文件到列表 filename = os.path.basename(file_path) self.master.after(0, lambda fp=file_path, fn=filename: self.file_tree.insert("", "end", values=(fn, fp))) # 更新完成状态 if self.stop_requested: status_text = f"搜索已取消 - 找到 {len(self.results)} 个文件, {matches_found} 个匹配项" else: status_text = f"搜索完成 - 找到 {len(self.results)} 个文件, {matches_found} 个匹配项" self.master.after(0, lambda: self.status_label.config(text=status_text)) self.master.after(0, lambda: self.stats_label.config(text=f"已处理 {processed}/{total_files} 文件")) self.master.after(0, lambda: self.progress_var.set(total_files)) except Exception as e: # 记录详细错误日志 error_info = f"搜索错误: {type(e).__name__} - {str(e)}" print(error_info) with open("search_errors.log", "a") as log: log.write(f"{time.strftime('%Y-%m-%d %H:%M:%S')} - {error_info}\n") import traceback traceback.print_exc(file=log) self.master.after(0, lambda: messagebox.showerror( "搜索错误", f"发生严重错误: {error_info}\n详细信息已记录到日志" )) finally: self.master.after(0, lambda: self.search_button.config(state=tk.NORMAL)) self.master.after(0, lambda: self.stop_button.config(state=tk.DISABLED)) self.search_thread = None def search_in_text_file(self, filepath, pattern): """在文本文件中搜索匹配项""" matches = [] try: encoding = self.detect_encoding(filepath) try: with open(filepath, 'r', encoding=encoding, errors='replace') as f: for line_num, line in enumerate(f, 1): if pattern.search(line): cleaned_line = line.strip() if len(cleaned_line) > 150: cleaned_line = cleaned_line[:150] + "..." matches.append((line_num, cleaned_line)) except UnicodeDecodeError: # 特殊编码处理回退 with open(filepath, 'rb') as f: content = f.read() try: text = content.decode('utf-8', errors='replace') except: text = content.decode('latin-1', errors='replace') for line_num, line in enumerate(text.splitlines(), 1): if pattern.search(line): cleaned_line = line.strip() if len(cleaned_line) > 150: cleaned_line = cleaned_line[:150] + "..." matches.append((line_num, cleaned_line)) except Exception as e: print(f"读取文本文件失败 {filepath}: {str(e)}") return matches def search_in_office_file(self, filepath, pattern): """在Office文件中搜索文本内容""" matches = [] _, ext = os.path.splitext(filepath) ext_lower = ext.lower() try: # DOCX文件处理 if ext_lower == '.docx': doc = docx.Document(filepath) # 搜索段落 for i, para in enumerate(doc.paragraphs, 1): if para.text and pattern.search(para.text): matches.append((i, f"段落 {i}: {para.text[:100]}" + ("..." if len(para.text) > 100 else ""))) # 搜索表格 for table in doc.tables: for row_idx, row in enumerate(table.rows, 1): for cell_idx, cell in enumerate(row.cells, 1): if cell.text and pattern.search(cell.text): content = cell.text.strip() if len(content) > 100: content = content[:100] + "..." matches.append((row_idx, f"表格 行{row_idx}列{cell_idx}: {content}")) # XLSX/XLS文件处理 elif ext_lower in ('.xlsx', '.xls', '.xlsm'): # 处理新格式Excel文件 if ext_lower in ('.xlsx', '.xlsm'): wb = load_workbook(filepath, read_only=True, data_only=True) for sheet_name in wb.sheetnames: sheet = wb[sheet_name] for row_idx, row in enumerate(sheet.iter_rows(values_only=True), 1): for col_idx, cell in enumerate(row, 1): if cell is not None and pattern.search(str(cell)): cell_ref = f"{chr(64+col_idx)}{row_idx}" cell_value = str(cell).strip() if len(cell_value) > 100: cell_value = cell_value[:100] + "..." matches.append((row_idx, f"工作表 '{sheet_name}' 单元格 {cell_ref}: {cell_value}")) # 处理旧格式Excel文件 elif ext_lower == '.xls': wb = xlrd.open_workbook(filepath) for sheet_idx in range(wb.nsheets): sheet = wb.sheet_by_index(sheet_idx) for row_idx in range(sheet.nrows): for col_idx in range(sheet.ncols): cell = sheet.cell_value(row_idx, col_idx) if cell and pattern.search(str(cell)): cell_ref = f"{chr(65+col_idx)}{row_idx+1}" cell_value = str(cell).strip() if len(cell_value) > 100: cell_value = cell_value[:100] + "..." matches.append((row_idx+1, f"工作表 '{sheet.name}' 单元格 {cell_ref}: {cell_value}")) # PPTX文件处理 elif ext_lower == '.pptx': from pptx import Presentation ppt = Presentation(filepath) # 搜索幻灯片文本 for slide_idx, slide in enumerate(ppt.slides, 1): for shape in slide.shapes: if hasattr(shape, "text"): if shape.text and pattern.search(shape.text): content = shape.text.strip() if len(content) > 100: content = content[:100] + "..." matches.append((slide_idx, f"幻灯片 {slide_idx}: {content}")) # PDF文件处理 elif ext_lower == '.pdf': with open(filepath, 'rb') as f: pdf = PyPDF2.PdfReader(f) for page_num in range(len(pdf.pages)): page_text = pdf.pages[page_num].extract_text() if page_text and pattern.search(page_text): # 提取匹配内容 matches_found = [] for match in pattern.finditer(page_text): context = page_text[max(0, match.start()-20):match.end()+20] context = context.replace('\n', ' ').strip() matches_found.append(context) # 添加到结果 if matches_found: preview = "; ".join(matches_found[:3]) # 显示前3个匹配 if len(matches_found) > 3: preview += f" ... (+{len(matches_found)-3} 更多)" matches.append((page_num+1, f"页面 {page_num+1}: {preview}")) # 旧版DOC文件处理 elif ext_lower == '.doc': try: # 尝试使用antiword转换DOC为文本 result = subprocess.run(['antiword', filepath], capture_output=True, text=True, timeout=10) if result.returncode == 0: doc_text = result.stdout for line_num, line in enumerate(doc_text.split('\n'), 1): if line and pattern.search(line): cleaned_line = line.strip() if len(cleaned_line) > 150: cleaned_line = cleaned_line[:150] + "..." matches.append((line_num, cleaned_line)) except Exception: # 备用方法:使用python-doc处理 import win32com.client word = win32com.client.Dispatch("Word.Application") word.Visible = False doc = word.Documents.Open(filepath) doc_text = doc.Content.Text doc.Close() word.Quit() for line_num, line in enumerate(doc_text.split('\n'), 1): if line and pattern.search(line): cleaned_line = line.strip() if len(cleaned_line) > 150: cleaned_line = cleaned_line[:150] + "..." matches.append((line_num, cleaned_line)) except Exception as e: print(f"处理Office文件失败 {filepath}: {str(e)}") return matches def search_in_archive(self, filepath, pattern): """在压缩文件中搜索匹配项""" matches = [] _, ext = os.path.splitext(filepath) ext_lower = ext.lower() try: # ZIP文件处理 if ext_lower in ('.zip', '.jar', '.war'): with zipfile.ZipFile(filepath, 'r') as archive: for name in archive.namelist(): # 只处理文本文件和Office文档 if not name.endswith(('/')) and not self.is_binary(name): try: with archive.open(name) as file: content = file.read(4096) # 只读取前4KB # 尝试检测编码 result = chardet.detect(content) encoding = result['encoding'] if result['confidence'] > 0.7 else 'utf-8' # 解码内容并搜索 try: text_content = content.decode(encoding, errors='replace') if pattern.search(text_content): matches.append((name, f"压缩文件中的文件: {name}")) except: # 二进制内容搜索 if pattern.search(content): matches.append((name, f"压缩文件中的文件(二进制内容): {name}")) except Exception: continue # 其他压缩格式(需要外部工具) elif ext_lower in ('.rar', '.7z', '.tar', '.gz'): # 使用7zip命令行工具解压并搜索 temp_dir = tempfile.mkdtemp() try: subprocess.run(['7z', 'x', filepath, f'-o{temp_dir}'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, check=True, timeout=60) # 递归搜索解压的目录 for root, _, files in os.walk(temp_dir): for file in files: full_path = os.path.join(root, file) _, file_ext = os.path.splitext(file) file_ext = file_ext.lower() # 只在文本/Office文件中搜索 if file_ext in ['', '.txt', '.py', '.java', '.c', '.cpp', '.h', '.html', '.xml', '.json', '.csv', '.docx', '.xlsx', '.pptx', '.pdf']: if file_ext in ['.docx', '.xlsx', '.pptx', '.pdf']: file_matches = self.search_in_office_file(full_path, pattern) else: file_matches = self.search_in_text_file(full_path, pattern) if file_matches: matches.append((file, f"压缩文件中的文件: {file}")) finally: shutil.rmtree(temp_dir, ignore_errors=True) except Exception as e: print(f"处理压缩文件失败 {filepath}: {str(e)}") return matches def detect_encoding(self, filepath): """改进的文件编码检测方法""" try: # 尝试读取文件前4KB进行编码检测 with open(filepath, 'rb') as f: raw_data = f.read(4096) # 使用chardet进行编码检测 result = chardet.detect(raw_data) # 优先使用检测到的编码,否则尝试常见编码 if result['confidence'] > 0.7: return result['encoding'] # 中文环境常用编码回退策略 common_encodings = ['utf-8', 'gbk', 'gb2312', 'gb18030', 'latin1'] for encoding in common_encodings: try: # 尝试解码验证 raw_data.decode(encoding, errors='strict') return encoding except UnicodeDecodeError: continue # 默认使用UTF-8 return 'utf-8' except Exception: return 'utf-8' def is_binary(self, filepath): """检查文件是否为二进制文件""" try: with open(filepath, 'rb') as f: chunk = f.read(1024) if b'\0' in chunk: # 空字节是二进制文件的标志 return True # 检查高字节值 if any(byte >= 0x80 for byte in chunk): return True return False except: return False def stop_search(self): """停止当前搜索""" self.stop_requested = True self.status_label.config(text="正在停止搜索...") self.stop_button.config(state=tk.DISABLED) # 冻结进度条显示当前进度 self.progress_bar.config(mode='indeterminate' if self.progress_var.get() == 0 else 'determinate') def export_results(self): """导出搜索结果""" if not self.results: messagebox.showinfo("导出结果", "没有可导出的搜索结果") return file_path = filedialog.asksaveasfilename( title="保存搜索结果为", defaultextension=".csv", filetypes=[("CSV 文件", "*.csv"), ("文本文件", "*.txt")] ) if not file_path: return try: with open(file_path, 'w', encoding='utf-8') as f: # 写出CSV头部 f.write("文件路径,匹配行号,匹配内容\n") # 写出每项结果 for file, matches in self.results.items(): for line_num, match_content in matches: # 清理内容中的逗号 cleaned_content = match_content.replace('"', '""').replace(',', ';') f.write(f'"{file}",{line_num},"{cleaned_content}"\n') messagebox.showinfo("导出成功", f"搜索结果已保存到:\n{file_path}") except Exception as e: messagebox.showerror("导出错误", f"导出失败: {str(e)}") def show_file_content(self, event=None): """在预览区域显示文件内容""" # 获取选中的文件 selection = self.file_tree.selection() if not selection: return selected_item = selection[0] filepath = self.file_tree.item(selected_item, 'values')[1] # 清空预览区域 self.content_text.delete(1.0, tk.END) # 获取文件扩展名 _, ext = os.path.splitext(filepath) ext_lower = ext.lower() # 显示文件路径标题 self.content_text.insert(tk.END, f"文件路径: {filepath}\n", "header") # 处理不同文件类型 try: # 处理Office文档 if ext_lower in ['.docx', '.xlsx', '.xls', '.xlsm', '.pptx', '.pdf', '.doc']: matches = self.results.get(filepath, []) if not matches: self.content_text.insert(tk.END, "\n未找到匹配内容\n", "warning") return self.content_text.insert(tk.END, f"\n找到 {len(matches)} 个匹配项:\n\n", "header") # 显示每个匹配项 for i, (line_num, content) in enumerate(matches, 1): self.content_text.insert(tk.END, f"[匹配项 {i}] 位置: {line_num}\n") self.content_text.insert(tk.END, f"{content}\n\n") # 处理压缩文件 elif ext_lower in ['.zip', '.rar', '.7z', '.tar', '.gz']: matches = self.results.get(filepath, []) if not matches: self.content_text.insert(tk.END, "\n未找到匹配内容\n", "warning") return self.content_text.insert(tk.END, f"\n找到 {len(matches)} 个匹配项:\n\n", "header") for i, (file_in_zip, content) in enumerate(matches, 1): self.content_text.insert(tk.END, f"[匹配项 {i}] 文件: {file_in_zip}\n") self.content_text.insert(tk.END, f"{content}\n\n") # 处理文本文件 else: # 获取关键词高亮模式 keyword = self.keyword_entry.get().strip() flags = re.IGNORECASE if self.case_var.get() else 0 if self.regex_var.get(): try: pattern = re.compile(keyword, flags) except: pattern = None else: pattern = re.compile(re.escape(keyword), flags) # 显示文件内容并高亮匹配 self.content_text.insert(tk.END, "\n文件内容:\n\n", "header") # 限制预览内容大小(最多显示1000行) max_preview_lines = 1000 try: encoding = self.detect_encoding(filepath) with open(filepath, 'r', encoding=encoding, errors='replace') as f: line_count = 0 for line in f: line_count += 1 if line_count > max_preview_lines: self.content_text.insert(tk.END, f"\n... (文件过大,仅显示前{max_preview_lines}行)\n", "warning") break # 插入行号 self.content_text.insert(tk.END, f"{line_count:4d} | ", "linenum") # 插入行内容并高亮匹配 if pattern: start_idx = 0 for match in pattern.finditer(line): # 插入匹配前的文本 self.content_text.insert(tk.END, line[start_idx:match.start()]) # 插入高亮的匹配文本 self.content_text.insert(tk.END, match.group(), "match") start_idx = match.end() # 插入匹配后的文本 self.content_text.insert(tk.END, line[start_idx:]) else: self.content_text.insert(tk.END, line) except UnicodeDecodeError: self.content_text.insert(tk.END, "\n无法解码此文件内容(可能是二进制文件)\n", "warning") except Exception as e: self.content_text.insert(tk.END, f"\n读取文件时出错: {str(e)}\n", "warning") except Exception as e: self.content_text.insert(tk.END, f"\n加载文件内容出错: {str(e)}\n", "warning") def open_selected_file(self, event=None): """用系统默认程序打开选中的文件""" selection = self.file_tree.selection() if not selection: return selected_item = selection[0] filepath = self.file_tree.item(selected_item, 'values')[1] try: if sys.platform == "win32": os.startfile(filepath) elif sys.platform == "darwin": # macOS subprocess.run(["open", filepath]) else: # Linux subprocess.run(["xdg-open", filepath]) except Exception as e: messagebox.showerror("打开文件失败", f"无法打开文件: {str(e)}") def open_file_location(self): """在文件资源管理器中打开文件所在位置""" selection = self.file_tree.selection() if not selection: return selected_item = selection[0] filepath = self.file_tree.item(selected_item, 'values')[1] folder = os.path.dirname(filepath) try: if sys.platform == "win32": subprocess.run(["explorer", "/select,", filepath]) elif sys.platform == "darwin": # macOS subprocess.run(["open", "-R", filepath]) else: # Linux subprocess.run(["xdg-open", folder]) except Exception as e: messagebox.showerror("打开位置失败", f"无法打开位置: {str(e)}") def show_file_context_menu(self, event): """显示文件列表的右键菜单""" item = self.file_tree.identify_row(event.y) if item: self.file_tree.selection_set(item) self.file_menu.tk_popup(event.x_root, event.y_root) def copy_selected_text(self): """复制预览区域中选中的文本""" selected_text = self.content_text.get(tk.SEL_FIRST, tk.SEL_LAST) if selected_text: self.master.clipboard_clear() self.master.clipboard_append(selected_text) # 程序入口 if __name__ == "__main__": root = tk.Tk() app = FileSearchApp(root) # 添加图标(如果有) try: if sys.platform == "win32": root.iconbitmap("search_icon.ico") else: img = tk.PhotoImage(file="search_icon.png") root.iconphoto(True, img) except: pass root.mainloop() 这是我的代码,所有的功能都已经实现,但我觉得它太过于冗余,帮我优化一下,另外我觉得目前这个布局不够美观,也不够实用,帮我修改布局,另外,在搜索到关键字之后,我希望能够在文件预览那个窗口中,将搜索到的关键字进行高亮,或者可以选择高亮。去除搜索压缩文件的内容,因为我不需要搜索压缩文件,我大概搜索的文档类型别是.c .h .prm .xlsx .xls .doc .docx .pdf
最新发布
09-13
<think> 我们首先析用户的需求: 1. 代码冗余,需要优化。 2. 布局不够美观和实用,需要修改布局。 3. 在文件预览窗口中,希望将搜索到的关键字高亮,并且可以选择高亮(即可以开启或关闭高亮)。 4. 去除搜索压缩文件的功能,因为不需要。 5. 主要搜索的文档类型:.c, .h, .prm, .xlsx, .xls, .doc, .docx, .pdf。 优化方向: 1. 代码冗余优化: - 移除与压缩文件搜索相关的代码(包括函数`search_in_archive`和相关调用)。 - 简化文件类型判断,只保留需要的类型。 - 优化函数结构,将一些重复的代码提取出来。 2. 布局优化: - 调整界面布局,使其更美观实用。 - 添加一个复选框用于控制是否在预览中高亮关键字。 3. 高亮功能: - 在预览文本时,根据用户的选择(通过复选框)决定是否高亮关键字。 - 高亮功能在`show_file_content`函数中实现,并且当复选框选中时,对匹配内容进行高亮。 4. 去除压缩文件搜索: - 删除`search_in_archive`函数。 - 在`search_in_office_file`函数中,不再处理压缩文件。 - 在`perform_search`中,去掉对压缩文件的判断。 5. 文件类型过滤: - 修改文件过滤,只处理用户指定的类型(.c, .h, .prm, .xlsx, .xls, .doc, .docx, .pdf)以及纯文本文件(如.txt, .py等)。 具体步骤: 一、优化代码结构,删除冗余 - 删除`search_in_archive`函数。 - 在`perform_search`函数中,去掉对压缩文件的处理(即删除`ext_lower`在压缩文件扩展名的判断)。 - 在`search_in_office_file`函数中,只保留对.xlsx, .xls, .docx, .doc, .pdf的处理(注意.pptx也被移除,因为用户没有提到,但用户提到了.doc和.docx,所以保留.doc和.docx,另外用户还提到了.pdf,所以保留.pdf)。 - 注意:用户还提到了.prm,这个我们当作文本文件处理。 二、修改布局 - 在搜索选项面板中,可以添加一个复选框用于控制是否高亮关键字。 - 调整布局,使界面更加紧凑美观(例如,使用网格布局对齐,调整边距等)。 三、高亮功能的实现 - 在`show_file_content`函数中,当文件是文本文件时,如果高亮复选框被选中,则对匹配的关键字进行高亮显示。 - 高亮方法:使用`tag_configure`定义高亮样式,然后在插入文本时对匹配的文本添加tag。 四、添加高亮选项 - 在搜索选项面板中增加一个复选框,变量为`self.highlight_var`,用于控制是否高亮。 五、文件过滤调整 - 在`perform_search`函数中,收集文件时,只收集扩展名为`.c`, `.h`, `.prm`, `.xlsx`, `.xls`, `.doc`, `.docx`, `.pdf`以及常见的文本文件(如.txt, .py, .java等)?但是用户没有提到的文本文件也要处理吗?根据用户需求,他主要搜索这些,所以我们可以在文件过滤的时候,只接受这些扩展名的文件。 - 注意:用户可能通过文件过滤器输入了其他类型,但我们内部也可以做一个过滤,只处理上述类型。 但是注意:用户可能也想搜索其他类型的文本文件,所以我们不限制死,但压缩文件我们明确不要。所以我们在文件过滤时,可以跳过压缩文件(因为已经删除了压缩文件处理代码,所以即使选中了压缩文件也不会处理,但为了效率,可以在收集文件时跳过压缩文件扩展名?)。不过用户要求去除压缩文件,所以我们不处理压缩文件,但其他文件如果用户想搜索,我们可以保留(比如文本文件),但用户只提到几种类型,我们可以在文件过滤器中默认设置为`*.c;*.h;*.prm;*.xlsx;*.xls;*.doc;*.docx;*.pdf`。 然而,用户也可能通过文件过滤器自定义,所以我们可以: - 在文件过滤输入框默认值改为:`*.c;*.h;*.prm;*.xlsx;*.xls;*.doc;*.docx;*.pdf` - 同时在文件收集时,我们也可以根据扩展名过滤掉压缩文件(即使被包含也不处理),因为我们没有处理压缩文件的代码了。 但是,由于我们删除了压缩文件处理,所以即使遇到压缩文件,也会跳过(因为扩展名不在office和文本处理范围内,所以会被跳过)。所以不用特别处理。 修改计划: 1. 修改初始化,将文件过滤的默认值改为:`*.c;*.h;*.prm;*.xlsx;*.xls;*.doc;*.docx;*.pdf` 在`__init__`中:`self.filter_entry.insert(0, "*.c;*.h;*.prm;*.xlsx;*.xls;*.doc;*.docx;*.pdf")` 2. 添加高亮复选框: 在搜索选项面板的选项框架(options_frame)中,添加一个复选框: self.highlight_var = tk.BooleanVar(value=True) # 默认选中高亮 ttk.Checkbutton(options_frame, text="预览高亮", variable=self.highlight_var).grid(row=0, column=4, sticky="w", padx=(10,0)) 注意:原布局中已经有4列(0,1,2,3),所以新加在第4列(column=4)或者换行?由于水平空间可能不够,我们可以调整布局,比如将选项框架的列数增加,或者换行显示。 考虑到美观,我们可以将选项框架改为两行: row0: 已有的4个复选框 row1: 新加的高亮复选框和其他(如果有) 但为了简单,我们先尝试放在同一行,如果放不下,再调整。 3. 修改`show_file_content`函数,在显示文本文件内容时,根据`self.highlight_var`的值决定是否高亮。 4. 删除所有与压缩文件相关的代码。 5. 其他代码优化: - 删除不必要的导入(如`zipfile`,`tempfile`(在压缩文件处理中用到)等)。 - 删除`search_in_archive`函数。 - 在`perform_search`中,移除对压缩文件的判断。 6. 调整布局,使界面更美观: - 可以调整各控件的位置和大小,例如让文件树和预览区域的比例更合适。 - 调整搜索面板的布局,使其更紧凑。 由于布局调整主观性较强,我将按照以下思路调整: - 保持左侧搜索面板,但适当调整宽度。 - 调整主窗口的初始大小和最小大小。 - 调整Treeview的列宽,使路径列更宽。 - 将选项框架改为两行,因为选项较多。 具体修改: 在`__init__`中,修改选项框架的布局: 将原有的选项放在第一行,新增的“预览高亮”放在第二行?或者放在第一行后面(如果空间够)。但为了不拥挤,我决定将部选项放到新增的一行。 原代码: options_frame.grid(row=row, column=0, columnspan=3, sticky="we", padx=5, pady=5) # 使用网格布局替代pack布局,更紧凑 self.case_var = ... grid(row=0, column=0, ...) self.regex_var = ... grid(row=0, column=1, ...) self.binary_var = ... grid(row=0, column=2, ...) self.limit_var = ... grid(row=0, column=3, ...) 现在增加高亮选项,我们放在第一行的第4列(column=4): self.highlight_var = tk.BooleanVar(value=True) ttk.Checkbutton(options_frame, text="预览高亮", variable=self.highlight_var).grid(row=0, column=4, sticky="w", padx=(10,0)) 但是这样可能太拥挤,所以调整各列之间的间距,或者将部选项放到第二行。 考虑到选项较多,我们改为两行: 第一行:忽略大小写、正则表达式、包含二进制、限制大小 第二行:预览高亮(靠左)和其他(如果有) 修改: 将options_frame的grid改为两行,并调整每个选项的位置。 具体: 第一行: row0: 忽略大小写(0列)、正则表达式(1列)、包含二进制(2列)、限制大小(3列) 第二行: row1: 预览高亮(0列,跨多列) 代码: # 第一行 self.case_var = tk.BooleanVar(value=False) ttk.Checkbutton(options_frame, text="忽略大小写", variable=self.case_var).grid(row=0, column=0, sticky="w", padx=(0, 10)) self.regex_var = tk.BooleanVar(value=False) ttk.Checkbutton(options_frame, text="正则表达式", variable=self.regex_var).grid(row=0, column=1, sticky="w", padx=(0, 10)) self.binary_var = tk.BooleanVar(value=False) self.binary_check = ttk.Checkbutton(options_frame, text="包含二进制", variable=self.binary_var) self.binary_check.grid(row=0, column=2, sticky="w", padx=(0, 10)) self.limit_var = tk.BooleanVar(value=True) ttk.Checkbutton(options_frame, text="限制大小(100MB)", variable=self.limit_var).grid(row=0, column=3, sticky="w", padx=(0, 0)) # 第二行 self.highlight_var = tk.BooleanVar(value=True) ttk.Checkbutton(options_frame, text="预览高亮", variable=self.highlight_var).grid(row=1, column=0, sticky="w", pady=(5,0)) 同时,在创建options_frame后,将其设置为两行,并让各列均匀布。 由于时间关系,我们先这样调整。 7. 在`show_file_content`中,当处理文本文件时,如果高亮开启,则进行高亮显示。 注意:之前在高亮时,我们已经在文本预览中使用了tag "match"来高亮,但是当时是无论高亮复选框是否选中都会高亮。现在我们要根据复选框的状态来决定。 修改: 在插入每一行文本时,如果高亮开启且有关键字匹配,我们就高亮;否则就不加tag。 但是,原来的高亮代码已经存在,我们现在只需要在非高亮模式下不使用"match"这个tag即可。 我们可以这样做: 如果高亮开启,那么匹配的文本使用"match" tag;否则,就当作普通文本插入。 所以,修改文本文件显示部的代码: 原代码: if pattern: ... 使用tag "match" 插入匹配部 修改为: use_highlight = self.highlight_var.get() if pattern and use_highlight: ... 使用tag "match" 插入匹配部 else: # 直接插入整行,不高亮 self.content_text.insert(tk.END, line) 但是注意,原代码中即使没有匹配,也会插入整行。所以我们可以将整个循环改为: if pattern and use_highlight: # 使用高亮方式插入 ... 原来的高亮代码 else: # 直接插入整行 self.content_text.insert(tk.END, line) 但是注意,我们每一行前面还有行号。所以我们要将行号插入和行内容插入开。 修改后的文本文件显示部代码: try: encoding = self.detect_encoding(filepath) with open(filepath, 'r', encoding=encoding, errors='replace') as f: line_count = 0 for line in f: line_count += 1 if line_count > max_preview_lines: self.content_text.insert(tk.END, f"\n... (文件过大,仅显示前{max_preview_lines}行)\n", "warning") break # 插入行号 self.content_text.insert(tk.END, f"{line_count:4d} | ", "linenum") use_highlight = self.highlight_var.get() # 如果开启了高亮并且有匹配,则高亮显示 if pattern and use_highlight: start_idx = 0 for match in pattern.finditer(line): # 插入匹配前的文本 self.content_text.insert(tk.END, line[start_idx:match.start()]) # 插入高亮的匹配文本 self.content_text.insert(tk.END, match.group(), "match") start_idx = match.end() # 插入匹配后的文本 self.content_text.insert(tk.END, line[start_idx:]) else: self.content_text.insert(tk.END, line) except ...: 8. 删除不必要的模块导入:删除`zipfile`, `tempfile`(如果其他地方没有用到)。 由于我们在压缩文件处理函数中使用了`tempfile`,现在压缩文件处理函数已删除,所以可以删除`import tempfile`。 9. 其他优化: - 将一些重复的代码块提取为函数。 - 简化条件判断。 由于代码较长,我们在这里不详细展示每一处修改,而是重点修改用户提到的需求。 由于代码优化涉及较多,我将修改后的完整代码写出。 注意:由于代码量很大,我将在修改后的代码中标注关键修改点。 开始重写代码(只写出修改后的类,省略程序入口): </think> 我将帮你优化代码,使其更简洁高效,同时改进布局并添加关键字高亮功能。下面是优化后的代码: ```python import os import re import sys import threading import tkinter as tk from tkinter import ttk, filedialog, messagebox, scrolledtext from tkinter.font import Font import fnmatch import chardet import docx from openpyxl import load_workbook import PyPDF2 import xlrd class FileSearchApp: def __init__(self, master): self.master = master master.title("高级文件搜索工具") master.geometry("1200x800") master.minsize(900, 650) # 设置现代主题 self.style = ttk.Style() self.style.theme_use("vista" if sys.platform == "win32" else "aqua") # 创建主框架 main_frame = ttk.Frame(master, padding=10) main_frame.pack(fill=tk.BOTH, expand=True) # 创建搜索面板 search_frame = ttk.LabelFrame(main_frame, text="搜索选项", padding=10) search_frame.pack(fill=tk.X, padx=5, pady=5) # 搜索目录 dir_frame = ttk.Frame(search_frame) dir_frame.pack(fill=tk.X, pady=5) ttk.Label(dir_frame, text="搜索目录:").pack(side=tk.LEFT, padx=(0, 5)) self.dir_entry = ttk.Entry(dir_frame, width=50) self.dir_entry.pack(side=tk.LEFT, fill=tk.X, expand=True, padx=5) self.dir_entry.insert(0, os.getcwd()) ttk.Button(dir_frame, text="浏览...", command=self.browse_directory).pack(side=tk.RIGHT) # 关键词和文件过滤 filter_frame = ttk.Frame(search_frame) filter_frame.pack(fill=tk.X, pady=5) ttk.Label(filter_frame, text="关键词:").pack(side=tk.LEFT, padx=(0, 5)) self.keyword_entry = ttk.Entry(filter_frame) self.keyword_entry.pack(side=tk.LEFT, fill=tk.X, expand=True, padx=5) ttk.Label(filter_frame, text="文件过滤:").pack(side=tk.LEFT, padx=(10, 5)) self.filter_entry = ttk.Entry(filter_frame, width=20) self.filter_entry.pack(side=tk.LEFT, padx=5) self.filter_entry.insert(0, "*.c;*.h;*.prm;*.xlsx;*.xls;*.doc;*.docx;*.pdf") # 搜索选项 options_frame = ttk.Frame(search_frame) options_frame.pack(fill=tk.X, pady=10) self.case_var = tk.BooleanVar(value=False) ttk.Checkbutton(options_frame, text="忽略大小写", variable=self.case_var).pack(side=tk.LEFT, padx=10) self.regex_var = tk.BooleanVar(value=False) ttk.Checkbutton(options_frame, text="正则表达式", variable=self.regex_var).pack(side=tk.LEFT, padx=10) self.binary_var = tk.BooleanVar(value=False) ttk.Checkbutton(options_frame, text="包含二进制", variable=self.binary_var).pack(side=tk.LEFT, padx=10) self.limit_var = tk.BooleanVar(value=True) ttk.Checkbutton(options_frame, text="限制大小(100MB)", variable=self.limit_var).pack(side=tk.LEFT, padx=10) self.highlight_var = tk.BooleanVar(value=True) ttk.Checkbutton(options_frame, text="关键字高亮", variable=self.highlight_var).pack(side=tk.LEFT, padx=10) # 按钮面板 button_frame = ttk.Frame(search_frame) button_frame.pack(fill=tk.X, pady=10) self.search_button = ttk.Button(button_frame, text="开始搜索", command=self.start_search) self.search_button.pack(side=tk.LEFT, padx=5) self.stop_button = ttk.Button(button_frame, text="停止搜索", command=self.stop_search, state=tk.DISABLED) self.stop_button.pack(side=tk.LEFT, padx=5) self.export_button = ttk.Button(button_frame, text="导出结果", command=self.export_results) self.export_button.pack(side=tk.LEFT, padx=5) # 状态栏 status_frame = ttk.Frame(main_frame) status_frame.pack(fill=tk.X, padx=5, pady=5) self.status_label = ttk.Label(status_frame, text="就绪", font=("Arial", 9)) self.status_label.pack(side=tk.LEFT, anchor='w') self.progress_var = tk.DoubleVar() self.progress_bar = ttk.Progressbar(status_frame, variable=self.progress_var, length=200, mode='determinate') self.progress_bar.pack(side=tk.LEFT, fill=tk.X, expand=True, padx=10) self.stats_label = ttk.Label(status_frame, text="", font=("Arial", 9)) self.stats_label.pack(side=tk.RIGHT) # 结果面板 results_frame = ttk.LabelFrame(main_frame, text="搜索结果", padding=10) results_frame.pack(fill=tk.BOTH, expand=True, padx=5, pady=5) # 割窗格 paned_window = ttk.PanedWindow(results_frame, orient=tk.HORIZONTAL) paned_window.pack(fill=tk.BOTH, expand=True) # 文件列表 file_list_frame = ttk.Frame(paned_window) paned_window.add(file_list_frame, weight=1) self.file_tree = ttk.Treeview(file_list_frame, columns=("filename", "path"), show="headings", selectmode="browse") self.file_tree.heading("filename", text="文件名") self.file_tree.heading("path", text="路径") self.file_tree.column("filename", width=200, anchor="w") self.file_tree.column("path", width=400, anchor="w") file_scroll = ttk.Scrollbar(file_list_frame, orient=tk.VERTICAL, command=self.file_tree.yview) self.file_tree.configure(yscrollcommand=file_scroll.set) self.file_tree.pack(side=tk.LEFT, fill=tk.BOTH, expand=True) file_scroll.pack(side=tk.RIGHT, fill=tk.Y) self.file_tree.bind('<<TreeviewSelect>>', self.show_file_content) self.file_tree.bind('<Double-1>', self.open_selected_file) # 文件右键菜单 self.file_menu = tk.Menu(self.master, tearoff=0) self.file_menu.add_command(label="打开文件", command=self.open_selected_file) self.file_menu.add_command(label="打开文件位置", command=self.open_file_location) self.file_tree.bind("<Button-3>", self.show_file_context_menu) # 文件内容预览 content_frame = ttk.Frame(paned_window) paned_window.add(content_frame, weight=2) self.content_text = scrolledtext.ScrolledText( content_frame, wrap=tk.WORD, font=("Consolas", 10), padx=5, pady=5 ) self.content_text.pack(fill=tk.BOTH, expand=True) # 文本标签配置 self.content_text.tag_configure("match", background="yellow") self.content_text.tag_configure("linenum", foreground="blue", font=("Consolas", 9)) self.content_text.tag_configure("header", foreground="darkgreen", font=("Arial", 10, "bold")) self.content_text.tag_configure("warning", foreground="red", font=("Arial", 10, "italic")) # 文本右键菜单 text_menu = tk.Menu(self.master, tearoff=0) text_menu.add_command(label="复制", command=self.copy_selected_text) self.content_text.bind("<Button-3>", lambda e: text_menu.tk_popup(e.x_root, e.y_root)) # 初始化变量 self.results = {} self.all_files = [] self.stop_requested = False self.search_thread = None def browse_directory(self): directory = filedialog.askdirectory(title="选择搜索目录") if directory: self.dir_entry.delete(0, tk.END) self.dir_entry.insert(0, directory) def start_search(self): # 重置状态 self.progress_var.set(0) self.stop_requested = False self.results.clear() self.all_files.clear() self.file_tree.delete(*self.file_tree.get_children()) self.content_text.delete(1.0, tk.END) self.status_label.config(text="正在搜索...") self.search_button.config(state=tk.DISABLED) self.stop_button.config(state=tk.NORMAL) self.stats_label.config(text="") # 获取搜索参数 directory = self.dir_entry.get().strip() keyword = self.keyword_entry.get().strip() file_filter = self.filter_entry.get().strip() # 验证输入 if not directory or not os.path.isdir(directory): messagebox.showerror("错误", "请选择有效的搜索目录") self.reset_search_state() return if not keyword: messagebox.showerror("错误", "请输入搜索关键词") self.reset_search_state() return # 编译搜索模式 flags = re.IGNORECASE if self.case_var.get() else 0 try: pattern = re.compile(keyword, flags) if self.regex_var.get() else re.compile(re.escape(keyword), flags) except re.error as e: messagebox.showerror("正则表达式错误", f"无效的正则表达式: {str(e)}") self.reset_search_state() return # 在后台线程中执行搜索 self.search_thread = threading.Thread( target=self.perform_search, args=(directory, file_filter.split(';'), pattern), daemon=True ) self.search_thread.start() def reset_search_state(self): self.search_button.config(state=tk.NORMAL) self.stop_button.config(state=tk.DISABLED) def perform_search(self, directory, filter_patterns, pattern): """在后台线程中执行文件搜索""" try: # 收集所有匹配的文件 for root, _, files in os.walk(directory): if self.stop_requested: self.update_status("搜索已取消") return for file in files: file_path = os.path.join(root, file) # 检查文件大小限制 if self.limit_var.get(): try: if os.path.getsize(file_path) > 100 * 1024 * 1024: continue except: continue # 检查文件扩展名 _, ext = os.path.splitext(file) if not any(fnmatch.fnmatch(file, pat.strip()) for pat in filter_patterns): continue self.all_files.append(file_path) total_files = len(self.all_files) self.update_progress(0, total_files) self.update_stats(f"扫描到 {total_files} 个文件") # 搜索每个文件 matches_found = 0 for i, file_path in enumerate(self.all_files): if self.stop_requested: break self.update_progress(i + 1, total_files) # 检查二进制文件 if not self.binary_var.get() and self.is_binary(file_path): continue # 搜索文件内容 matches = self.search_file_content(file_path, pattern) if matches: self.results[file_path] = matches matches_found += len(matches) self.add_file_to_list(file_path) # 更新完成状态 status = f"搜索已取消 - 找到 {len(self.results)} 个文件, {matches_found} 个匹配项" if self.stop_requested \ else f"搜索完成 - 找到 {len(self.results)} 个文件, {matches_found} 个匹配项" self.update_status(status) self.update_stats(f"已处理 {min(i+1, total_files)}/{total_files} 文件") except Exception as e: self.update_status(f"搜索错误: {str(e)}") finally: self.reset_search_state() self.search_thread = None def search_file_content(self, file_path, pattern): """根据文件类型搜索内容""" _, ext = os.path.splitext(file_path) ext_lower = ext.lower() if ext_lower in ['.c', '.h', '.prm', '.txt', '.py', '.java', '.cpp', '.hpp']: return self.search_in_text_file(file_path, pattern) elif ext_lower in ['.docx', '.doc', '.xlsx', '.xls', '.pdf']: return self.search_in_office_file(file_path, pattern) return [] def search_in_text_file(self, file_path, pattern): """在文本文件中搜索匹配项""" try: encoding = self.detect_encoding(file_path) matches = [] with open(file_path, 'r', encoding=encoding, errors='replace') as f: for line_num, line in enumerate(f, 1): if pattern.search(line): matches.append((line_num, line.strip()[:150])) return matches except Exception: return [] def search_in_office_file(self, file_path, pattern): """在Office文件中搜索文本内容""" _, ext = os.path.splitext(file_path) ext_lower = ext.lower() matches = [] try: # DOCX文件处理 if ext_lower == '.docx': doc = docx.Document(file_path) for i, para in enumerate(doc.paragraphs, 1): if para.text and pattern.search(para.text): matches.append((i, f"段落 {i}: {para.text[:100]}")) for table in doc.tables: for row_idx, row in enumerate(table.rows, 1): for cell_idx, cell in enumerate(row.cells, 1): if cell.text and pattern.search(cell.text): matches.append((row_idx, f"表格 行{row_idx}列{cell_idx}: {cell.text[:100]}")) # XLSX文件处理 elif ext_lower == '.xlsx': wb = load_workbook(file_path, read_only=True, data_only=True) for sheet_name in wb.sheetnames: sheet = wb[sheet_name] for row_idx, row in enumerate(sheet.iter_rows(values_only=True), 1): for col_idx, cell in enumerate(row, 1): if cell is not None and pattern.search(str(cell)): cell_ref = f"{chr(64+col_idx)}{row_idx}" matches.append((row_idx, f"工作表 '{sheet_name}' 单元格 {cell_ref}: {str(cell)[:100]}")) # XLS文件处理 elif ext_lower == '.xls': wb = xlrd.open_workbook(file_path) for sheet_idx in range(wb.nsheets): sheet = wb.sheet_by_index(sheet_idx) for row_idx in range(sheet.nrows): for col_idx in range(sheet.ncols): cell = sheet.cell_value(row_idx, col_idx) if cell and pattern.search(str(cell)): cell_ref = f"{chr(65+col_idx)}{row_idx+1}" matches.append((row_idx+1, f"工作表 '{sheet.name}' 单元格 {cell_ref}: {str(cell)[:100]}")) # PDF文件处理 elif ext_lower == '.pdf': with open(file_path, 'rb') as f: pdf = PyPDF2.PdfReader(f) for page_num in range(len(pdf.pages)): page_text = pdf.pages[page_num].extract_text() if page_text and pattern.search(page_text): matches.append((page_num+1, f"页面 {page_num+1}: {page_text[:100]}")) # DOC文件处理 elif ext_lower == '.doc': # 简化处理:只提取文本前1000个字符 try: doc = docx.Document(file_path) text = "\n".join(p.text for p in doc.paragraphs) if pattern.search(text): matches.append((1, f"文档内容: {text[:100]}")) except: pass except Exception: pass return matches def detect_encoding(self, file_path): """检测文件编码""" try: with open(file_path, 'rb') as f: raw_data = f.read(4096) result = chardet.detect(raw_data) return result['encoding'] if result['confidence'] > 0.7 else 'utf-8' except: return 'utf-8' def is_binary(self, file_path): """检查文件是否为二进制文件""" try: with open(file_path, 'rb') as f: return b'\0' in f.read(1024) except: return True def update_status(self, text): """更新状态标签""" self.master.after(0, lambda: self.status_label.config(text=text)) def update_stats(self, text): """更新统计标签""" self.master.after(0, lambda: self.stats_label.config(text=text)) def update_progress(self, value, total
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值