Excel读取标题头映射失败问题‘\uFEFF‘ 65279

最新推荐文章于 2023-07-28 22:09:45 发布

原创最新推荐文章于 2023-07-28 22:09:45 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java

随笔专栏收录该内容

9 篇文章

订阅专栏

本文探讨了在读取CSV文件时遇到的第一个列名映射失败问题，详细分析了问题产生的原因在于Excel分表操作中引入了不可见字符'uFEFF'，并解释了该字符如何影响数据读取一致性。

Excel读取标题头映射失败问题

读取csv表格列名的时候第一个列名对应不上，

debug发现第一个字串头部多出’\uFEFF’ 65279字符导致hash地址不一致，无法对应。

校对出表过程发现是在excel制作时进行了分表操作。

但是csv文件不支持多表格存储，分表粘贴的过程中多出了’\uFEFF’ 65279分割符导致的问题。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

myk_msrry

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何在前端上传Excel到后台，批量导入数据到Mysql数据库

Mr_Van的博客

10-29

1万+

如何在前端上传Excel数据批量导入数据库一、效果图二、代码实现1、前端代码(1)、HTML代码(2)、JS代码2、后端代码(1)、先将Base64转成文件留存在服务器上(2)、具体调用和实现(3)、解析工具类3、返回前端未插入的excel并下载。需求：用户需要一个能够上传Excel表批量导入数据的功能。未成功导入的人员返回给前端一个Excel。个人觉得这样还不如直接通过连接工具手动将excel导入数据库。比如说这种：直接Navicat导入；因为之前自己也是这么搞得>>>》》传送门》》

java读取文件:char的ASCII码值=65279,显示是一个空字符的解决

08-18

主要介绍了java读取文件:char的ASCII码值=65279,显示是一个空字符的解决，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

参与评论您还未登录，请先登录后发表或查看评论

\uFEFF

qianqian的博客

05-18

607

1、问题今天在做下载 Excel 文件，解析数据时，遇到一个奇葩问题。文件格式大致长这样我们是要解析这个 Excel 文件，然后用 map.get("订单号") 这种方式获取每一列的值，结果后面列都能正常获取，只有第一列获取结果为 null 。后来控制台打印结果看起来也正常，把打印的结果复制在粘贴到代码里之后发现多了一个 \uFEFF 符号，也就是要用 map.get("\uFEFF订单号") 这种方式才能获取到值。 2、分析原因经过和提供 Excel 文件的第三方沟通他们的原因：

编译工程时报java:[1,0] illegal character: \65279问题排查与解决过程

shixing_11的专栏

11-16

1万+

最近开发人员通过SVN提交了xxx.java文件，因发布时该包有问题需要回退，故SCM将该xxx.java文件用editplus打开删除了新添的一行，删除后重新编译打包，却报了如下异常： java:[1,0] illegal character: \65279表面看着该文件确实没错，看不出来问题，后来从SVN上更新下代码以后，发现本地也不报错，后来通过Eclipse查看了该xxx.java类

\ufeff

moyueheng的博客

03-03

2893

只需要在open的时候编码写成UTF-8-sig,就可以了 f = open('new.txt', encoding='UTF-8-sig')

\ufeff 问题

tuxinlin317的专栏

03-01

2999

遇到\ufeff问题，在调试界面下，显示为小红点，鼠标悬浮到小红点上，显示\ufeff 解决办法：将源文件用NodePad++打开，修改为以UTF-8无BOM格式编码，然后另存为一个文件，替换原有文件

将HTML Table表格快速导出为Excel文件

charset=utf-8,\ufeff" + encodeURIComponent(csvString)，其中\ufeff用于添加BOM头，避免中文乱码问题，并设置download属性指定默认文件名（如data.csv），最后模拟点击该链接即可实现下载。这种方式无需引入额外库...

前端导出Excel的两种实用方法及源码实现

为了确保中文字符正确显示，必须在生成Blob时指定编码格式为`UTF-8`，并在文件头部添加BOM（Byte Order Mark，即`\uFEFF`）标记，以防止Excel打开时出现乱码现象——这是该方法中尤为关键的技术细节。此外，作者还...

🚫 无法读取：2025.11.17.xlsx 📖 正在读取：2025.11.18.xlsx ⚠️ 2025.11.18.xlsx 不是有效的 .xlsx，尝试作为 CSV 读取... ❌ 无法用 UTF-8/GBK 读取为 CSV：'gbk' codec can't decode byte 0xb1 in position 5: illegal multibyte sequence 🚫 无法读取：2025.11.18.xlsx

最新发布

11-19

所有 Excel 方式失败 → 尝试作为 CSV 读取（多编码支持） encodings_to_try = [ 'utf-8-sig', # 推荐！处理带 BOM 的 UTF-8 'utf-8', 'gbk', 'gb2312', 'big5', 'latin1', # 安全兜底：不会报错，可读任何...

import os import pandas as pd import re from pathlib import Path from openpyxl import load_workbook import warnings from collections import defaultdict import contextlib # ===== 配置参数 ===== CSV_DIR = r"F:\000-py\000比赛\html_test\data_clean" EXCEL_FILE = "rank_data_2.xlsx" SHEET_MAPPING = { "*成交*.csv": "成交查询", "*资金*.csv": "资金查询", "*持仓*.csv": "持仓查询" } CHUNK_SIZE = 50000 CONVERT_THRESHOLD = 0.8 # =================== def strip_whitespace(df): """高效去除单元格前后空白字符""" str_cols = df.select_dtypes(include=['object', 'string']).columns for col in str_cols: df[col] = df[col].str.strip() return df def text_to_number(df): """智能文本转数字（带阈值控制）""" for col in df.columns: if pd.api.types.is_numeric_dtype(df[col]): continue converted = pd.to_numeric(df[col], errors='coerce') valid_ratio = converted.notna().mean() if valid_ratio > CONVERT_THRESHOLD: df[col] = converted return df def match_sheet_name(csv_path): """根据映射规则匹配Sheet名""" filename = Path(csv_path).name for pattern, sheet_name in SHEET_MAPPING.items(): # 修复正则表达式转义问题 regex_pattern = re.escape(pattern).replace(r'\*', '.*') if re.fullmatch(regex_pattern, filename): return sheet_name return None def safe_excel_writer(excel_file): """创建安全的Excel写入器，避免属性设置错误""" # 确保目标Excel存在 excel_path = Path(excel_file) if not excel_path.exists(): # 创建一个临时Excel文件，包含一个工作表 with pd.ExcelWriter(excel_file, engine='openpyxl') as temp_writer: pd.DataFrame().to_excel(temp_writer, index=False, sheet_name="Temp") # 创建ExcelWriter对象（追加模式） return pd.ExcelWriter( excel_file, engine="openpyxl", mode="a", if_sheet_exists="overlay" ) # ==== 主处理流程 ==== if __name__ == '__main__': csv_files = list(Path(CSV_DIR).glob("*.csv")) # 分组处理：按工作表名分组CSV文件 sheet_groups = defaultdict(list) for csv_path in csv_files: sheet_name = match_sheet_name(csv_path) if sheet_name: sheet_groups[sheet_name].append(csv_path) else: print(f"跳过: {csv_path.name} - 无匹配Sheet配置") # 初始化Excel写入器 writer = safe_excel_writer(EXCEL_FILE) # 使用上下文管理器处理工作簿 with writer as writer: # 在追加模式下，writer.book已经被加载 # 确保至少有一个可见的工作表 visible_sheets = [ws for ws in writer.book.worksheets if ws.sheet_state == "visible"] if not visible_sheets and writer.book.worksheets: # 将第一个工作表设为可见 writer.book.active = 0 # 激活第一个工作表 writer.book.active.sheet_state = "visible" print(f"警告: 已激活首个工作表 {writer.book.active.title}") # 处理每个工作表组 for sheet_name, file_list in sheet_groups.items(): print(f"\n处理工作表: {sheet_name}") print(f"包含CSV文件数: {len(file_list)}") # 检查工作表是否存在，不存在则创建 if sheet_name in writer.book.sheetnames: sheet = writer.book[sheet_name] # 清空工作表内容 if sheet.max_row > 0: sheet.delete_rows(1, sheet.max_row) start_row = 0 print(f"清空现有工作表: {sheet_name}") else: sheet = writer.book.create_sheet(sheet_name) start_row = 0 print(f"创建新工作表: {sheet_name}") # 处理该工作表的每个CSV文件 for file_idx, csv_path in enumerate(file_list): print(f"处理文件: {csv_path.name} ({file_idx+1}/{len(file_list)})") # 分块处理大CSV文件 for i, chunk in enumerate(pd.read_csv(csv_path, chunksize=CHUNK_SIZE, encoding='utf-8-sig')): # 预处理 chunk = strip_whitespace(chunk) chunk = text_to_number(chunk) # 确定是否写入表头（每个文件的第一块写入表头） write_header = (i == 0) and (file_idx == 0) # 注意：每个工作表只写一次表头，且是第一个文件的第一个块 # 但实际上，我们清空了工作表，所以每个工作表只写一次表头。但是，我们可能写入多个文件，所以第一个文件的第一个块写入表头，后续文件都不写表头。 # 但是，我们是在同一个工作表内连续写入多个文件，所以后续的文件不应该再写表头。 # 因此，我们修改：只有该工作表的第一个文件的第一块写入表头。 # 但是，由于我们在处理工作表时，每个工作表只清空一次，所以每个工作表写入一次表头（即第一个文件的第一个块）即可。 # 所以，上面的条件应该是：当前文件是第一个文件（file_idx==0）且当前块是第一个块（i==0） # 注意：如果工作表是新建的，那么第一个文件的第一块需要写表头；如果是已有的工作表，我们清空了，那么第一个文件的第一块也要写表头。 # 所以条件不变。 # 将块写入Excel chunk.to_excel( writer, sheet_name=sheet_name, index=False, header=write_header, startrow=start_row ) # 更新起始行位置 if write_header: start_row += len(chunk) + 1 # 包括标题行 else: start_row += len(chunk) print(f" - 已写入块 #{i+1} (行数: {len(chunk)}), 当前起始行: {start_row}") print(f"\n处理完成! 更新文件: {EXCEL_FILE}") print("验证建议: 检查数据列对齐、特殊字符保留和空值处理") 改进上述代码要求解决Python UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb1 in position 0: invalid start byte错误

09-19

不过，如果文件有BOM，用'utf-8'读取第一列名可能会出现一个多余的字符（如\ufeff）。因此，我们可以这样处理：如果检测到的编码是'utf-8'，我们尝试用'utf-8-sig'再验证一行（可选，但为了简化，我们可以在检测...

Android Studio Error:(1, 1) 错误: 非法字符: \65279

android_yck的博客

09-25

513

Android Studio Error: 错误: 非法字符: \65279

解决非法字符： /65279即CSV有签名和无签名之分

java的涟漪

11-19

2272

如果你遇见过这样的问题：非法字符： /65279今天可以帮你解决！众所周知，在跨程序的工程中，统一编码是至关重要的，而目前最普遍的则是统一采用“utf8”编码方案。但是在采用utf8方案的时候，请注意编辑器的自作聪明。比如editplus。原因就在于某些编辑器会往utf8文件中添加utf8标记（editplus称其为签名），它会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF

Maven编译项目后，报错非法字符：\65279

走过的足迹

03-04

2459

对现有的Web项目添加Maven支持，执行编译命令后，出现如下错如： BaseConst.java:[1,0] 非法字符：\65279 使用 notepad++ 工具打开之后，发现该文件格式为 UTF-8 (含BOM)格式，如下图：改为“UTF-8 无 BOM格式编码”即可。分析：有可能是由于使用 UltraEdit 工具时，该工具本身默认的文件格式导致。

java读取文件或者前端输入字符出现\uFEFF处理

qq_22368681的博客

06-02

1557

从数据库导出的文件，如果有无法识别的字符，会转换成\uFEFF，通过java读取文件时，会读取出这种字符，执行sql的时候会出现异常情况，以下对每一个数据可以进行处理。我的使用场景是：读取文件的表头，当成表字段做预测和nlp进行预测和处理时，发现数据没有清洗干净，会出现前后空格和\uFEFF的特殊字符，废话不多说，直接贴代码。 public class CommonConstant { /** \UFEFF 去掉特殊字符*/ public static final String.

Android Studio 非法字符： \65279

lele8060的专栏

05-26

626

Error:(1, 1) 非法字符: \65279 Solution： 1.File Encoding -->GBK -->Convert; 2.File Encoding -->UTF-8 -->Convert;

maven 错误: 非法字符: \65279

风火一回，一生不毁

01-21

1218

maven在打包时出现了如下错误：错误: 非法字符: \65279 错误原因：指定的文件编码集错误。解决方法：右键文件——>Properties——>选择字符集为你项目字符集。若还是有问题，那么可能是字符集仍然没对。UTF-8的字符集分为有BOM和无BOM两种，而我们需要无BOM的UTF-8. 将文件单独拷贝出来，用Notepad++另存为UT

非法字符：“\ufeff”解决办法

lufeia的博客

11-11

1261

报错原因：编码风格不一致解决方案： 1、编码改为GBK格式，再转为UTF-8格式,重新启动项目问题解决注意：更改右下角的编码就行补充：本人简单就解决了，详细参考大佬文档 https://blog.youkuaiyun.com/qiqibei666/article/details/99224355 ...

错误：非法字符：“\ufeff”　　Java　python