「Python大数据」VOC数据清洗

吴维炜

于 2024-04-22 10:04:45 发布

阅读量248

点赞数 4

分类专栏： AIGC架构设计师文章标签： python 大数据开发语言

本文链接：https://blog.youkuaiyun.com/qq_38209578/article/details/137913951

版权

AIGC架构设计师专栏收录该内容

80 篇文章 ¥19.90 ¥99.00

订阅专栏

本文介绍了如何使用Python进行VOC数据的清洗工作，包括读取数据、利用jieba分词并去除停用词，最后将清洗后的数据保存到新的Excel文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

本文主要介绍通过python实现数据清洗、脚本开发、办公自动化。读取voc数据，存储新清洗后的voc数据数据。

一、业务逻辑

读取voc数据采集的数据
批处理，使用jieba进行分词，去除停用词，清洗后的评论存储到新的列中
保存清洗后的数据到新的Excel文件中

二、具体产出

在这里插入图片描述

三、执行脚本

python clean.py

四、脚本

# voc数据清洗
import pandas as pd
import jieba
import jieba.posseg as pseg
from collections import Counter
import re

fileName = "100070291457" # sku

# 加载停用词
with open('stopwordsfull', 'r', encoding='utf-8',errors='replace') as f:

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

吴维炜

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

参与评论您还未登录，请先登录后发表或查看评论

博客

认识大前端，开启无限可能

11-05

1万+

万丈高楼平地起。开课第一周，我们将以轻松幽默的方式，从实际工作中的开发痛点出发，以项目全生命周期为主线，对全栈有全局的认识。从整体项目分析开始，培养项目架构思维。一、了解大前端知识体系，有全局的认知1.1 工程师的技能树在大前端知识体系中，每个阶段的工程师，需要有不同的知识技能储备。江湖封号程序猿（媛），业内一般称呼软件开发工程师。1.1.1 初级工程师初级前端工程师的标准，就是能够完成日常的功能开发和debug，可以在已有的代码基础上做修改，优化和维护；熟练使用平时开发需要用到的工具即.

博客

你想成为什么样的人，你就要以什么样的标准来要求自己

09-03

5885

梦想还是要有的，没有梦想跟咸鱼有什么两样慎重的考虑了，最后给自己一个阶段的小目标——“前端第一人”主要职责： 1.准确理解产品需求、交互文档或原型, 进行 web 产品前端开发； 2.优化用户体验，修正项目中出现的问题； 3.与设计美工配合完成页面的静态化； 4.参与用户相关交互设计，配合后台开发人员，完成页面的交互功能，联调工作；自我要求： 1.精通 div+css......

博客

还原度不达标按差异点数

04-16

示例：某页面存在2处颜色偏差（1×2）、1处图标变形（2×1）、1处焦点逻辑错误（2×1），总差异点=2+2+2=6点。示例：某项目总检测点200个，允许差异点10个，实际差异点15个 → 退款金额=（15-10）×500=2500元。：承诺还原度≥95%（差异点≤总检测点×5%），超出部分按差异点数退款。：将组件拆解为原子属性（如颜色、间距）单独计点，而非整体判罚；：高频使用组件（如按钮、表单）的差异点权重翻倍（如3点/处）；单个页面差异点总数 = ∑（子项差异数 × 权重）

博客

「AIGC」AI设计工具LensGO

10-24

299

LensGo 也是目前正在快速增长的 AI 视频生成平台中的一员，虽然平台官方并没有将背后所用的大模型公布出来，但是从生成效果来看，也是基于头部的几个大模型搞出来的东西。在功能上，LensGo 支持视频内容的风格转换，文生图，文生视频，图生视频，也能微调和训练自己的模型，功能该有的都有。定位：文本到图像生成、文本到视频动画、视频转视频、视频风格迁移、风格定制、用户友好界面（限制：18种风格10秒）

博客

「AIGC」AI设计工具 v0.dev

10-24

490

20学习前端代码本身似乎并不复杂，但是有平台能够直接生成代码、预览效果，似乎更有性价比。可能对于有前端和开发经验的同学而言，直接实现某个页面效果并不算是太复杂的事情，但是对于没有代码经验的同学而言，直接使用 AI 跑出代码甚至直接落地成为可以运行的程序还是非常有意义的。

博客

「AIGC」AI设计工具Polymet

10-24

510

是一个 Y-Combinator 投资的一个 AI 平台，它和我们之前所用到的很多 AI 工具有着明显差别，它有着更强的指向性——成为 AI 产品设计师和 AI 前端。Polymet 可以根据提示词描述来生成数字界面内容，根据自然语言生成我们所熟悉的、可交互的数字界面，这也意味着在要求不高的情况下，一部分有需求的用户甚至可以借助它直接跳过设计师，拿到前端代码，让产品进入调整、测试和应用的阶段，起码在数字产品的早期阶段，快速原型的搭建和测试，几乎可以不需要进行界面设计了。

博客

「UCD」ComfyUI设计提效工具

10-22

207

ComfyUI 支持自定义节点插件，这些插件可以大大增强 ComfyUI 的功能和使用体验。

博客

「AIGC」n8n AI Agent开源的工作流自动化工具

10-22

2747

n8n AI Agent在工作流中直接使用 JavaScript 或 Python 代码，以实现高度定制的逻辑。

博客

「UCD」用户体验设计专家

08-23

1083

评估产品的用户体验（User Experience, UX）是一项多维度的工作，要考虑用户在使用产品时的各个方面，包括易用性、满意度、效能和可访问性等。虽然没有单一的评估方法可以全面覆盖所有维度，但通过结合定量和定性的方法，可以获得更全面的评估结果。通过创建详细的用户画像，设计师和开发团队可以更好地理解目标用户的需求、行为和痛点，从而更有针对性地设计产品功能与界面。结合出问题的位置进行可用性测试，以找到并修复痛点。综合这些评估方法，你可以得到比较全方位的数据支持和定性的洞察，从而不断优化你产品的用户体验。

博客

「Vue组件化」封装i18n国际化

07-18

701

在Vue应用中实现国际化（i18n），通常需要使用一些专门的库，比如vue-i18n。本文主要介绍自定义封装i18n，支持Vue、uniapp等版本。

博客

「Vue组件化」封装SVG图标

07-18

817

首先创建一个用于加载SVG文件的Vue组件。将SVG文件放在项目的某个目录下，例如components/svgIcon/。创建一个函数来动态导入SVG文件，并注册到Vue组件中。在项目中通过组件标签使用SVG图标。

博客

「Conda」在Linux系统中安装Conda环境管理器

07-15

587

在Linux系统中安装Conda环境管理器是一个相对简单的过程。

博客

「Python」基于Gunicorn、Flask和Docker的高并发部署

07-15

1076

博客

「UCD」用户体验设计

07-11

436

用户体验设计是产品设计的心脏，它跨越多个学科，包括界面设计、信息架构、人机交互等，以确保最终产品能够提供卓越的用户体验。UX设计不仅关注产品的功能性和美观性，还关注产品如何与用户进行有效沟通，以及如何在竞争激烈的市场中突显其品牌价值。

博客

「UCD」浅谈蓝湖Figma交互设计对齐

07-11

857

在现代数字产品的设计和开发过程中，选择合适的工具对于提高团队效率和保证产品质量至关重要。本文将从开发和设计两个不同的角度，探讨蓝湖和Figma两款流行工具的优势与不足，并提出结论和建议。

博客

「AIGC」“AI+作业”，是辅助还是颠覆

07-09

327

博客

「AIGC」使用AI集成工具提升工作效率

07-09

414

使用AI集成工具提升工作效率的一个实际例子是通过自动化数据分析和生成报告。以下是一个更丰富的示例，我们将构建一个简单的Python脚本，使用pandas进行数据分析，matplotlib进行数据可视化，以及进行简单的预测建模。这个流程可以用于快速洞察数据特征，自动化报告生成，从而节省时间并减少重复性工作。5pandasmatplotlib请注意，这个示例假设你有一个名为的CSV文件，其中包含至少一个名为Purchased的列，用于表示客户是否购买了产品。

博客

「AIGC」大语言模型系列-Transformer详解

07-08

1615

这个示例代码提供了一个Transformer模型的框架，包括多头自注意力机制、编码器和解码器层、以及最终的输出层。然而，为了保持简洁，解码器的实现和训练逻辑没有包括在内。Transformer模型相对复杂，下面我将提供一个简化版的Transformer模型的Python代码示例，使用PyTorch库实现。这个示例将包括模型的基本结构，如编码器和解码器，自注意力机制，位置编码，以及前馈网络。请注意，这个示例主要用于教学目的，可能不包括一些生产环境中所需的特性，比如层标准化、残差连接、优化器、训练循环等。

博客

「AIGC」TDSQL技术详解

07-08

1159

创建一个完整的TDSQL实例涉及到多个步骤，包括数据库的创建、配置、连接以及基本的数据库操作。请注意，以下示例代码是模拟操作，实际使用时需要根据TDSQL的具体环境和要求进行调整。

博客

「树莓派入门」树莓派进阶05-智能门禁系统

07-06

483

创建一个基本的智能门禁系统，该系统可以检测到靠近门禁的人或物体，并根据距离控制门的开关。这只是一个起点，你可以根据自己的需求添加更多的功能和改进。

​「Python大数据」VOC数据清洗

前言

一、业务逻辑

二、具体产出

三、执行脚本

四、脚本

「Python大数据」VOC数据清洗