- 博客(165)
- 资源 (3)
- 收藏
- 关注
原创 基于Spark的中文文本情感分析系统研究
本文提出了一种基于Apache Spark的中文文本情感分析系统,通过分布式计算框架有效处理大规模文本数据。系统采用分层架构设计,包含数据预处理、特征提取、模型训练和结果输出四个核心模块。实验使用ChnSentiCorp中文数据集,对比了逻辑回归、支持向量机和随机森林三种机器学习算法,其中随机森林表现最佳,准确率达83.7%。研究验证了Spark平台在中文情感分析任务中的可行性,并探讨了未来优化方向,包括引入深度学习方法、扩展多语言支持、实现实时分析等。该系统为中文情感分析提供了高效可扩展的解决方案,在舆情
2025-09-06 13:55:03
1400
1
原创 基于Scikit-learn集成学习模型的情感分析研究与实现
本文研究了基于机器学习的情感分析方法,比较了逻辑回归、支持向量机、随机森林和BERT模型在ChnSentiCorp中文情感数据集上的表现。实验使用Scikit-learn实现,通过TF-IDF特征提取和超参数优化,结果显示BERT模型表现最佳(准确率95%,F1值0.95),其次是随机森林(准确率89.83%)。研究发现:1)BERT在文本分类任务中具有显著优势;2)传统机器学习模型中随机森林优于SVM和逻辑回归;3)模型性能与计算成本呈正相关。研究为中文情感分析提供了实用方法参考,建议根据实际需求在精度和
2025-09-06 12:00:44
1255
原创 注意力模型QKV矩阵与位置向量计算
位置向量(Positional Encoding)在 Transformer 等模型中用于为输入序列中的每个位置编码位置信息,以便模型能够捕捉序列中的顺序关系。在注意力机制中,Query (Q)、Key (K) 和 Value (V) 矩阵是通过对输入向量进行线性变换得到的,而这些矩阵的初始化与更新与神经网络的权重类似。最常用的计算位置向量的方法是基于正弦和余弦函数。通过理解和应用位置向量,Transformer 等模型能够捕捉到序列中的位置信息,从而更好地处理和生成与顺序相关的输出。
2024-08-16 23:10:50
2193
原创 python3 使用urllib3通过代理下载网易财经报告
天池大赛A股财报数据 百度链接: https://pan.baidu.com/s/1zUaA4Q_sHs2lsI3Nb1_v0g 密码: c5xv本文的完整可下载所有A股财报的程序可访问https://github.com/dreamnotover/stock_financial/# -*- coding: utf-8 -*-"""Created on Thu May 17 14:43...
2018-06-05 17:04:50
2945
原创 在 VS Code 中使用 Conda虚拟环境高效运行与调试 Django 单元测试
借助 Anaconda 的web虚拟环境,你可以在一个干净、可控的 Python 环境中同时管理多个 Web 项目依赖(如 Django 和 Flask)。快速运行全部或部分测试在内存数据库中安全执行测试通过图形化界面单步调试测试逻辑避免环境冲突和依赖污染。
2025-12-08 22:25:47
987
原创 使用 Django 测试脚本验证用户角色与权限:自动化测试用户仪表盘访
本文介绍了一个Django自动化测试脚本,用于验证基于角色的Web应用权限控制。该脚本通过Django的测试工具自动创建测试用户(学生和教师角色),模拟登录并检查用户能否访问各自授权的仪表盘页面(如/students/dashboard/和/teachers/dashboard/)。这种方法解决了手动测试角色权限时效率低、易遗漏的问题,可快速验证系统的权限逻辑是否正常工作。脚本包含用户创建、登录模拟和页面访问测试等功能,为开发教育类或企业管理系统提供了便捷的权限测试方案。
2025-12-07 23:44:03
342
原创 使用 Python 自动下载随机用户头像:探索 randomuser.me 的强大功能
本文介绍了如何使用randomuser.me的API服务批量获取授权头像资源。该服务提供结构化随机用户数据,包括真实人物授权头像(128×128像素),适合开发测试使用。文章提供了Python脚本示例,可自动下载指定角色头像并保存到本地目录,包含自动创建文件夹、SSL兼容处理和错误捕获功能。所有头像资源均来自RandomUserGenerator项目,提供按性别分类的规范URL格式,可免费用于个人和商业项目。这种方法能快速为应用添加真实感用户头像,提升开发效率。
2025-12-07 23:37:02
286
原创 python-docx生成Word文档-深度学习模型在时间序列预测中的应用、挑战与展望
本文摘要针对深度学习在时间序列预测中的应用进行了系统综述。随着数据规模的扩大,传统统计方法面临局限,深度学习技术凭借强大的特征提取能力成为主流研究方向。文章详细分析了RNN、CNN、Transformer等模型的优缺点,重点关注长期预测中的计算效率提升技术(如稀疏注意力、分块嵌入等),并探讨了误差累积、多变量建模等挑战。最后展望了基础模型和生成式预测等未来方向,为时间序列预测研究提供了全面参考。
2025-11-20 14:43:49
149
原创 批量转换论文正文引用为上标后转PDF保持上标
Word中使用Font.Superscript=True设置的上标并非真正的数学上标,而是通过垂直位移实现,在转换为PDF时容易出现上标位置偏移问题。常见于中文字体、混排字体或旧版本Word中。解决方案:1)统一文档字体并导出为PDF/A格式;2)使用VBA宏强制调整字体大小和上移比例,确保上标位置固定。后者通过修改代码可同时处理中英文括号内的数字上标,避免PDF导出时的位置偏差问题。
2025-11-12 09:16:29
427
原创 批量转换论文正文引用为上标
本文介绍了三种在Word文档中设置参考文献上标的方法:1)使用查找替换功能,通过正则表达式匹配[数字]格式并批量设置为上标;2)创建自定义样式快速统一引用格式;3)使用VBA宏自动处理正文引用,可智能识别并跳过参考文献、表格、图表标题等特殊区域。第三种方法提供增强版代码,能自动定位参考文献起始位置,确保只修改正文中的引用内容,避免误改其他特殊文本区域。
2025-11-11 16:35:20
600
原创 将 Jupyter Notebook 转换为 PDF
摘要:Jupyter Notebook转换为PDF的三种方法:1)使用自带功能,需安装pandoc和TeX系统;2)通过命令行工具nbconvert直接转换;3)先转为HTML再用浏览器或工具转为PDF。注意事项包括确保依赖完整、中文支持及复杂内容处理。每种方法均提供详细步骤和常见问题解决方案。
2025-09-21 18:04:16
1034
原创 文件编码并转成 UTF-8
打开 CSV 文件 → 右下角编码处点击 → 选择 “以 GBK 打开” → 然后另存为 → 选择编码 “UTF-8(无 BOM)”。或者使用命令行(Windows PowerShell):powershell 转换文件。如果你用的是 Windows 系统,CSV 文件很可能是。
2025-04-14 19:51:46
2432
原创 Excel表格文件分组归并
按照课程编号、实验项目编号把提交开始时间有不为空记录的所有记录的授课教师归并到一列,时间为空记录的所有记录的授课教师归并到另外一列,输出结果。可以假设把表格导入了mysql数据库,写出sql语句,也可以用python程序实现数据集包含多个列,包括:课程编号 (Course ID)实验项目编号 (Lab Project ID)提交开始时间 (Submission Start Time)授课教师 (Instructor)
2025-04-13 11:03:19
809
原创 自动提取pdf公式 ➕ 输出 LaTeX
创建打包脚本的主内容 extract_formulas.py依赖环境文件:requirements.txt。
2025-04-07 08:59:23
871
1
原创 PDF 中提取数学公式
你如果用 Python 的话,只需要运行。这样你能直接把所有 LaTeX 结果写入。免费额度有限,每天10~20张图。拍照或拖图片即可生成 LaTeX。只适合展示,不适合识别。
2025-04-07 08:45:57
1847
1
原创 excel表格按照多个字段去重
Power Query 提供了更强大的数据整理能力,包括。中,选中需要去重的列(例如“订单号 + 用户名”)。,Excel 将自动删除重复的行,仅保留第一条数。→ 选择“所有行” → 展开其他列数据。仅保留第一条记录,其他数据会丢失。,Power Query 会保留。(例如“姓名”+“手机号”)。,选中包含数据的整个表格(不需要合并其他字段,只保留。同一组数据的不同字段值。,可以使用 Python。
2025-03-23 10:39:48
3281
原创 在 Kaggle 中绘制中文乱码解决
在 Kaggle 中绘制中文时,需要设置 Matplotlib 的字体,否则中文会显示为乱码。,xlable,ylabel,title 里指定。可能默认不识别中文,即使已安装。
2025-03-16 22:47:26
2135
原创 注意力模型的学习和理解
这些库和实现涵盖了从学习到实际应用 Transformer 模型的各个方面。选择合适的库可以根据你的需求,是否需要预训练模型支持,或者是否想从头实现并理解 Transformer 模型。几个受欢迎的 Transformer 模型实现的开源库和代码。
2024-08-16 23:06:12
617
原创 原地 移除所有数值等于 val 的元素
给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。你不需要考虑数组中超出新长度后面的元素。例如,函数返回的新长度为 2 ,而 nums = [2,2,3,3] 或 nums = [2,2,0,0],也会被视作正确答案。,并未创建新的向量。另外,此方法的时间复杂度为O(n)。,用于追踪下一个将被非目标值填充的位置;,用于扫描输入数组。因此,在循环结束后,
2024-04-24 22:17:37
317
1
原创 用了Keras来构建一个卷积神经网络对MNIST数据集进行分类
首先导入所需库和模块,然后加载MNIST手写数字数据集并对数据进行预处理。接着定义了一个基于卷积神经网络(CNN)的模型,该模型包含多个卷积层、最大池化层以及Dropout层作为正则化手段。模型最后接一个全连接层作为输出层,使用softmax激活函数处理多分类任务。模型编译阶段设置了损失函数为“categorical_crossentropy”,优化器为Adam,评估指标为准确率。之后使用训练数据对模型进行训练,并在测试集上评估模型的性能,最终输出测试集上的准确率。
2024-04-24 21:58:37
756
原创 搭建最新tensorflow 与pytorch环境
这将在您的用户家目录下创建一个名为 jupyter_lab_config.py 的文件,通常位于 ~/.jupyter/jupyter_lab_config.py(具体路径可能因操作系统而异)。请将 替换为您要安装的包名, 替换为具体的频道名,如 conda-forge、pytorch 等。如果没有报错且输出了 PyTorch 的版本号,并且(对于 GPU 版本)torch.cuda.is_available() 返回 True,说明安装成功。
2024-04-24 20:35:14
1504
2
原创 使用tensorflow实现鸢尾花的分类
此代码将首先加载鸢尾花数据集。然后,它将数据拆分为训练集和测试集。接下来,它将定义一个简单的模型,该模型包含一个具有10个隐藏单元的隐藏层和一个具有3个输出单元的输出层(对应于三个鸢尾花物种)。然后,它将编译模型并使用训练数据训练它。最后,它将在测试集上评估模型并打印准确性分数。您可以通过更改模型架构、训练参数和超参数来实验此代码。例如,您可以尝试添加更多隐藏层或单元,使用不同的激活函数,或使用不同的优化器或损失函数。
2024-04-17 00:42:53
709
原创 使用scikit-learn中的SVC类实现垃圾邮件分类
然后,它将使用TF-IDF向量化器将文本数据转换为数值特征。接下来,它将数据拆分为训练集和测试集。然后,它将定义SVC模型并使用。需要注意的是,上述方法都不是直接调整SVC学习率的理想解决方案。如果您需要更灵活的学习率控制,建议您考虑其他机器学习算法,例如梯度提升决策树或神经网络。scikit-learn中的SVC类不支持直接动态调整学习率。SVC类使用的核函数(例如,线性核、RBF核等)本身没有学习率参数。最后,它将在测试集上评估模型并打印准确性分数。以下是使用scikit-learn中的。
2024-04-17 00:38:10
737
原创 Docker jupyter 容器中添加matplotlib 中文支持
font.sans-serif: SimHei, DejaVu Sans, Bitstream Vera Sans # 去掉注释,并增加 SimHei。# 在容器命令行中运行以下代码,清除获取的缓存/home/jovyan/.cache/matplotlib。# axes.unicode_minus: False # 去掉注释,并将 True 改为 False。# font.family: sans-serif # 去掉注释。# 进入已经运行的 Jupyter 容器。# 提交更改后的容器为新的镜像。
2024-03-21 16:15:59
695
原创 给 spyter/all-spark-notebook 添加scala支持
spyter/all-spark-notebook默认没有安装scala notebook,需要手动添加。用 Apache Toree kernel创建notebook。写一个wordcount程序。,在其中添加你需要的配置和组件。完美实现Scala spark notebook编程。用下面命令运行,不过退出命令窗口后,容器讲被删除。
2024-03-10 22:09:24
1041
原创 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点
问题是删除链表的倒数第 n 个节点,并返回链表的头节点。你可以使用两个指针来实现这个目标,一个快指针和一个慢指针。首先,快指针先移动 n 步,然后两个指针同时移动,直到快指针到达链表的末尾。这时,慢指针就指向了要删除节点的前一个节点,然后你可以修改指针来完成删除操作。以下是相应的C++代码。
2024-03-09 17:38:33
447
原创 使用 Docker 设置 PySpark Notebook
此标志指示 Docker 将容器的所有公开端口发布到主机上的随机端口。在您的工作空间中命名的目录。请记住,您需要在下一步中调整路径以匹配您的系统设置。在此目录中您可以存储任何 CSV 文件。此标志指示 Docker 在分离模式下运行容器,这意味着它将在后台运行,您不会在终端中看到其输出。将 URL 中的默认端口替换为您在步骤 4 中标识的端口。在运行 Docker 映像之前,我们需要设置一个用于存储 Spark 数据的目录。在此示例中,您的主机上的端口 8888 映射到容器内的端口 8888。
2024-03-05 12:40:43
2104
原创 使用docker datascience-notebook进行数据分析
一个基于 Web 的交互式环境,用于创建和共享结合代码、可视化和解释性文本的文档。一种流行的编程语言,广泛用于数据科学。流行库如 NumPy、pandas、scikit-learn 等已预装在镜像中,可节省您的时间和精力。使用 jupyter/datascience-notebook 的优势:无需单独安装多个工具和库。确保不同开发环境之间的一致性。使得共享和再现您的数据科学工作变得更加容易。命令用于从 Docker 镜像仓库中下载镜像。是镜像的名称。
2024-03-05 12:20:48
1352
原创 C++实现人脸检测、分割、并计算人脸各个部分的颜色
人脸分割提取颜色是一个计算机视觉领域的技术问题,其目标是从人脸图像中提取人脸的各个部分,并得到各个部分的颜色分布。该技术在人脸识别、美颜、虚拟化妆等领域有着广泛的应用。常用的分割方法包括: * 基于肤色的分割 * 基于边缘的分割 * 基于深度学习的分割。:首先需要检测出人脸的位置和大小。
2024-03-02 14:53:09
658
原创 给定一个整数数组 nums 和一个整数目标值 target
给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。
2024-02-25 10:22:41
1443
原创 怎样重置ubuntu mysql8密码
首先,检查您的 MySQL 版本,因为这篇文章包含在版本 8 或更高版本上更改 root 密码的解决方案。密码很难记住,所以如果您忘记了 MySQL root 密码,幸运的是,有一种方法可以更改它。这篇文章是为您而写的,在这篇文章结束时,您将成功更改 MySQL 的密码。在提供新密码的地方。好了,环境变量设置好了,我们就可以不用密码登录MySQL shell了。首先,在重新启动 MySQL 服务器之前杀死 MySQL 的所有进程。首先,在重新启动 MySQL 服务器之前杀死 MySQL 的所有进程。
2024-02-20 23:28:56
1713
原创 用docker 配置scala spark环境
要使用Docker配置Scala和Spark环境,您可以按照以下步骤进行操作。以下是一个基本的示例,您可能需要根据您的具体需求进行调整。在您的项目目录中创建一个名为Dockerfile在项目目录中创建您的Scala Spark应用程序,例如。
2024-02-07 21:42:38
2205
1
原创 docker数据科学与spark镜像源与使用常见问题疑难解答
然后,它启动一个运行服务器的容器,并在主机端口 10000 上公开该服务器。服务器日志显示在终端中,并包含服务器的 URL,但使用内部容器端口 (8888),而不是正确的主机端口 (10000)。因此,权限和所有权将被复制,并将与本地主机中的权限和所有权(包括用户 ID)相同,这可能会导致在尝试访问目录或在其中创建/修改文件时出现权限错误。这种方法需要注意的是,由于这些更改是在运行时应用的,因此如果您需要重新创建容器(即在删除/销毁容器之后),您将需要使用适当的标志和环境变量重新运行相同的命令。
2024-02-07 21:15:52
1732
1
c++数据结构与算法实现
2018-09-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅