
文本数据挖掘
文章平均质量分 59
Attention守恒
一切与恒有关
展开
-
中文医疗信息处理评测基准CBLUE
本评测任务为面向中文医学文本的命名实体识别,即给定schema及句子sentence,对于给定的一组纯医学文本文档,任务的目标是识别并抽取出与医学临床相关的实体,并将他们归类到预先定义好的类别。将医学文本命名实体划分为九大类,包括:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic),科室(dep)。标注之前对文章进行自动分词处理,所有的医学实体均已正确切分。原创 2023-04-26 11:54:16 · 2833 阅读 · 0 评论 -
AutoML入门:AutoGluon
problem definition 和 data减少专家知识依赖缩短AI应用投产时间标准化建模流程,模块化发展业务适应业务发展按模型类型划分, AutoML可以被分为传统机器学习和针对深度学习的NAS(neural architecture search)。传统机器学习模型的自动化学习包含基础特征工程,算法选择以及机器学习pipeline等合成。针对深度学习的NAS,被视作一种自动设计神经网络的技术。通过NAS,根据样本集设计出高性能兼具准确率的网络结构。原创 2023-04-26 10:18:53 · 826 阅读 · 0 评论 -
Huggingface教程微调一个模型在GPU中的实现
把datasets,transformer,huggingface_hub全部都升到最新版之后问题解决。这到底是啥问题,两边python的版本都是3.9.7。不知道,改了环境,路径,重写参数都不行,摆烂了。可是服务器已经一个通宵,有些离谱了家人们。接下来在定义超参数的时候又出现了问题。这是win10电脑导入的速度。参考github上的解答。原创 2023-02-21 10:51:45 · 805 阅读 · 0 评论 -
每次连接服务器postgre数据库都要执行的步骤
在终端启动服务器root@6f65f3f5d148 ~# pg_ctlcluster 13 main start查看数据库状态root@6f65f3f5d148 ~# service postgresql status切换到数据库用户root@6f65f3f5d148 ~# sudo su postgres打开数据库命令行 postgres@6f65f3f5d148:/root$ psql连接模式postgres=# \c mimic;mimic=# set .原创 2022-02-25 09:52:55 · 751 阅读 · 0 评论 -
Ubuntu安装Postgresql 搭建MIMIC-III debug 之路
安装Postgresql(已经是root不用sudo命令)# Update the package lists:apt-get updateapt-get upgradeapt-get -y install postgresql尝试查看版本切换用户报错原因:原链接尝试登录报错原因:原链接尝试创建一个用户重装试一试给root设置了一个密码切换用户的方法(1)从user用户切换到root用户sudo su(2)从root用户切回user.原创 2022-02-24 20:41:22 · 496 阅读 · 0 评论 -
Ubuntu Postgre 指令
Ubuntu Postgresql 入门指令原创 2022-02-24 20:34:46 · 907 阅读 · 0 评论 -
宗成庆《文本数据挖掘》学习笔记:第二章 数据预处理和标注
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2021-08-04 16:55:56 · 1358 阅读 · 0 评论 -
宗成庆《文本数据挖掘》学习笔记:第一章绪论
文章目录第一章:绪论1.数据挖掘二、使用步骤1.引入库2.读入数据总结第一章:绪论1.数据挖掘广义解释:数据挖掘是指从大量数据中挖掘有趣的模式和知识的过程。数据源:数据库,数据仓库、web、其他信息存储库或动态地流入系统的数据。文本数据挖掘:从自然语言文本中挖掘用户感兴趣的模式和知识的方法和技术,也称文本挖掘。文本:TXT文件,doc/docx,PDF文件和HTML文件等各类以语言为主要内容的数据文件。示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。原创 2021-07-30 17:42:14 · 849 阅读 · 0 评论