自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(117)
  • 收藏
  • 关注

转载 文件系统存储

参考:0.2秒居然复制了100G文件? (qq.com)文件系统:存数据的一个容器,对外提供的就是存取服务。例如你到火车站使用寄存服务:存行李的时候,需要登记名字+号码牌,来标识唯一的行李取行李的时候,报名字+出示号码牌,才能在特定位置找到行李类比文件系统:空间管理对于一个连续的大磁盘空间 如果将数据完整的放入:浪费空间、可能放不下 解决: 切分,这里放一点那里放一点。称为:小粒度的...

2021-10-14 18:28:46 1798

原创 HTTPError: 404 Client Error: Not Found for url: https://huggingface.co/saved_model

起因:本来在sort_change_nlp和sort_nlp两个文件夹下,分别有一个saved_model文件夹,但是名字不一样,一个是saved_model一个是saved_model_copy,在http_sever钟使用saved_model,发生了如下错误:model = YesOrNoModel.from_pretrained(model_name)def is_model_answer(query): for rule in base_data....

2021-09-13 09:52:40 3344

原创 在用阿里云安装Label Studio的坑

安装参考:https://labelstud.io/https://cloud.tencent.com/developer/article/1600562如果安装Label Studio的时候没有踩坑,可以不用看下面的了我的安装过程参考https://labelstud.io/,用的是Git安装pip install -e这里一定要注意,用的python3.5极以上的版本安装,不要用2.7.5的linux自带版本安装。我的是python3.6.6如果出错,检查你的pyt.

2021-09-06 19:42:37 3385 4

原创 更改lunix的默认python版本

在安装了安装anaconda之后 原来的Python自动变为了anaconda中的Python的版本进行命令python --version出现的是【Python 3.6.5 :: Anaconda, Inc.】解决:/usr/local/python3/bin/python3.6 是自己在anaconda安装之前的安装的python地址alias python3="/usr/local/python3/bin/python3.6"alias python="/usr/bin/p..

2021-08-20 17:32:47 249

原创 pytorch-transformers:AttributeError: ‘str‘ object has no attribute ‘shape‘

错误:AttributeError: 'str' object has no attribute 'shape'"""使用bert-chinese预训练模型对中文文本进行编码"""# 引入torch模型import torch# 引入torch模型中的神经网络模型import torch.nn as nn# 1. 通过torch.hub(pytorch中专注于迁移学的工具)获得谷歌已经训练好的和中文信息相关的bert-base-chinese模型# 里面的参数是定好的mo...

2021-08-17 20:51:14 6388 1

转载 【NLP】torch hub工具的使用:torch.hub.load、pytorch预训练模型加载

2.4 加载和使用预训练模型学习目标:了解加载和使用预训练模型的工具. 掌握加载和使用预训练模型的过程.加载和使用预训练模型的工具:在这里我们使用torch.hub工具进行模型的加载和使用. 这些预训练模型由世界先进的NLP研发团队huggingface提供.加载和使用预训练模型的步骤:第一步: 确定需要加载的预训练模型并安装依赖包. 第二步: 加载预训练模型的映射器tokenizer. 第三步: 加载带/不带头的预训练模型. 第四步: 使用模型获得输出结果.第一步: 确..

2021-08-17 17:33:19 4592 6

原创 在torch.hub加载bert-base-chinese模型的时候出错rate limit exceeded

问题的产生代码model = torch.hub.load('huggingface/pytorch-transformers', 'model', 'bert-base-chinese')环境pytorch 1.9.0torchvision0.10.0问题urllib.error.HTTPError: HTTP Error 403: rate limit exceeded解决办法:以下方法是可以尝试的方法1. 更改torch版本更改torch版本从1.9.0+.

2021-08-17 15:47:29 5527 2

转载 Python处理JSON时的值报错及编码报错的两则解决实录

这篇文章主要介绍了Python处理JSON时的值报错及编码报错的两则解决实录,在这里还是想建议一下使用Python 3.x版本,Python 3默认的Unicode编码能在实际使用中为我们省去不少问题,需要的朋友可以参考下1、ValueError: Invalid control character at: line 1 column 8363 (char 8362)使用json.loads(json_data)时,出现:ValueError: Invalid control charac

2021-08-11 17:44:47 1645

原创 Python【三十六】列表list的大小比较< 、> 、==

TypeError:“dict”和“dict”实例之间不支持“<”list的< 、> 、==list1== list2,“==”只有成员、成员位置都相同时才返回True对于,==和!=两个操作符,如果两个列表的大小不想等,则可以直接返回False或者True的结果,无须再进行其他比较。L1 = [2, ('a', 10), 2]L2 = [2, ('a', 10)]print(L1 < L2) # Falseprint(L1 == L2) #..

2021-08-10 14:44:28 8395

原创 Python【三十五】关于arrow.get方法拿到的时间戳问题和arrow.now()

一、arrow.now()的调用问题如果将arrow.now()赋给current变量进行调用的话,current就是固定的,而不会随着当前时间的变化而变化,每次调用的时间就是初始化current的时间datetime_format = "YYYY-MM-DD HH:mm:ss"# 当前的时间current = arrow.now()print(f"current1={current.format(datetime_format)}")print(f"current1的timestamp

2021-08-06 18:17:56 2881

原创 Python【三十二】sort

参考:Python List sort()方法一、介绍1. 作用:对列表的对象进行排序,没有返回值2. sort()方法语法:list.sort(cmp=None, key=None, reverse=False)cmp -- 可选参数, 如果指定了该参数会使用该参数的方法进行排序。 key -- 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。 reverse -- 排序规则,reverse = Tr

2021-08-04 12:01:09 487

原创 Python【三十一】正则【二】分组:sre_constants.error: redefinition of group name ‘fir‘ as group 5; was group 2 at

问题:一个正则中不能包含相同的group nameunit_re = "((?P<fir>\\d+.\\d+)(市斤|斤))|((?P<fir>\\d+)(市斤|斤))"m_s = re.search(unit_re, "90KG", flags=re.IGNORECASE)if m_s is not None: print(m_s.group())sre_constants.error: redefinition of group name 'fir' as

2021-08-03 14:13:35 855

转载 【python】服务器持续在后台运行脚本

原文链接:https://blog.youkuaiyun.com/AXIMI/article/details/105740502实现目标可以在服务器上跑一个脚本,后台执行,且本地退出SSH会话后,该程序要一直执行实现方式使用nohup运行该脚本nohup python /path/to/python/file.py &执行完上面的命令后按任意键退回到shell回到shell之后不能直接关闭自己的终端,必须输入exit来退出SSH才能保证该脚本会...

2021-07-29 10:13:54 821

转载 neo4j启动时,日志报错:Address xx.xx.xx.xxx:7687 is already in use, cannot bind to it.

总结:neo4j.conf中bolt监听地址由阿里云服务器的“公网ip”改为“内网ip”或0.0.0.0背景:接阿里对阿里云服务器进行升级的通知,对阿里云服务器进行迁移。在重启neo4j时,无论是使用默认7687端口,还是随意改一个提前验证绝对不曾使用的端口,均报错如下:问题有两个:无论什么端口,均报被占用。 日志显示的时间既不是系统时间,也不是硬件时间首先针对“时间”问题,做如下操作,但并没有成功同步其系统时间(24小时制)和硬件时间(12小时制):问题一:如何修改硬件时.

2021-07-26 16:02:24 1087

原创 获取一个月中第几个周的第几天的具体日期

数据 /** * 节日是某月的第几个星期几 * 例如:0637 父亲节 06是6月,3是第三个星期, 7是星期日。0351其中1是星期一 * 注意:如果是最后一个星期天,表示为-17,-1是星期数,7是星期日 */ private static String[] wFtv = new String[]{ "黑人节 0117", "世界麻风日 01-17", "日本成人节 01

2021-06-25 15:32:20 983

转载 程序员不可不知的几个搜索技巧【浏览器】

在今天,用户可以通过搜索引擎轻松找出自己想要的信息,但还是难以避免结果不尽如人意的情况。实际上,用户仅需掌握几个常用技巧即可轻松化解这种尴尬。下面介绍 8 个在进行 Google 搜索时可以使用的便捷技巧,其他搜索引擎也支持这 8种技巧。1. 精准搜索最简单、有效的准确搜索方式是在关键词上加上双引号,在这种情况下,搜索引擎只会反馈和关键词完全吻合的搜索结果。在不加双引号的情况下,有的时候, 两个词中间加一个空格, 它会分别搜索两个词, 可能返回的结果不是我们想要的结果.准确搜索在排除常见但相

2021-06-17 17:14:54 818

原创 GitHub【一】如何在github中找想要的开源项目、如何看开源项目

1. 认识项目其中【Spring-Boot-In-Action】是开源项目名 About里面是项目的简要描述 中间的项目的源码。文件夹后的日期是项目的更新日期 README.md是MARKDOWN形式的项目的详细情况 watch:会持续收到该项目的动态 fork,复制某个项目到自己的Github仓库中 star,可以理解为点赞 clone,将项目下载至本地 follow,关注你感兴趣的作者,会收到他们的动态 2. 项目的火热程度标准

2021-06-17 17:04:20 5077 5

原创 java正则【五】Java String.ReplaceAll的例子

将其中一行只有一个的数据的后面变成"1早 2 " 变成

2021-06-17 15:00:25 108

转载 java正则【四】Java String.ReplaceAll捕获组用法(正则表达式捕获组及命名捕获组)

一、基础说明public String replaceAll(String regex, String replacement) 使用replacement替换字符串中和regex匹配的所有子串,regex为正则表达式,源码: /** * @since 1.4 * @spec JSR-51 */ public String replaceAll(String regex, String replacement) { return Pattern...

2021-06-17 14:32:18 945

转载 2021-06-10#NLP入门# 良心整理,NLP入门路线和学习资料,一周上手!

[导读]一文帮你快速入门NLP,并准备了干货满满的资料,相关资料持续更新,也欢迎通过微信公众号联系小编,一起维护内容更新。I . 必备技能python基础 基础数学知识 - 线性代数、矩阵论、概率论与数理统计、信息论 基本的文献搜集、英文文献阅读能力 基本的数据结构、算法知识、敲代码的能力 最重要的:态度、坚持和计划II. 入门建议对于初学者,一定要阅读Python代码规范,每一次敲代码严格按照规范来执行,例如变量命名、必要注释、函数传参等。不要一时偷懒,否则未来纠错成本、调bug..

2021-06-10 11:08:45 270

转载 一站整合:自然语言处理 数据集下载网站

中文数据集下载中文语言理解测评基准: https://www.cluebenchmarks.com/dataSet_search.html 阿里天池数据集:https://tianchi.aliyun.com/dataset/ 飞浆数据集:https://aistudio.baidu.com/aistudio/datasetoverview FlyAI:https://www.flyai.com/c/nlp (数据导出有点麻烦) github: https://github.com/英文数据集

2021-06-10 11:04:59 613

转载 AVA版农历和阳历相互转换源码(转)

package test; public class TestNongLi { public static void main(String[] args) { // 调用农历日期转换阳历日期方法 System.out.println(ChineseCalendar.sCalendarLundarToSolar(2008, 1, 1)); } } // 自定义日历类 class ChineseCalendar { // Array lIntLunarDa.

2021-06-02 14:08:18 653

转载 java static不能_JAVA种this和static 不能公用

static表示“全局”或者“静态”的意思,用来修饰成员变量和成员方法,也可以形成静态static代码块,但是Java语言中没有全局变量的概念。被static修饰的成员变量和成员方法独立于该类的任何对象。也就是说,它不依赖类特定的实例,被类的所有实例共享。只要这个类被加载,Java虚拟机就能根据类名在运行时数据区的方法区内定找到他们。因此,static对象可以在它的任何对象创建之前访问,无需引用任何对象。用public修饰的static成员变量和成员方法本质是全局变量和全局方法,当声明它类的对象

2021-05-28 09:42:52 356

转载 java基础【二十六】Java中六大时间类的使用和区别

Java中六大时间类的使用和区别关于java中六个时间类的使用和区别java.util.Datejava.sql.Date java.sql.Time java.sql.Timestampjava.text.SimpleDateFormatjava.util.Calendarjava.util.Date日期格式为:年月日时分秒java.sql.Date日期格式为:年月日java.sql.Time日期格式为:时分秒java.sql.Timestamp日期格式为:年月日时分...

2021-05-27 16:45:17 146

转载 Java 8 Stream 的终极技巧——Collectors 操作

1. 前言昨天在Collection移除元素操作相关的文章中提到了Collectors。相信很多同学对这个比较感兴趣,那我们今天就来研究一下Collectors。2. Collectors 的作用Collectors是Java 8加入的操作类,位于java.util.stream包下。它会根据不同的策略将元素收集归纳起来,比如最简单常用的是将元素装入Map、Set、List等可变容器中。特别对于Java 8 Stream Api来说非常有用。它提供了collect()...

2021-05-26 15:57:05 473

转载 如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解)

如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解)转载:https://www.cnblogs.com/zlslch/p/8564879.html    不多说,直接上干货!  本文以2.6.36为例  https://github.com/knightliao/disconf  假设,我这放在D:\Code\IntelliJIDEAUltimateCode\work...

2021-04-30 14:14:04 5107

原创 Scala:for (entry <- JSONObject.entrySet)报错:Cannot resolve symbo foreach

scala代码中有一个json,解析后想便利它的entry所以写了个for: val bloodPressure = "{\"日期\":Any,\"时间\": Any,\"高血压\":-1,\"低血压\":-1,\"脉搏\":-1}" val bpJson:JSONObject = JSON.parseObject(bloodPressure) for(entry <- bpJson.entrySet()){ }但是一直报错。如下原因:.

2021-04-20 11:53:10 837

转载 java -cp 和 java -jar 的区别

一、java -cpjava -cp 和 -classpath 一样,是指定类运行所依赖其他类的路径,通常是类库、jar 包之类,需要全路径到 jar 包,多个依赖在Window 上用分号";"隔开。 linux上是分号“:”分隔。不支持通配符,需要列出所有jar包,用一点“.”代表当前路径格式:java -cp .;myClass.jar packname.mainclassname表达式支持通配符,例如:java -cp .;c:\classes01\myClass.jar

2021-04-19 09:58:50 428

转载 CentOS出现连接被拒--ssh:connect to host centos-py port 22: Connection refused

一、问题现象: 错误提示如下:CentOS出现连接被拒--ssh:connect to host centos-py port 22: Connection refused二、问题原因:我在配置ssh免登录时候出现该问题,其错误原因主要有以下几种:1)SSH服务未安装 此时,采用在线安装的方式就行下载安装。命令为: yum -y install openssh-server; 然后启动ssh服务: service sshd start。2...

2021-04-15 18:46:45 4480

原创 java基础【十二】外存、内存、CPU、缓存

一、原理(一)外存 除计算机内存、cpu、缓存意外的存储器。比如:CDEF盘。硬盘、软盘、光盘、U盘 一般的软件都是安装在外存中 此类储存器一般断电后仍然能保存数(二)内存 内存作为与CPU直接进行沟通的部件 计算机所有程序的运行都是在内存中进行,因此内存的性能对计算机的影响非常大 作用是暂时存放CPU的运算数据、以及与硬盘交换的数据。也是相当于CPU与硬盘沟通的桥梁 内存(Memory)也被称为内存储器,其...

2021-04-14 13:30:34 1583

转载 字符串String类、字符串缓冲区StringBuffer和StringBuilder、及常用方法

1字符串String类1.1String概述字符串是一个对象,不是基础数据类型(八大基础数据类型:byte、int、short、long;float、double、char、boolean)。字符串一旦被初始化,就不可以被改变,存放于方法区的常量池中。String类重写了Object类的equals()方法,用来判断字符串的内容是否相同。字符串String类代码实例:class StringDemo{ public static void main(String[] a...

2021-04-14 10:42:24 766

转载 数据清洗【一】中文文本预处理

一、文本数据准备 使用已经有的语料库,按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程,所以先使用句子,最后再整合。二、去除指定无用的符号  我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号,如果保留这些符号,在分词的时候这些符号也会被分出来,就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号: 1. 去除空格contents = ' 大家好, 欢迎一起来学习文本的空格...

2021-04-14 09:29:40 13983 1

原创 Error:java: Compilation failed: internal java compiler error

问题: 对于程序进行Recompile的时候发生了问题: settings>Build,Execution,Deployment>Complier>Java Compiler编译器的版本,就是生成class文件的jdk版本原因:解决将Project bytecode version的版本改为8【我本身这个项目的jdk就是1.8的】...

2021-04-13 23:15:26 153

原创 IDEA的maven的plugins红线问题

在导入项目后,发现我的Maven下的Plugins有红线第一步:检查Maven仓库的位置然后我就去这个仓库位置下看D:\Program Files (x86)\bigdata software\package\apache-maven-3.5.4\repository\org\apache\maven\plugins然后发现画红线的没有下载下来maven-enforcer-plugin里面是:其中maven-resources-plugin是:解决..

2021-04-13 17:43:38 257

转载 IDEA汉化问题

汉化后idea无法打开设置选项有两个办法:一、删除在idea安装目录下lib文件夹中resources_cn文件,打开后将会回到英文解决问题二、使用压缩包打开resources_cn文件在将其messages文件夹内的①IdeBundle.properties(系统设置(setting)外观选项加载不出来)②VcsBundle.properties(系统设置(setting)打不开)③UIBundle.properties(定位按钮找不到)删除三个文件然后退出重开就可以解...

2021-04-13 17:24:09 1710

转载 【java基础】String的getBytes()方法 以及 new String()

在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这表示在不同的操作系统下,返回的东西不一样!String.getBytes(Stringdecode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示,如:byte[] b_gbk = "中".getBytes("GBK");byte[] b_utf8 = "中".getBytes("UTF-8");byte[] b_iso88591 = "中".getBytes("I.

2021-04-12 14:39:23 1304

原创 java的char类型

一、Char介绍字符型数据类型。用于存放单个字符。用单引号【' '】括住2字节,16位。char在java中是16位,因为java用的是Unicode。一个16位的编码所能产生的字符只有65536个。Unicode码包括ASCII码。大多数计算机采用ASCII(美国标准信息交换码),它是表示所有大小写字母、数字、标点符号和控制字符的8位编码表。从'\u0000'到'\u007F'对应128个ASCII字符。二、char赋值1. 概述因为char是16位的,采取的Unicode的编码

2021-04-10 23:16:54 46838 10

转载 double和Double的区别

一、区别1. double是基本数据类型,Double是原始数据类型5. double没有方法,Double有自己的属性和方法3. double只创建引用,Double创建对象4. 集合类不能存放double,只能存放Double5. double存放在栈中,Double存放在堆中 栈的存取速度要高于堆,另外栈中的数据可以共享double不会创建对象,只会建立两个引用,同时指向变量“0”(栈数据共享)doublea=0;doubleb=0;...

2021-04-10 18:24:16 7188

原创 算法题【三】滑动窗口最大和(java实现)

问题:代码:import java.util.Scanner;import static java.lang.Math.max;public class SlideWindowMax { public static void main(String[] args) { int[] arr = {10, 20, 30, 15, 23, 12}; int x = SlideWindowMax(6, arr, 3); System.e

2021-03-18 01:47:48 1201

原创 算法题【二】最长连续子序列(java实现)

问题:代码:import java.lang.reflect.Array;import java.util.Arrays;import java.util.List;import static java.lang.Math.max;public class SequenceLength { public static void main(String[] args) { int leng = continuitySeq(10, "6,7,1,2,3,4,6,

2021-03-17 22:51:50 886

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除