- 博客(24)
- 资源 (5)
- 收藏
- 关注
原创 常用的在线翻译工具及实例对比初探
1. 有道翻译有道是上学和工作以来最常用的翻译工具了,其主打免费、即时的多语种在线翻译,翻译效果也确实不错。在线翻译_有道 (youdao.com)2. 百度翻译百度的用户数自不必多说,因此它带有自己的翻译工具也是正常的,翻译效果诸君自己尝试。百度翻译-200种语言互译、沟通全世界! (baidu.com)3. 谷歌翻译谷歌翻译也是非常常用的在线翻译工具,本人是在上学时翻译论文时用到的,效果也还可以。Google 翻译4. 腾讯翻译君其主打全新人工智能翻译,可以尝试.
2022-03-21 10:57:36
1233
原创 如何将中文文档语料训练成词向量
准备需要训练的原始语料在这里,我们采用docx文档作为原始语料:如图所示,这些文档是我用到的语料。将语料转换为txt文件格式代码如下:import osimport docxdef docx_to_txt(): # 打开文件 files = os.listdir('./corpus') with open('corpus.txt', 'w+', encoding='utf-8') as f: for file_name in file
2020-12-22 21:33:47
2440
7
原创 分享一个用python实现将pdf转txt的代码
问题背景:有时候需要用到pdf文件中的信息,但是pdf不易编辑,格式有局限性,需要转成txt这样的格式。目标:将给定pdf文件中的文本信息(暂时不考虑表格、图片等)抽取出来,写入txt文件中。主要工具:python的pdfminer3k库(pdfminer的python3端口,pdfminer是一个用于从文档中提取信息的工具)代码:import importlibimport sysimport timefrom pdfminer.pdfparser import P
2020-05-30 16:16:34
6091
4
原创 java中如何将json字符串解析成json对象
最近在java开发中遇到了将json字符串解析成json对象的问题,经多次尝试后找到了与自己java版本匹配的相应方法。目标:将给定的json字符串解析为相应的json对象。环境:java8代码:String jsonString = "{name:'zzd',age:'20',sex:'male',haha:'ab'}";JsonObject json = JsonParser.parseString(jsonString).getAsJsonObject();System.
2020-05-25 10:33:40
1608
原创 neo4j安装后如何启动及algo包的配置
以windows为例:1. 将neo4j的安装目录“.../bin”添加到系统变量。(如果不添加的话,则需要每次切换到相应的bin目录下,然后启动neo4j)2. 打开cmd或Anaconda Prompt,输入命令:neo4j.bat console,即可启动。(linux下命令为:./neo4j console)3. 也可将neo4j注册成服务,输入命令:neo4j install-service。4. 开启neo4j服务:neo4j start 停止neo4j服务:neo4j..
2020-05-18 15:56:47
1890
原创 python实现将excel / csv数据导入neo4j
问题场景:neo4j是学习知识图谱很好用的一个工具,在手动构建知识图谱时,可以通过python代码来实现读取excel或csv数据,并将数据导入neo4j库中。数据示例:代码示例:# -*- coding: utf-8 -*-from py2neo import Graph, Node, Relationship, NodeMatcherimport pandas as ...
2020-03-24 19:47:18
7869
4
原创 python实现将多个文件内容合并到一个文件
问题场景:有时候需要将数十个甚至上百个txt或其他格式的文件内容合并到一起,如果一个个复制粘贴显然太费功夫,因此可以用代码实现文件内容的合并。代码示例:import osimport linecachedef combine_file(): # 读取指定路径下的所有文件并放入到列表中 root = input('please input the dir:')...
2020-03-16 15:51:39
13616
9
原创 如何将flv格式的视频转换为mp4格式
flv格式到mp4格式的转换有多种方法,在这跟大家分享其中一种,就是利用ffmpeg这一开源工具。以windows 10系统为例,步骤如下:一、下载ffmpeg下载的地址为:https://ffmpeg.zeranoe.com/builds/二、解压缩将下载后的压缩包,解压在自定义的路径下三、新建bat文件在解压后的bin文件夹下,新建文本文件,内容为“cmd”,将文件...
2019-12-29 13:56:00
852
1
原创 分享一个生成包含n行自定义时间字段的文件的python代码
目的:生成包含自定义时间,如:2019/12/14 12:15 这样的字段。方法:主要是采用python的random模块生成随机数,加上字符串拼接的方法,用循环语句生成多行文件。代码示例:# coding:utf-8import randomf = open('自定义时间.csv','w')for i in range(1000): f.write('201...
2019-12-14 12:52:52
150
原创 如何在Excel中选中任意矩形区域
不知道是不是有小伙伴在使用Excel时也遇到过不知道怎么选定某一区域这一问题,因为如果是小区域,直接按住鼠标左键拖动就可以了,但如果要选择的区域较大,比如有几千上万行列的话,拖动时很可能手一滑就得重新来,因此在这跟大家分享一下如何快速选择任意指定区域。一、打开Excel,新建一个工作表。二、确定起始和中止单元格。如图,我们选取A4单元格为起点,K23单元格为终点。在实际中,区...
2019-11-26 15:59:21
4214
原创 一个简单的切分数据集的python代码
数据集:一个中文的酒店评论数据集(一万多条数据,正负向情感标注)任务:切分为训练和发展集数据集示例:代码:import osimport pandas as pdfrom sklearn.utils import shuffleif __name__ == '__main__': path = "temp/" pd_all = pd.read_csv...
2019-11-21 17:14:01
1742
原创 推荐两款自己常用的Python代码编辑器
一、Notepad++严格来说,Notepad++是一款文本编辑器,但用的多了,就也习惯拿来查看和编写python代码了。其界面很简洁清晰,显示文本或代码时很一目了然。不足之处是在编写python代码时,不会给出错误提示,也无法直接编译运行。二、PyCharmPyCharm 是一款专业的IDE工具,功能强大。其编写代码非常方便,不仅会提示补全之前输过的代码词,还能自动缩进...
2019-10-28 10:37:44
1138
原创 如何在WPS 2019中将图片背景设置为透明
首先,找一些背景色相对比较单一的图片,格式为jpg或png都可以。如下所示,为网上找的一张汽车图片:然后,用wps 2019新建word文档,打开,在“插入”选项卡下选择“图片”菜单下的“本地图片”,将所找的图片插入word文档。然后在“图片工具”选项卡中,选择“抠除背景”菜单下的“智能抠除背景”。在左下角有操作提示,根据操作提示,只需选择采样点,并拉动右下角的抠除程...
2019-10-18 16:28:34
9646
原创 一些github项目分享
NLP刘知远的NLP研究入门之道:https://github.com/zibuyu/research_tao自然语言处理进展跟踪:https://github.com/sebastianruder/NLP-progress影评情感分析(LSTM+attention):https://github.com/bingshen/kaggle_emotion_classify信息抽取:...
2019-09-30 17:22:49
292
原创 python实现中文的繁简转换
我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/安装命令:p...
2019-09-26 10:39:28
4398
4
原创 如何读取csv文件并将其转化为tsv文件
csv:逗号分隔符文件tsv:制表分隔符文件二者本质上都属于类文本文件,一般用excel和文本编辑器均可打开。如果是在程序中读取,并进行相互转化,可以用pandas这个python库。以下给出一个代码示例:csv-tsv.pyimport pandas as pdfrom sklearn.utils import shuffle # 用于数据的随机排列,也可不用...
2019-09-17 15:05:48
7612
2
原创 介绍一个获取金融相关数据的包Tushare
朋友想做一个金融方面的知识图谱,搜索了半天,发现有一个工具可以获取大量金融数据-Tushare。它的使用对象有多种,如量化投资分析师(Quant)、对金融市场进行大数据分析的企业和个人、开发以证券为基础的金融类产品和解决方案的公司、正在学习利用python进行数据分析的人。但Tushare不是普通炒股者用的软件,而是为那些有兴趣做股票期货数据分析的人提供pandas矩阵数据的工具,至于能不能用来炒...
2019-09-16 19:29:25
248
原创 bert模型代码运行文档
#1. 了解Bert是什么,找到原始文章和源码 BERT,全称是Bidirectional Encoder Representations from Transformers,是一种预训练语言表示的新方法。 Bert是2018年由Google AI团队开源的NLP模型,引起业内巨大反响,因为其在多项NLP任务上均超过当前的state-of-the-art。 Bert的原始论文为《BE...
2019-08-27 19:14:32
1208
原创 使用python中wordcloud模块生成词云图
词云图直观形象、清晰明了,可以展示很多信息。1. 安装wordcloud模块pip install wordcloud2. 下载相关代码资源包并解压wget http://github.com/amueller/word_cloud/archive/master.zipunzip master.ziprm master.zipcd word_...
2019-08-17 17:49:59
1034
原创 参考文献的快速引用
我们在写论文或报告时,需要引用参考文献,那么由于参考文献有固定的格式,如果单靠手动输入确实过于麻烦,因此我们可以直接选择理好格式的参考文献引用。1. 知网中引用在知网中搜索到所需的文献,选择“导出参考文献”,如下图所示:选择要导出的参考文献格式,常用的是GB/T 7714-2015,如下图所示,选择“导出”。2. 谷歌学术中引用在谷歌学术中搜索所需文献,如下图所示:...
2019-08-08 20:55:11
5348
原创 Windows下如何打开CSV文件
Windows下如何打开CSV文件CSV文件,即逗号分隔符文件,是一种存储文本数据的常用文件形式。使用Microsoft Excel打开微软的Excel是我们常用的办公软件之一,它可以用来打开CSV文件。如下图所示:可以看到,用Excel打开的CSV文件,有较好的视觉体验,内容分明,但其隐藏了文本中的逗号。使用Notepad++打开Notepad++是一种非常好用的文本编辑器,它也可以...
2019-08-01 16:43:11
3495
原创 windows下如何创建bat文件
bat文件是dos下的批处理文件,它将多个命令汇集在一个文件中,双击该文件或者在dos下输入文件名,即可执行其中命令,对一些重复性的、难以记忆的命令来说,bat文件是一个很方便的选择。1. 桌面右击,选择“新建”——“文本文档。2. 用Notepad++打开,输入所需执行的命令,选择“文件”——“另存为”,将保存类型设置为“Batch file",即可成功创建后缀名为.bat的文件。...
2019-07-19 20:25:23
14487
原创 windows下如何将python添加到Path环境变量
我们以windows 10系统为例。1. 首先选中桌面“此电脑”图标,单击鼠标右键,在弹出快捷菜单中选择“属性”打开如下所示对话框。2. 在对话框左边栏中,单击“高级系统设置”,接着在弹出窗口中,选择“高级”选项卡,然后单击“环境变量”按钮,找到“Path"。3. 单击“编辑”按钮,在弹出对话框中选择“新建”按钮,添加python路径即可。注:最好将Python 安...
2019-07-16 20:33:34
23925
4
Coling2016.pdf
2019-09-30
twitter预处理和bert分类代码.rar
2019-08-27
data4000.tsv
2019-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人