
java
HFUT_qianyang
刘老师指示:学如逆水行舟,不进则退;心似平原跑马,易放难收。不能放松,继续!
展开
-
利用Java调用openSMILE批量处理音频文件
文章目录处理单条数据批量处理本文作者:合肥工业大学 管理学院 qianyang; 内容可能有不到之处,欢迎交流。处理单条数据最近,在使用openSMILE处理音频数据。关于openSMILE能够提取的音频特征,可以参考下面这篇博客:https://www.cnblogs.com/liaohuiqiang/p/10161033.html如下为我需要处理音频文件所放的目录位置:这里就以一个文件为例。以下为Java程序,该程序只针对某目录下面的意见文件进行操作。下面为Java操作程序:pac原创 2021-07-05 11:17:36 · 801 阅读 · 2 评论 -
Java处理音频文件wav转mp3/mp3转wav
文章目录动机Java处理动机最近,在使用opensmile提取音频的一些特征,需要使用到wav文件,而自身文件是mp3格式的,因此需要对大量的音频文件做处理。Java处理首先,使用maven下载相关的依赖jar包:<dependency> <groupId>ws.schild</groupId> <artifactId>jave-core</artifactId> <version>2.4.6</ver原创 2021-07-03 11:12:45 · 3268 阅读 · 1 评论 -
Java将字符串中的中文数字转化成阿拉伯数字或阿拉伯数字转化成中文数字
文章目录情景情景为更好的处理数据,经常需要将字符串中的中文数字转化成阿拉伯数字或阿拉伯数字转化成中文数字,以下为Java样例程序:public class Test { public static void main(String[] args) { String str = "建议以5毫克一日一次作为开始治疗剂量,常用维持剂量为5或10毫克,一日一次"; for (int i = 0; i < 10; i++) { str = str.replace("零一二三四五六七八九原创 2021-06-18 08:27:36 · 2216 阅读 · 1 评论 -
如何自动从Word表格中提取高亮(不同颜色)文本--Java实现
文章目录问题情境相关jar包Java实现程序Email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。问题情境在word中存在多个表格,每个表格会有一些使用不同颜色标注的高亮文本,那么如何利用编程语言自动的提出这些高亮文本呢?这便是本文的问题情境,针对此,我使用Java实现了这一功能。针对上面,这个表格(只匹配表格中的红色、黄色、蓝色、绿色对应的文本),Java程序的输出结果为:处理时,这里不考虑表格的表头。相关jar包使用maven可以配置相关原创 2020-10-03 09:39:12 · 3025 阅读 · 1 评论 -
Java中大规模集合快速求和计算
在做实验的过程中,有时会遇到大规模集合的求和计算。如下给出了两种求和方法:package topic;import java.util.ArrayList;import java.util.List;public class DoubleTest { public static void main(String[] args) { List<String> stringList = new ArrayList<>(); for (int i = 0; i &l原创 2020-08-14 16:21:35 · 2419 阅读 · 0 评论 -
Java指定几个标点符号(或分割)分割字符
应用背景在做Sentence-LDA处理时,需要将文本数据按照句子分割。通常分割句子(英文)需要使用句号,问号和叹号。Java案例package sentencedeal;public class Test { public static void main(String[] args) { String line = "I ordered this ? because my original battery ! cover to my. droid x2"; String[] aft原创 2020-07-17 09:09:27 · 7229 阅读 · 0 评论 -
Java中高维数组或高维矩阵构建及运算
问题背景在做实际的商务问题时,经常遇到很高维度的矩阵,针对这个问题,经常会报内存溢出。最近看到一个原创 2020-06-23 21:33:46 · 1224 阅读 · 0 评论 -
带你入门Java网络爬虫
爬虫初始记得,在本科时,因为毕业论文需要不少网络上的用户的问答数据。最开始,我并没有搞过网络爬虫,只能利用关键词搜索的方式,找到相关的数据,然后一条一条复制。你可能觉得这样很傻,但不得不承认这确实我最初的操作方式,很艰难,累的手疼。后来需要做网站系统,系统使用的是成熟的轻量级网站框架Spring MVC,当时需要将网络爬虫集成进来。Java开发的系统不太好集成Python的网络爬虫。不得已,学...原创 2019-12-06 07:15:28 · 3043 阅读 · 3 评论 -
简单的网络爬虫实现(Jsoup使用)
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。下面是我写的一个案例欢迎大家参考:package crawlerTest;import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup原创 2016-08-13 22:06:46 · 4703 阅读 · 4 评论 -
Java如何读取和操作上G文本数据
在处理文本时,经常遇到超过1g存储的数据,直接简单的读取,可能遇到java空间不足的问题,为解决此问题,可将大文本数据按照行进行切分为很多块,并将每一块存储为一个文本。然后单独去操作每一个小文本,比如,我所做的分词,便是利用此原理。所要分词的文本是几个G,所有我将这样一个大文本切割成一个一个的小文本,接着对每个小文本进行分词。public class BigDataRead { /*原创 2016-10-11 09:13:31 · 3777 阅读 · 0 评论 -
关于maven导入工程pom文件报错问题及解决
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com目录pom文件头报错pom报错一般性问题pom文件头报错1.导入maven文件,经常遇到表头出错问题。报错:Failure to transfer org.apache.maven.shared:maven-filtering:pom:1.0-beta-2 from https://repo.maven.apac原创 2016-10-22 08:51:19 · 27841 阅读 · 1 评论 -
maven配置其他源下载jar包(详细)
在eclipse或myeclipse中,经常遇到maven下载包不完全或者没有下载下来。导致maven报错,不能运行程序。针对此问题,一般都是maven使用的是apche的源,此源为国外源,下载jar包速度较慢。配置文件下载地址:http://download.youkuaiyun.com/detail/qy20115549/9671617针对此问题,可以使用中国的源进行下载jar包。以下是我在eclipse配原创 2016-11-03 08:48:28 · 3864 阅读 · 0 评论 -
Java如何将指定字符串转化为指定日期格式
传过来的字符串是什么“形状”就格式化成什么形状,就可以得到想要的日期“形状”了。package timeutil;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;public class TimeTest { public static void main(St原创 2016-10-08 14:58:51 · 22766 阅读 · 4 评论 -
Java实现数据批量导入数据库(优化速度-2种方法)
目录程序结构连接数据程序批量处理的两种方式main方法使用JDBC连接MySQL数据库进行数据插入的时候,经常会遇到数据量较大,插入数据库较慢,如何进行优化,加快导入数据库的速度,批量处理呢?以下程序提供了两种方法。程序结构连接数据程序package db;import java.sql.Connection;import java.sql.DriverManager;public c原创 2016-09-29 10:39:23 · 51526 阅读 · 4 评论 -
Java操作数据库详解
目录JDBC简介JDBC的使用数据库连接方式案例程序Statement和PreparedStatement的区别JDBC简介JDBC(Java Data Base Connectivity)即java数据库连接,是Java核心类库的一部分,提供了操作多种关系数据库提供统一访问,是一种用于执行SQL语句的Java API。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员原创 2016-09-29 10:21:27 · 5498 阅读 · 1 评论 -
如何将一个目录下的所有文件,合并成一个文件
在上一篇文章讲到(http://blog.youkuaiyun.com/qy20115549/article/details/52784986):在处理文本时,经常遇到超过1g存储的数据,直接简单的读取,可能遇到Java空间不足的问题,为解决此问题,可将大文本数据按照行进行切分为很多块,并将每一块存储为一个文本。然后单独去操作每一个小文本,比如,我所做的分词,便是利用此原理。所要分词的文本是几个G,所有我将这样原创 2016-10-11 09:20:46 · 8207 阅读 · 0 评论 -
Java如何读指定行
java操作文本时,有时会遇到只读到某一行或指定行。以下程序为读取写入操作:package buffer;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStrea原创 2016-11-08 09:03:49 · 3972 阅读 · 1 评论 -
如何将多个文本数据转化为指定数据格式[以电影数据为例](数据预处理)
数据格式目标数据格式程序局限性本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)数据格式首先,我来介绍一下数据格式。存在多个文本,每个文本,里面包含电影的id,用户的id及用户对电影的评分,及评分时间。如下面两个表:这张图为目录下的文本。一个文本表示,一部电影所有用户的评分及评分时间。 目标数据格式如下图所示,为所需要转化原创 2016-11-16 09:50:42 · 917 阅读 · 0 评论 -
maven报错Missing artifact jdk.tools:jdk.tools:jar:1.8解决方案
在eclipse中,遇到了Missing artifact jdk.tools:jdk.tools:jar:1.8。其他也没有报错,感到很奇怪。原因:tools.jar包是JDK自带的,pom.xml中以来的包隐式依赖tools.jar包,而tools.jar并未在库中,只需要将tools.jar包添加到jdk库中即可。解决方案:在pom文件中添加如下代码即可。 <dependency>原创 2016-11-02 09:42:28 · 47257 阅读 · 7 评论 -
Java分割字符split与StringTokenizer
分割字符splitStringTokenizer介绍StringTokenizer核心方法使用样例分割字符split在java中,我们经常使用split方法来分割字符,分割之后会获得一个数组,循环该数组就会得到每个元素。如下面的实例程序:package stringTokenizer;public class Test { public static void main(String[原创 2016-11-29 21:45:16 · 2083 阅读 · 0 评论 -
MapDB的使用实战[基于Java的数据库]
目录MapDB特性数据格式目标数据格式程序MapDB特性MapDB是一个内嵌的纯java的数据库,提供了并发的HashMap、TreeMap、Queue,可以基于堆外或者磁盘来存储数据。用户可以通过配置选择不同的机制来提高性能,比如可以配置多种不同的cache来减少反序列化的开销,提高读取性能;可以开启异步写引擎,使用后台线程来进行序列化和存储更新,来提高插入性能,减少rt。它支持ACID事务原创 2016-11-17 21:10:00 · 11067 阅读 · 4 评论 -
Java出现No enclosing instance of type Test is accessible. Must qualify the allocation with an enclosin
最近研究LDA源代码时,里面涉及到Comparable方法的使用。以前用过这个排序方法,现在想回顾一下。以下是程序,感觉没问题啊,结果报错了:Exception in thread "main" java.lang.Error: Unresolved compilation problem: No enclosing instance of type Test is accessible.原创 2016-11-30 21:38:44 · 7421 阅读 · 0 评论 -
args4j的使用
args4j简介args4j是一个用来配置命令行的工具。 在实际的项目中用到命令行的并不是很常见,但当真正使用到时,特别是在程序启动时配置一下参数的时候就很有用了,如果参数很多的话,一个一个解析命令行还是比较麻烦的.这时使用Args4J就相当好办了. 在本文中我们来看看Args4J的使用,当需要时能提供一个解决方案. Args4J使用一个被称为Option类的类来保存输入的参数,让后根据该类来应原创 2016-12-12 21:31:31 · 4961 阅读 · 0 评论 -
Java多层翻页网络爬虫实战(以搜房网为例)
目录分析所要爬取的数据爬虫框架modelmainutilparsedb数据库操作爬虫如何实现翻页地址拼接网络爬虫如何解决主键重复问题本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。分析所要爬取的数据在爬虫之前需要分析自己需要爬的数据。本文爬取的是所有http://esf.hf.fang.com/链接对应的房源的id,title,url。如下图所示:这原创 2016-10-24 16:00:32 · 14859 阅读 · 11 评论 -
Java多线程网络爬虫(时光网为例)
目录多线程简介多线程网络爬虫分析要爬的数据网络抓包爬虫框架modelMtimeThread主方法MtimeParse解析数据数据库操作多线程简介Java多线程实现方式主要有三种:继承Thread类、实现Runnable接口、使用ExecutorService、Callable、Future实现有返回结果的多线程。其中前两种方式线程执行完后都没有返回值,只有最后一种是带返回值的。 本原创 2016-09-24 10:22:46 · 16020 阅读 · 14 评论 -
基于java的网络爬虫框架(实现京东数据的爬取,并将插入数据库)
目录网络爬虫框架网络爬虫的逻辑顺序网络爬虫实例教学modelmainutilparsedb再看main方法爬虫效果展示网络爬虫框架写网络爬虫,一个要有一个逻辑顺序。本文主要讲解我自己经常使用的一个顺序,并且本人经常使用这个框架来写一些简单的爬虫,复杂的爬虫,也是在这个基础上添加其他程序。 首先,我的工程都是使用maven建的,不会使用maven的,请看之前写的网络爬虫基础。使用S原创 2016-08-14 11:40:08 · 77655 阅读 · 84 评论 -
Quartz实线定期运行程序(Java)
Quartz是一个大名鼎鼎的Java版开源定时调度器,功能强悍,使用方便。如下是写的一个样例程序,定时输出 hello world:package timeutil;import java.text.SimpleDateFormat; import java.util.Date; import org.quartz.Job; import org.quartz.JobExecutionCon原创 2016-10-02 15:26:44 · 2840 阅读 · 0 评论 -
网络爬虫原理
目录1网络爬虫原理2写网络爬虫的原因3网络爬虫的流程 4网络抓包 5HTTP状态码说明6Java网络爬虫需要的基础知识1、网络爬虫原理网络爬虫指按照一定的规则(模拟人工登录网页的方式),自动抓取网络上的程序。简单的说,就是讲你上网所看到页面上的内容获取下来,并进行存储。网络爬虫的爬行策略分为深度优先和广度优先。如下图是深度优先的一种遍历方式是A到B到D 到E 到C原创 2016-08-13 19:20:18 · 31922 阅读 · 15 评论 -
网络爬虫之java基础(Ⅰ)
目录1Java中maven的使用 2log4jlog4j的介绍log4j提供的几种方法使用步骤 3输入流与输出流数据的读写程序以及map的使用 这张图为我给自己研究所人讲网络爬虫的一个流程,本人也将按照这个流程来讲网络爬虫,如果你的基础较好,可以直接跳过相关流程。1、Java中maven的使用使用maven能很轻松的从网络中下载所需的插件 及依赖(下载程序所依赖的JAR包),存储原创 2016-08-13 20:22:51 · 8255 阅读 · 3 评论 -
网络爬虫之Java基础篇(Ⅱ)
目录1集合操作集合创建集合数据的添加集合的遍历1、集合操作集合创建Set集合不可以放重复数据,List可以,Map主要存放的是键值对,其中key(主键)不可以重复。 List<T> list = new ArrayList<T>(); Set<T> set = new HashSet<T>(); Map<S,T> map = new HashMap<S,T原创 2016-08-13 20:44:41 · 5028 阅读 · 2 评论 -
网络爬虫之httpclient的使用
HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 如下面程序,为我写的一个简单的httpclient的测试程序:package crawlerTest;import java.io.IOException;import org.apache.原创 2016-08-13 21:41:12 · 8625 阅读 · 11 评论 -
Stanford CoreNLP遇到的问题
Exception in thread “main” java.lang.RuntimeException: edu.stanford.nlp.io.RuntimeIOException: Error while loading a tagger model (probably missing model file) at edu.stanford.nlp.pipeline.Annotat原创 2016-12-13 21:32:37 · 7496 阅读 · 0 评论 -
网络爬虫中的Unicode码解决[实例]
unicode码爬虫中的Unicode转中文输出结果unicode码在我写爬虫的过程中,经常遇到一些网站的中文是经过Unicode转码的。在对网页进行解析时,需要将其进行转码,转为中文字符。例如,\u5317\u4eac\u767e\u5ea6\u7f51\u8baf\u79d1\u6280\u6709\u9650\u516c\u53f8对应的中文是北京百度网讯科技有限公司爬虫中的Unicode原创 2016-12-09 21:43:50 · 3818 阅读 · 0 评论 -
Jsoup解析html某片段的问题
案例问题分析解决办法案例在使用jsoup解析html中的某部分片段时,有时候会遇到解析不出字段。下面以案例进行讲解。<tr> <td class='center'> <font class='blue'> 北京 </font> </td> <td> 36175 </td> <td>原创 2016-12-10 10:38:32 · 4438 阅读 · 4 评论 -
java将数字转化为指定类型[float保留小数点确定、数字前加0]
有时候需要在数字前加0,比如说日期月份1月写成01月。 如下类便可以实现。package util;import java.math.BigDecimal;import java.text.DecimalFormat;public class UumericalUtil { public static void main(String[] args){ float num原创 2016-12-15 14:37:43 · 2591 阅读 · 0 评论 -
java实现从头部及尾部删除指定长度字符
程序运行结果程序package util;import java.math.BigDecimal;import java.text.DecimalFormat;/* * 合肥工业大学 管理学院 qianyang 1563178220@qq.com */public class UumericalUtil { public static void main(String[]原创 2016-12-15 14:49:41 · 3787 阅读 · 0 评论 -
TF-IDF的java实现(权重排序,可用来处理大数据集)
TFIDF的主要思想程序使用程序结果TFIDF的主要思想TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频原创 2017-01-07 14:09:32 · 6929 阅读 · 3 评论 -
Eclipse中JDK从1.8换到1.7程序运行报错解决
从1.8换到1.7之后的截图为:然而,直接去运行程序后,发现报错。报错内容如下:Unsupported major.minor version 52.0Exception in thread "main" java.lang.UnsupportedClassVersionError: edu/hfut/autocrawler/main/AutoHomeWhileCrawler : Unsupport原创 2017-01-14 08:56:39 · 9555 阅读 · 0 评论 -
Java中矩阵运算(math3的使用)
math3简介math3中的矩阵操作演示结果本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人允许禁止转载。下面是本文博客的另一个地址,该网站是师兄弄得一个专门做机器学习的网站,非常不错。 http://www.datalearner.com/blog/1051484459699809math3简介math3是原创 2017-01-18 20:12:03 · 32215 阅读 · 4 评论 -
Java实现词频统计(Wordcount)-Map或Hashtable的value排序
我们在文本操作时,经常需要用到词频统计,并对统计后的词频进行排序,然后输出。 以下是我写的一个供大家参考:import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;原创 2016-10-11 09:06:14 · 5238 阅读 · 0 评论