
大数据
文章平均质量分 56
君问归期魏有期
希望我们都可以独立思考,拥有强大的内心和更高的眼界。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Matlab】基本操作笔记(已完结)
网盘链接:https://pan.baidu.com/s/1ZIo0tQowuntx9roBbtb00Q提取码:1234。原创 2023-03-28 22:56:37 · 233 阅读 · 0 评论 -
【Neo4j】图数据库CypherQueryLanguage随笔
要删除的结点如果和其他结点存在关系,需先删除结点间的关系。创建姓名为猪八戒,身高230的结点,并查看创建结果。为id为6的Person类结点添加好人类结点。为id为6的好人类结点设施颜值为100的属性。创建姓名为孙悟空,年龄16岁的结点。删除姓名为孙悟空,年龄16岁的结点。查找姓名是孙悟空的结点及其id。创建孙悟空三大白骨精关系结点。也可以同时删除关系和结点。查找姓名是孙悟空的结点。原创 2023-02-26 03:40:17 · 691 阅读 · 0 评论 -
获取QQ好友列表
获取QQ好友列表原创 2022-06-05 12:32:22 · 2786 阅读 · 0 评论 -
获取Json格式的评论信息
获取评论信息的Json格式引言众所周知,某东的页面是懒加载的,不仅仅是图片,经过对某东页面的解析,发现,甚至他们的div等模块也是懒加载!那么我们用爬虫只是单纯的对他们的整个页面解析,筛选出我们想要的数据这样的爬虫模式就不是很好用了。此时我们应该使用更好的爬虫手法。我这里展示一下HttpClient的方法爬取某东评论数据。一:正文寻找url请求头随便以一个商品为例:右键-检查 打开控制台,找到network/网络:点击商品评论,找到页面相应的清秀找到这一行,查看他的请求url信息,原创 2022-04-17 14:59:01 · 1825 阅读 · 0 评论 -
HttpClient之Java爬虫工具
HttpClient之Java爬虫工具工具协议:http协议引入依赖<dependencies> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.3</version> </原创 2022-04-17 14:55:21 · 1640 阅读 · 0 评论 -
【Java】高效处理字符串中的标点符号
【Java】清洗字符串中的标点符号去除字符串中的所有标点符号string..replaceAll("[\\pP‘’“”]", "");使用示例String s1="我的宿舍:位于河南省,新乡市牧野区,建设东区46号,河南师范大学,东校区,东16号学生公寓";System.out.println(new JiebaSegmenter().sentenceProcess(s1.replaceAll("[\\pP‘’“”]", "")));清洗结果...原创 2022-04-16 18:50:17 · 4671 阅读 · 1 评论 -
【Java】jieba分词对象
结巴分词(java版) jieba-analysis引言首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词。不过由于huaban已经没有再对java版进行维护,所以我自己对项目进行了开发。除了结巴分词(java版)所保留的原项目针对搜索引擎分词的功能(cut~forindex~、cut~forsearch~),我加入了tfidf的关键词提取功能,并且实现的效原创 2022-04-16 17:46:02 · 2295 阅读 · 2 评论 -
Java中文分词【逆向最大匹配算法】
Java中文分词【逆向最大匹配法】一:正文思想:逆向最大匹配法:将整个字符串作为一个“词组”带入到词典中进行比对,若不成功,删除第一个字符,继续进行如此操作,直到成功或者只剩下最后一个字,再把结果放入一个字符串的数组中,最后删除原句中的结果,继续上面的操作。下面我将用一个例子解释这个操作:原句:河南师范大学位于河南省新乡市牧野区建设东路四十六号词典:“师范”,“河南”,“牧野”第一次代入:南师范大学位于河南省新乡市牧野区建设东路四十六号(在词典中没有该词汇,删除首字符继续比对)删除首字符:师范原创 2022-04-16 17:36:21 · 1958 阅读 · 0 评论