
博文提取小项目
文章平均质量分 90
havedream_one
这个作者很懒,什么都没留下…
展开
-
提取博文
1、首先,制作list文件 import java.util.*; import java.io.*; import java.net.*; public class ReadFileList{ public static void main(String[] args){ try{ String s原创 2015-04-10 16:35:17 · 1120 阅读 · 0 评论 -
java的URLConnection失败
import java.util.*; import java.io.*; import java.net.*; public class Connect{ public static void main(String[] args){ try{ URLConnection co原创 2015-04-09 19:50:43 · 2391 阅读 · 0 评论 -
取出html中的符号
从上一步已经得到html页面了,那么就该去掉文件中html的标签 原始文件 我们需要保留文件中的正文而去除html标签: 用sed很easy sed -e 's/]*>//g;s/ / /g;s/<//g;s/&/&/g;s/"/"/g;' test1 |sed -e "s/ / /g;s/<//g;s/\&/\&/g;s/原创 2015-04-10 12:14:14 · 1262 阅读 · 0 评论 -
java下载保存html页面
import java.util.*; import java.io.*; import java.net.*; public class ReaderConn{ public static void main(String[] args){ try{ URLConnection conn = new原创 2015-04-09 20:38:07 · 4465 阅读 · 0 评论