用java库 HTMLParser提取网页中内容,内容如下:

发布网友发布时间：2022-05-16 19:48

共2个回答

热心网友时间：2023-09-18 06:23

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class GetHtml {
/***********************
* 抓取其他网站数据显示*
***********************/

public static void main(String[] args) {
System.out.println(sendPost("http://www.baidu.com"));
}

public static String sendPost(String url) {
String result = "";
try {
URL httpurl = new URL(url);
HttpURLConnection httpConn = (HttpURLConnection) httpurl
.openConnection();
httpConn.setDoInput(true);
BufferedReader in = new BufferedReader(new InputStreamReader(
httpConn.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
}
in.close();
} catch (Exception e) {
e.printStackTrace();
System.out.println("没有结果！" + e);
}
return result;
}

}

热心网友时间：2023-09-18 06:23

请把你抽取的方法法我看看好吗，742789857@qq.com,在线等

求帮忙制作一个JAVA HTMLParser Extractor解析器类从HTML中提取所需要...

正则表达式：<title>《(?<bookName>[\w\W]+?)》[\w\W]+?作者[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green">(?<作者>[\w\W]+?)</a> 主编</div>[\w\W]+?出版社[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green"> ...

如何使用Java抓取网页上指定部分的内容

1. 你可以选择用Java代码来找到整个网页的html代码,如下(注意在处理网页方面的内容时,需要导入htmlparser包来支持)import org.htmlparser.util.ParserException;import org.htmlparser.visitors.HtmlPage;import org.htmlparser.Parser;import org.htmlparser.filters.HasAttributeFilter;import org.htmlparser.util.NodeList;...

java使用htmlparser抓取网页信息,中文字符显示为“??”,如何解决?

建议采用jsoup来抓取和解析文件。jsoup支持css选择器。下面是一个简单的例子：Document doc = Jsoup.parse(in/*文件流*/, charset/*字符集*/, service/*相对地址*/);Element e = doc.select("div[id=myid]").get(0);// 用选择器选择元素List<Node> childs = new LinkedList<Node>(e.childNo...

请教如何使用java从html内容中提取指定信息

File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "IP");看看这个代码，调用 doc.text() 方法即可。

求JAVA读取html文件table里面的内容!

//获取html转换成String String s; String AllContent=""; while((s=br.readLine())!=null) { AllContent=AllContent+s; } //使用后HTML Parser 控件 Parser myParser; NodeList nodeList = null; myParser =Parser.createParser(AllContent, "utf-8"); Node...

使用java怎么读取html文件内容

1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。jsoup的主要功能如下：从一个URL，文件或字符串中解析HTML；使用DOM或CSS选择器来查找、取出数据；可操作...

如何抓取一个网址下的所有页面链接 ?

在Java中，使用HttpURLConnection即可连接URL，随后可以使用InputStreamReader获取网页内容文本。然后，使用正则表达式解析网页内容文本，找到所有的<a>标签即实现需求。以下是详细代码：import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.HttpURL...

htmlparser简介

HTMLParser是一个纯粹的Java编写的HTML解析库，它无需依赖任何额外的Java库文件，主要应用于HTML的改造或提取。它能够以极高的速度解析HTML，且性能稳定，无错误发生。当前，HTMLParser的最新版本为2.0。毫不夸张的说，HTMLParser目前是最佳的HTML解析和分析工具。无论是想要抓取网页数据，还是需要对HTML...

怎样用java代码提取嵌在<body><table><tr><fontsize=5>中间的文本_百度...

用java的意思是把这段html代码传到了后台处理？那么你可以分析中间文本存在的规律啊，如果是固定格式那么可以substring固定的位数可以给fontsize定义一个id然后java里找到这个id在字符串中的index+1，然后substring截取到它后面的</font>

htmlparserhtmlparser常用代码

取得一段HTML代码里面所有的链接的C#版本，类似Java版本的操作如下：定义HTML代码字符串：string htmlcode = "" + ... + "";创建Parser对象并解析HTML代码：Parser parser = Parser.CreateParser(htmlcode, "GBK");HtmlPage page = new HtmlPage(parser);尝试访问所有节点：try { parser.VisitAllNo...

java如何开发网页如何用java做一个网站 java可以做网页吗 java编写网页 java可以开发网页吗 java字符串提取 java正则提取数字 java字符串地理位置信息提取 java正则提取特定字符串