用java库 HTMLParser提取网页中内容,内容如下:
发布网友
发布时间:2022-05-16 19:48
我来回答
共2个回答
热心网友
时间:2023-09-18 06:23
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class GetHtml {
/***********************
* 抓取其他网站数据显示*
***********************/
public static void main(String[] args) {
System.out.println(sendPost("http://www.baidu.com"));
}
public static String sendPost(String url) {
String result = "";
try {
URL httpurl = new URL(url);
HttpURLConnection httpConn = (HttpURLConnection) httpurl
.openConnection();
httpConn.setDoInput(true);
BufferedReader in = new BufferedReader(new InputStreamReader(
httpConn.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
}
in.close();
} catch (Exception e) {
e.printStackTrace();
System.out.println("没有结果!" + e);
}
return result;
}
}
热心网友
时间:2023-09-18 06:23
请把你抽取的方法法我看看好吗,742789857@qq.com,在线等
求帮忙制作一个JAVA HTMLParser Extractor解析器类 从HTML中提取所需要...
正则表达式:<title>《(?<bookName>[\w\W]+?)》[\w\W]+?作 者[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green">(?<作者>[\w\W]+?)</a> 主编</div>[\w\W]+?出 版 社[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green"> ...
如何使用Java抓取网页上指定部分的内容
1. 你可以选择用Java代码来找到整个网页的html代码,如下(注意在处理网页方面的内容时,需要导入htmlparser包来支持)import org.htmlparser.util.ParserException;import org.htmlparser.visitors.HtmlPage;import org.htmlparser.Parser;import org.htmlparser.filters.HasAttributeFilter;import org.htmlparser.util.NodeList;...
java使用htmlparser抓取网页信息,中文字符显示为“??”,如何解决?
建议采用jsoup来抓取和解析文件。jsoup支持css选择器。下面是一个简单的例子:Document doc = Jsoup.parse(in/*文件流*/, charset/*字符集*/, service/*相对地址*/);Element e = doc.select("div[id=myid]").get(0);// 用选择器选择元素List<Node> childs = new LinkedList<Node>(e.childNo...
请教如何使用java从html内容中提取指定信息
File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "IP");看看这个代码,调用 doc.text() 方法即可。
求JAVA读取html文件table里面的内容!
//获取html转换成String String s; String AllContent=""; while((s=br.readLine())!=null) { AllContent=AllContent+s; } //使用后HTML Parser 控件 Parser myParser; NodeList nodeList = null; myParser =Parser.createParser(AllContent, "utf-8"); Node...
使用java怎么读取html文件内容
1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。jsoup的主要功能如下:从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器来查找、取出数据;可操作...
如何抓取一个网址下的所有页面链接 ?
在Java中,使用HttpURLConnection即可连接URL,随后可以使用InputStreamReader获取网页内容文本。然后,使用正则表达式解析网页内容文本,找到所有的<a>标签即实现需求。以下是详细代码:import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.HttpURL...
htmlparser简介
HTMLParser是一个纯粹的Java编写的HTML解析库,它无需依赖任何额外的Java库文件,主要应用于HTML的改造或提取。它能够以极高的速度解析HTML,且性能稳定,无错误发生。当前,HTMLParser的最新版本为2.0。毫不夸张的说,HTMLParser目前是最佳的HTML解析和分析工具。无论是想要抓取网页数据,还是需要对HTML...
怎样用java代码提取嵌在<body><table><tr><fontsize=5>中间的文本_百度...
用java的意思是把这段html代码传到了后台处理?那么你可以分析中间文本存在的规律啊,如果是固定格式那么可以substring固定的位数 可以给fontsize定义一个id然后java里找到这个id在字符串中的index+1,然后substring截取到它后面的</font>
htmlparserhtmlparser常用代码
取得一段HTML代码里面所有的链接的C#版本,类似Java版本的操作如下:定义HTML代码字符串:string htmlcode = "" + ... + "";创建Parser对象并解析HTML代码:Parser parser = Parser.CreateParser(htmlcode, "GBK");HtmlPage page = new HtmlPage(parser);尝试访问所有节点:try { parser.VisitAllNo...