怎么做抓取网页全部链接?
发布网友
发布时间:2022-05-01 07:34
我来回答
共5个回答
热心网友
时间:2022-06-26 04:14
简单点:抓取http://www.baidu.com/index.html的所有超链接!
protected void Page_Load(object sender, EventArgs e)
{
WebClient mywebclient2 = new WebClient();
mywebclient2.Credentials = CredentialCache.DefaultCredentials;
int i = 0;
try
{
byte[] mybyte = mywebclient2.DownloadData("http://www.baidu.com/index.html");
string mystring = Encoding.Default.GetString(mybyte );
Regex re2 = new Regex(@"href=""(?<url>[\s\S]*?)""|href='(?<url>[\s\S]*?)'");
MatchCollection mc = re2.Matches(mystring );
foreach (Match m2 in mc)
{
i++;
Response.Write("这是抓取首页的第"+i+"条数据!<br/<br/>");
Response.Write(m2.Groups["url"].ToString()+"<br/><br/>");
}
}
catch
{
throw;
}
}
你试试看这个正则表达式;<a\shref=(?<url>[\s\S]*?)</a>
你如果有兴趣!可以学习学习正则表达式!
热心网友
时间:2022-06-26 04:15
可以百度,lmcjl在线工具,里面就有一个全站链接抓取的工具。很多人都在用。
热心网友
时间:2022-06-26 04:15
先抓下来,然后用正则取出来.
热心网友
时间:2022-06-26 04:16
呵呵,楼上 兄弟够狠,等会我给你写个.
热心网友
时间:2022-06-26 04:16
10元