怎么做抓取网页全部链接?

发布网友发布时间：2022-05-01 07:34

共5个回答

热心网友时间：2022-06-26 04:14

简单点：抓取http://www.baidu.com/index.html的所有超链接！

protected void Page_Load(object sender, EventArgs e)
{

WebClient mywebclient2 = new WebClient();
mywebclient2.Credentials = CredentialCache.DefaultCredentials;

int i = 0;
try
{
byte[] mybyte = mywebclient2.DownloadData("http://www.baidu.com/index.html");
string mystring = Encoding.Default.GetString(mybyte );
Regex re2 = new Regex(@"href=""(?<url>[\s\S]*?)""|href='(?<url>[\s\S]*?)'");
MatchCollection mc = re2.Matches(mystring );
foreach (Match m2 in mc)
{
i++;
Response.Write("这是抓取首页的第"+i+"条数据！<br/<br/>");
Response.Write(m2.Groups["url"].ToString()+"<br/><br/>");
}
}

catch
{
throw;
}
}
你试试看这个正则表达式；<a\shref=(?<url>[\s\S]*?)</a>
你如果有兴趣！可以学习学习正则表达式！

热心网友时间：2022-06-26 04:15

可以百度，lmcjl在线工具，里面就有一个全站链接抓取的工具。很多人都在用。

热心网友时间：2022-06-26 04:15

先抓下来,然后用正则取出来.

热心网友时间：2022-06-26 04:16

呵呵,楼上兄弟够狠,等会我给你写个.

热心网友时间：2022-06-26 04:16

10元