C# 抓取网页内容的方法详解

发布时间:2021-01-14编辑:脚本学堂
为大家介绍C#抓取网页内容的方法,很全面的,包括抓取一般内容、抓取图片、抓取post数据、防止重定向、保持登录状态等。有需要的朋友,参考一下吧。

1、抓取一般内容
需要三个类:WebRequest、WebResponse、StreamReader
所需命名空间:System.Net、System.IO

核心代码:
 

复制代码 代码示例:
WebRequest request = WebRequest.Create("http://www.jb200.com/");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));

WebRequest 类的 Create 为静态方法,参数为要抓取的网页的网址;
Encoding 指定编码,Encoding 中有属性 ASCII、UTF32、UTF8 等全球通用的编码,但没有 gb2312 这个编码属性,所以我们使用 GetEncoding 获得 gb2312 编码。

例1,
 

复制代码 代码示例:

<%@ Page Language="C#" %>
<%@ Import Namespace="System.Net" %>
<%@ Import Namespace="System.IO" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<mce:script runat="server"><!--
void Page_Load(object sender, EventArgs e)
{
try
{
WebRequest request = WebRequest.Create("http://www.jb200.com/");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));

tb.Text = reader.ReadToEnd();

reader.Close();
reader.Dispose();
response.Close();
}
catch (Exception ex)
{
tb.Text = ex.Message;
}
}
// --></mce:script>
<html xmlns="http://www.w3.org/1999/xhtml" >
<head runat="server">
<title>抓取网页内容 - 脚本学堂</title>
</head>
<body>
<form id="form1" runat="server">
<div>
<asp:TextBox ID="tb" runat="server" Width="500" Height="300" TextMode="multiLine"></asp:TextBox>
</div>
</form>
</body>
</html>

2、抓取网页内容-图片
需要四个类:WebRequest、WebResponse、Stream、FileStream。

例2,
 

复制代码 代码示例:

<%@ Page Language="C#" %>
<%@ Import Namespace="System.Net" %>
<%@ Import Namespace="System.IO" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<mce:script runat="server"><!--
void Page_Load(object sender, EventArgs e)
{
try
{
WebRequest request = WebRequest.Create("http://www.jb200.com/images/logo.gif");
WebResponse response = request.GetResponse();
Stream reader = response.GetResponseStream();

FileStream writer = new FileStream("D://logo.gif", FileMode.OpenOrCreate, FileAccess.Write);
byte[] buff = new byte[512];
int c = 0; //实际读取的字节数
while ((c=reader.Read(buff, 0, buff.Length)) > 0)
{
writer.Write(buff, 0, c);
}
writer.Close();
writer.Dispose();

reader.Close();
reader.Dispose();
response.Close();

tb.Text = "保存成功!";
}
catch (Exception ex)
{
tb.Text = ex.Message;
}
}
// --></mce:script>
<html xmlns="http://www.w3.org/1999/xhtml" >
<head runat="server">
<title>抓取网页图片并保存 - 脚本学堂</title>
</head>
<body>
<form id="form1" runat="server">
<div>
<asp:TextBox ID="tb" runat="server" Width="500" Height="300" TextMode="multiLine"></asp:TextBox>
</div>
</form>
</body>
</html>

3、抓取网页内容-Post 数据