c#获取网页html源码及处理中文乱码问题的方法_Asp.Net编程

c#获取网页html源码及处理中文乱码问题的方法: 发布时间：2020-11-09编辑：脚本学堂

c#如何获取网页html源代码的方法，在c#中使用webclient获取网页源码，需要处理中文乱码的问题，合理设置gb2312和utf-8编码，getcharset函数用来获取当前网页的编码格式。

c#获取网页html源码，并区分gb2312和utf-8编码，以避免出现中文乱码问题。

需求：
根据一个url地址，获取到网页的源代码。
在asp.net(c#)中，获取网页源代码貌似有很多种方法，这里实现了一个简单的webclient。

如何处理中文乱码的问题，中文的网页不外乎gb2312和utf-8这两种编码。

代码：

复制代码代码示例:

/// <summary>
/// 根据网址的URL，获取源代码HTML
/// </summary>
/// <param name="url"></param>
/// <returns></returns>
public static string GetHtmlByUrl(string url)
{
using (WebClient wc = new WebClient())
{
try
{
wc.UsedefaultCredentials = true;
wc.Proxy = new WebProxy();
wc.Proxy.Credentials = CredentialCache.DefaultCredentials;
wc.Credentials = System.Net.CredentialCache.DefaultCredentials;
byte[] bt = wc.DownloadData(url);
string txt = System.Text.Encoding.GetEncoding("GB2312").GetString(bt);
switch (GetCharset(txt).ToUpper())
{
case "UTF-8":
txt = System.Text.Encoding.UTF8.GetString(bt);
break;
case "UNICODE":
txt = System.Text.Encoding.Unicode.GetString(bt);
break;
default:
break;
}
return txt;
}
catch (Exception ex)
{
return null;
}
}
}

这里使用了WebClient创建了一个wc对象（这命名有点尴尬了）。
然后，调用wc对象的DownloadData方法，传入URL值，返回一个字节数组。
默认使用GB2312来读取这个字节数组，把它转换成字符串。
从网页源代码的字符串中查找网页的编码格式的特征字符，如找到charset="utf-8"这样的信息，来判断当前网页的编码格式。

GetCharset函数来获取当前网页的编码格式：

复制代码代码示例:

/// <summary>

/// 从HTML中获取获取charset

/// </summary>

/// <param name="html"></param>

/// <returns></returns>

public static string GetCharset(string html)

{

string charset = "";

Regex regCharset = new Regex(@"content=[""'].*s*charsetbs*=s*""?(?<charset>[^""']*)", RegexOptions.IgnoreCase);

if (regCharset.IsMatch(html))

{

 charset = regCharset.Match(html).Groups["charset"].Value;

}

if (charset.Equals(""))

{

 regCharset = new Regex(@"<s*metas*charsets*=s*[""']?(?<charset>[^""']*)", RegexOptions.IgnoreCase);

 if (regCharset.IsMatch(html))

 {

 charset = regCharset.Match(html).Groups["charset"].Value;

 }

}

return charset;

}

上一篇：C#网页拍照：c#实现网页保存成图片的代码
下一篇：c#获取网页截图的多种方式

与 c#获取网页html源码及处理中文乱码问题的方法有关的文章

本文标题：c#获取网页html源码及处理中文乱码问题的方法
本页链接：http://www.jb200.com/article/31759.html

浏览排行

栏目分类

热点文章

c#获取网页html源码及处理中文乱码问题的方法