如何构造一个C#语言的爬虫程序

C#特别适合于构造蜘蛛程序，这是因为它已经内置了HTTP访问和多线程的能力，而这两种能力对于蜘蛛程序来说都是非常关键的。下面是达内培训为大家分享的构造一个蜘蛛程序要解决的关键问题：　　 ⑴ HTML分析：需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。　　 ⑵ 页面处理：需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘，或者进一步分析处理。　　 ⑶ 多线程：只有拥有多线程能力，蜘蛛程序才能真正做到高效。　　 ⑷ 确定何时完成：不要小看这个问题，确定任务是否已经完成并不简单，尤其是在多线程环境下。　　一、HTML解析　　本文提供的HTML解析器由ParseHTML类实现，使用非常方便：首先创建该类的一个实例，然后将它的Source属性设置为要解析的HTML文档：以下是引用片段：ParseHTML parse = new ParseHTML();　　parse.Source = 'Hello World ';　　接下来就可以利用循环来检查HTML文档包含的所有文本和标记。通常，检查过程可以从一个测试Eof方法的while循环开始：以下是引用片段：while(!parse.Eof())　　{　　char ch = parse.Parse();　　Parse方法将返回HTML文档包含的字符--它返回的内容只包含那些非HTML标记的字符，如果遇到了HTML标记，Parse方法将返回0值，表示现在遇到了一个HTML标记。遇到一个标记之后，我们可以用GetTag()方法来处理它。以下是引用片段：　if(ch==0)　　{　　HTMLTag tag = parse.GetTag();　　}　　一般地，蜘蛛程序最重要的任务之一就是找出各个HREF属性，这可以借助C#的索引功能完成。例如，下面的代码将提取出HREF属性的值(如果存在的话)。以下是引用片段：Attribute href = tag['HREF'];　　string link = href.Value;　　获得Attribute对象之后，通过Attribute.Value可以得到该属性的值。　　二、处理HTML页面　　下面来看看如何处理HTML页面。首先要做的当然是下载HTML页面，这可以通过C#提供的HttpWebRequest类实现：以下是引用片段：HttpWebRequest request = (HttpWebRequest)WebRequest.Create(m_uri);　　response = request.GetResponse();　　stream = response.GetResponseStream();　　接下来我们就从request创建一个stream流。在执行其他处理之前，我们要先确定该文件是二进制文件还是文本文件，不同的文件类型处理方式也不同。下面的代码确定该文件是否为二进制文件。以下是引用片段：if( !response.ContentType.ToLower().StartsWith('text/') )　　{　　SaveBinaryFile(response);　　return null;　　}　　string buffer = '',line;　　如果该文件不是文本文件，我们将它作为二进制文件读入。如果是文本文件，首先从stream创建一个StreamReader，然后将文本文件的内容一行一行加入缓冲区。以下是引用片段：reader = new StreamReader(stream);　　while( (line = reader.ReadLine())!=null )　　{　　buffer+=line+'';　　}　　装入整个文件之后，接着就要把它保存为文本文件。以下是引用片段：SaveTextFile(buffer);　　下面来看看这两类不同文件的存储方式。二进制文件的内容类型声明不以'text/'开头，蜘蛛程序直接把二进制文件保存到磁盘，不必进行额外的处理，这是因为二进制文件不包含HTML，因此也不会再有需要蜘蛛程序处理的HTML链接。下面是写入二进制文件的步骤。　　首先准备一个缓冲区临时地保存二进制文件的内容。以下是引用片段：byte []buffer = new byte[1024];　　接下来要确定文件保存到本地的路径和名称。如果要把一个myhost.com网站的内容下载到本地的c: est文件夹，二进制文件的网上路径和名称是http://myhost.com/images/logo.gif，则本地路径和名称应当是c: estimageslogo.gif。与此同时，我们还要确保c: est目录下已经创建了images子目录。这部分任务由convertFilename方法完成。以下是引用片段：　　string filename = convertFilename( response.ResponseUri );　　convertFilename方法分离HTTP地址，创建相应的目录结构。确定了输出文件的名字和路径之后就可以打开读取Web页面的输入流、写入本地文件的输出流。　　Stream outStream = File.Create( filename );　　Stream inStream = response.GetResponseStream();　　接下来就可以读取Web文件的内容并写入到本地文件，这可以通过一个循环方便地完成。以下是引用片段：　　int l;　　do　　{　　l = inStream.Read(buffer,0,　　buffer.Length);　　if(l>0)　　outStream.Write(buffer,0,l);　　} while(l>0);　　三、多线程　　我们用DocumentWorker类封装所有下载一个URL的操作。每当一个DocumentWorker的实例被创建，它就进入循环，等待下一个要处理的URL。下面是DocumentWorker的主循环：以下是引用片段：　　while(!m_spider.Quit )　　{　　m_uri = m_spider.ObtainWork();　　m_spider.SpiderDone.WorkerBegin();　　string page = GetPage();　　if(page!=null)　　ProcessPage(page);　　m_spider.SpiderDone.WorkerEnd();　　}　　这个循环将一直运行，直至Quit标记被设置成了true(当用户点击'Cancel'按钮时，Quit标记就被设置成true)。在循环之内，我们调用ObtainWork获取一个URL。ObtainWork将一直等待，直到有一个URL可用--这要由其他线程解析文档并寻找链接才能获得。Done类利用WorkerBegin和WorkerEnd方法来确定何时整个下载操作已经完成。　　从图一可以看出，蜘蛛程序允许用户自己确定要使用的线程数量。在实践中，线程的最佳数量受许多因素影响。如果你的机器性能较高，或者有两个处理器，可以设置较多的线程数量;反之，如果网络带宽、机器性能有限，设置太多的线程数量其实不一定能够提高性能。以上就是我为大家分享的有关如何构造一个C#语言的爬虫程序（一）的相关知识，如需知道更多关于这方面的知识，请关注我们。

上一篇：怎么通过Python3写一个爬虫翻译程序呢？

下一篇：广告企业网站seo优化建设经验

欧尼酱

如何构造一个C#语言的爬虫程序

球探体育APP官方如何下载

如何辨别真正的ag直营网

如何正确的开关机？

电脑如何开机、关机

如何养成正确开关机的好习惯！

电脑如何设置自动开关机？

如何设置自动开关机

如何设置电脑自动开关机？

如何查看电脑开关机时间，开关机时间记录在哪里

如何设定快速开机、关机以及在固定的时间关机

如何查看电脑开关机记录

如何查看电脑开机关机时间

win10怎么关机如何关机（四种方法）

win10怎么关机如何关机（四种方法）

iphone x如何进行开关机

如何加快开机关机速度

如何看开关机记录

开机键损坏了如何开机，怎么开机

如何加快电脑的开机和关机速度？

iphone如何开机、关机、重启和死机处理?

小孩吃益生菌的作用有哪些？

欧家宝复合型智能燃气报警器开箱首晒

氨基酸牙膏的功效与作用

3dmax中渲染会出现颜色扩散影响其他物体解决

如何保护孩子？

移动端开发需要公开的秘密

VF笔试资料总结——手写的

澎湃新闻如何找到离线阅读

怎么开启心灵密友文本消息

皮皮猪如何关闭声优审核消息通知

一甜相机怎么开启闪光灯

一甜相机app怎么打开闪光灯？

6s拍照颜色太暗怎么办

iphone边开手电筒边拍照？

拍星星相机怎么设置

oppo取消屏幕补光?

vivos12闪光灯怎么开启

相机怎么关机

怎么去掉照片中的红眼

相机中关于闪光灯、拍摄模式的一些注意事项{一}