IronWebScraper
C#WebScraping库
#C#framework从html web应用程序中提取干净、
结构化的数据
#用于系统迁移、填充搜索引擎、
竞争分析和数据挖掘
强大的抓取引擎由您掌控
只需编写一个C#网络抓取分类,即可将成千上万的网页抓取到C#类实例、JSON或下载的文件中。IronWebScraper允许您编写简洁的线性工作流来模拟人类的浏览行为。 IronWebScraper会将您的代码作为大量虚拟Web浏览器运行,这些浏览器大规模并行,但上等且具有容错能力。
简单灵活的逻辑
IronWebScraper必须进行编程以知道如何处理它遇到的每种“类型”的页面。这可以使用CSS选择器或XPath表达式以非常简洁的方式实现,并且可以在C#中完全自定义。这种自由度使您可以决定在网站中抓取哪些页面,以及如何处理提取的数据。每种方法都可以在Visual Studio中调试和查看。
快速且礼貌的行为
IronWebScraper处理多线程和Web请求,以允许数百个并发线程,而开发人员无需管理它们。可以将礼貌设置为限制请求,从而降低目标Web服务器上过多负载的风险。
创建虚拟用户身份
IronWebScraper可以使用一个或多个“身份”——模拟现实世界中人类需求的会话。每个请求都可以通过编程方式或随机分配其自己的身份、用户代理、Cookie、登录名甚至IP地址。请求被设置为自动唯一,并结合了URL、解析方法和post变量。
动作回放
IronWebScraper使用高级缓存,让开发人员可以“即时”更改其代码并回放以前的每个请求,而无需联系互联网。每个抓取作业均已自动保存,并且在发生异常或断电时可以恢复。
使用Microsoft Visual Studio快速安装
IronWebScraper可以使用Visual Studio安装程序将Web抓取工具快速放入您的手中。无论是直接从Visual Studio中的Nuget进行安装还是下载DLL,您都可以立即进行设置。只有一个DLL,没有其它依赖关系。
京ICP备09015132号-996 | 网络文化经营许可证京网文[2017]4225-497号 | 违法和不良信息举报电话:4006561155
© Copyright 2000-2023 北京哲想软件有限公司版权所有 | 地址:北京市海淀区西三环北路50号豪柏大厦C2座11层1105室