当前您所在的位置:首页>PDF软件 OCR 语音>PDF软件

IronWebScraper

IronWebScraper

C#WebScraping

#C#framework从html web应用程序中提取干净、

结构化的数据

#用于系统迁移、填充搜索引擎、

竞争分析和数据挖掘

 

强大的抓取引擎由您掌控

只需编写一个C#网络抓取分类,即可将成千上万的网页抓取到C#类实例、JSON或下载的文件中。IronWebScraper允许您编写简洁的线性工作流来模拟人类的浏览行为。 IronWebScraper会将您的代码作为大量虚拟Web浏览器运行,这些浏览器大规模并行,但上等且具有容错能力。

 

简单灵活的逻辑

IronWebScraper必须进行编程以知道如何处理它遇到的每种“类型”的页面。这可以使用CSS选择器或XPath表达式以非常简洁的方式实现,并且可以在C#中完全自定义。这种自由度使您可以决定在网站中抓取哪些页面,以及如何处理提取的数据。每种方法都可以在Visual Studio中调试和查看。

 

快速且礼貌的行为

IronWebScraper处理多线程和Web请求,以允许数百个并发线程,而开发人员无需管理它们。可以将礼貌设置为限制请求,从而降低目标Web服务器上过多负载的风险。

 

创建虚拟用户身份

IronWebScraper可以使用一个或多个“身份”——模拟现实世界中人类需求的会话。每个请求都可以通过编程方式或随机分配其自己的身份、用户代理、Cookie、登录名甚至IP地址。请求被设置为自动唯一,并结合了URL、解析方法和post变量。

 

动作回放

IronWebScraper使用高级缓存,让开发人员可以“即时”更改其代码并回放以前的每个请求,而无需联系互联网。每个抓取作业均已自动保存,并且在发生异常或断电时可以恢复。

 

使用Microsoft Visual Studio快速安装

IronWebScraper可以使用Visual Studio安装程序将Web抓取工具快速放入您的手中。无论是直接从Visual Studio中的Nuget进行安装还是下载DLL,您都可以立即进行设置。只有一个DLL,没有其它依赖关系。

北京哲想软件有限公司