IronWebScraper_PDF软件_PDF软件 OCR 语音_北京哲想软件有限公司COGITOSOFTWARECO.,LTD 哲想软件中文官方网站

IronWebScraper

C＃WebScraping库

＃C＃framework从html web应用程序中提取干净、

结构化的数据

＃用于系统迁移、填充搜索引擎、

竞争分析和数据挖掘

强大的抓取引擎由您掌控

只需编写一个C＃网络抓取分类，即可将成千上万的网页抓取到C＃类实例、JSON或下载的文件中。IronWebScraper允许您编写简洁的线性工作流来模拟人类的浏览行为。 IronWebScraper会将您的代码作为大量虚拟Web浏览器运行，这些浏览器大规模并行，但上等且具有容错能力。

简单灵活的逻辑

IronWebScraper必须进行编程以知道如何处理它遇到的每种“类型”的页面。这可以使用CSS选择器或XPath表达式以非常简洁的方式实现，并且可以在C＃中完全自定义。这种自由度使您可以决定在网站中抓取哪些页面，以及如何处理提取的数据。每种方法都可以在Visual Studio中调试和查看。

快速且礼貌的行为

IronWebScraper处理多线程和Web请求，以允许数百个并发线程，而开发人员无需管理它们。可以将礼貌设置为限制请求，从而降低目标Web服务器上过多负载的风险。

创建虚拟用户身份

IronWebScraper可以使用一个或多个“身份”——模拟现实世界中人类需求的会话。每个请求都可以通过编程方式或随机分配其自己的身份、用户代理、Cookie、登录名甚至IP地址。请求被设置为自动唯一，并结合了URL、解析方法和post变量。

动作回放

IronWebScraper使用高级缓存，让开发人员可以“即时”更改其代码并回放以前的每个请求，而无需联系互联网。每个抓取作业均已自动保存，并且在发生异常或断电时可以恢复。

使用Microsoft Visual Studio快速安装

IronWebScraper可以使用Visual Studio安装程序将Web抓取工具快速放入您的手中。无论是直接从Visual Studio中的Nuget进行安装还是下载DLL，您都可以立即进行设置。只有一个DLL，没有其它依赖关系。