数荟集分布式采集平台试用报告
一、概述
本产品是分布式、速度快、稳定、适用采集范围广、企业级产品,适合大数据量采集(日采集量在几千万、上亿的数据量级别),对时效性要求高的企业,比如舆情公司和大数据分析公司,数据实时监控公司等。
二、具体描述
1、分布式
由一台调度服务器和多个采集节点组成分布式架构,调度服务器可以同时管理多个节点节点,比如对100台采集节点同时进行重启、同时进行规则发布等操作,可以在统一的界面上查看每个节点的运行情况,提供采集节点预警机制。多个采集节点协同工作,有效避免不同采集节点重复采集数据。
2、速度快
我们的产品不同于市面上其他爬虫软件,本产品纯后台进程运行,不需要渲染图形界面而是直接解析报文格式,速度大概是其他产品的30~100倍。
3、稳定
可以24小时不间断运行,运行稳定,已有客户使用我们的产品运行近1年时间依然运行良好。
4、采集范围广
本产品可以采集任意格式和形式的数据,比如可以采集百度地图数据、高德地图数据、可以采集手机APP数据、可以采集指定网站的全量数据。这些能力是市面上其他采集软件不能做到的。
5、采集数据格式广
可以采集html、xml、json、图片文件、视频文件、word文件、pdf文件、excel文件等所有格式都能够采集。
6、有效突破防采集机制
内置多种突破防采集方法和解决方案,有效增加采集范围
总之我们的客户定位在采集数据量大、时效性高的大数据企业,是真正意义上的企业级产品,不同于市面采集软件(只能做小规模数据量的采集,而且采集范围有限)。我们的产品可以节省企业一半以上的爬虫工程师的人力资源。数据采集看起来简单,但是要实现大数据量采集和全量数据的稳定采集是一个非常有难度的事情,现在爬虫工程师紧缺,而且大多经验不足,即使招到爬虫工程师也未必能解决所有爬虫问题,从目前来看我们的产品市场需求很大,随着大数据的兴起会越来越大。