nodejs爬虫自动爬取网站如何使用nodejs做爬虫程序

2020-10-01知识24

如何使用nodejs做爬虫程序 1、如果是定向爬取几个页面，做一些简单的页面解析，爬取效率不是核心要求，那么用什么语言差异不大。当然要是页面结构复杂，正则表达式写得巨复杂，尤其是用过那些支持xpath的类库/爬虫库后，就会发现此种方式虽然入门门槛低，但扩展性、可维护性等都奇差。因此此种情况下还是推荐采用一些现成的爬虫库，诸如xpath、多线程支持还是必须考虑的因素。2、如果是定向爬取，且主要目标是解析js动态生成的内容此时候，页面内容是有js/ajax动态生成的，用普通的请求页面->；解析的方法就不管用了，需要借助一个类似firefox、chrome浏览器的js引擎来对页面的js代码做动态解析。此种情况下，推荐考虑casperJS+phantomjs或slimerJS+phantomjs，当然诸如selenium之类的也可以考虑。3、如果爬虫是涉及大规模网站爬取，效率、扩展性、可维护性等是必须考虑的因素时候大规模爬虫爬取涉及诸多问题：多线程并发、I/O机制、分布式爬取、消息通讯、判重机制、任务调度等等，此时候语言和所用框架的选取就具有极大意义了。PHP对多线程、异步支持较差，不建议采用。NodeJS：对一些垂直网站爬取倒可以，但由于分布式爬取、消息通讯等支持较弱，根据自己情况判断。Python：强烈建议，对。