如何使用nodejs做爬虫程序 1、如果是定向爬取几个页面,做一些简单的页面解析,爬取效率不是核心要求,那么用什么语言差异不大。当然要是页面结构复杂,正则表达式写得巨复杂,尤其是用过那些支持xpath的类库/爬虫库后,就会发现此种方式虽然入门门槛低,但扩展性、可维护性等都奇差。因此此种情况下还是推荐采用一些现成的爬虫库,诸如xpath、多线程支持还是必须考虑的因素。2、如果是定向爬取,且主要目标是解析js动态生成的内容此时候,页面内容是有js/ajax动态生成的,用普通的请求页面->;解析的方法就不管用了,需要借助一个类似firefox、chrome浏览器的js引擎来对页面的js代码做动态解析。此种情况下,推荐考虑casperJS+phantomjs或slimerJS+phantomjs,当然诸如selenium之类的也可以考虑。3、如果爬虫是涉及大规模网站爬取,效率、扩展性、可维护性等是必须考虑的因素时候大规模爬虫爬取涉及诸多问题:多线程并发、I/O机制、分布式爬取、消息通讯、判重机制、任务调度等等,此时候语言和所用框架的选取就具有极大意义了。PHP对多线程、异步支持较差,不建议采用。NodeJS:对一些垂直网站爬取倒可以,但由于分布式爬取、消息通讯等支持较弱,根据自己情况判断。Python:强烈建议,对。
如何使用nodejs做爬虫程序? https://github.com/alsotang/node-lessons/tree/master/lesson3 之前研究数据,零零散散的写过一些数据抓取的爬虫,不过写的比较随意。有很多地方现在看起来并不是很合理 。
https://github.com/alsotang/node-lessons/tree/master/lesson3 App 注册登录 如何使用nodejs做爬虫程序?查看问题描述 ? 16 知乎用户 。