NodeSpider2

Node Spider Finish !!!

Source Code: https://github.com/fish98/NodeSpider_classrooms

对于这次工程的反思 最大问题的就是对于纯函数的使用缺失 在工程实现的一开始 使用了太多的全局变量 导致在最后的调试和函数合并的时候出现了一些不优雅的地方 这以后一定要改 函数尽量写成纯函数 或者科里化

本次主要延续上一次的话题 稍微深入的扯几句


上次讲到最简单的爬虫 因为爬虫就是对于网站的请求 处理返回response和解析数据 那么 第一步的请求还是很重要的 像Fetch这样的钦定API就非常推荐使用 具体使用参见官方文档 不加赘述 而对于Request 与Fetch之间的互相调用 两者都是web内置的模块 在node.js中使用还是需要import

Promise

这个是个重点 非常的重要 对于Promise对象的调用 可以调用Promise.all()来维护一个队列

拓展: 对于用户验证FormData的教务网体验

拓展: 对于用户登陆的Cookie的Piviv的尝试

小结

对于工程上的爬虫 实在是应该做成分布式的 或者多线程 添加算法来提高速度 以上对于Node简单的尝试只是小打小闹 之后的博客 会尝试分布式爬虫 或者更大规模的试验 还有就是对于反爬虫的应对(ip封禁等等)

以上

玩的开心

说好的更新呢 ?这么几个字糊弄谁啊 ?!

Share