nodejs爬虫

标题: nodejs爬虫
作者: 木头的喵喵拖孩
创建于: 2023-12-05 15:07:20
更新于: 2024-05-21 10:56:15
链接: https://blog.xx-xx.top/2023/12/05/nodejs爬虫/
版权声明: 本文章采用 <a class="license" target="_blank" rel="noopener" href="https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh">CC BY-NC-SA 4.0 进行许可。

木头的喵喵拖孩

2023-12-05 15:07:20 2023-12-05 15:07 创建 2024-05-21 10:56:15 2024-05-21 10:56 更新

起因是花钱买了一个服务器，又没什么重要服务需要跑，所以就做了一个爬虫，爬取我自己在github page上的博客，方便国内访问，也顺便学习一下爬虫。

我这个爬虫的逻辑是通过访问网站根目录的index.html文件，然后解析出文件中所有的引用的本站的url，包括html、css、js等文件，然后再递归访问这些url，最后将所有触及到的文件结构化地保存到本地。

此页目录

nodejs爬虫