不要相信前端是安全的,今天简单验证一下,但是希望大家支持正版,支持原作者,毕竟写书不易。
安装Puppteer
1 | npm install --save puppeteer |
选择目标网站
我们这里选择胡子大哈大神的网站 http://huziketang.mangojuice.top ;
爬取所有文章
基本思想思路
- 实现方案
爬取书籍目录->根据目录爬取没个章节的内容
- 注意的地方
本书有付费章节和免费章节,爬取付费章节需要禁用javascript执行,然后移除对应的mask的dom节点
核心代码
1 | const path = require('path'); |
代码比较简单,不做过多解释。