网站官方提供的离线版本

zip 或 tar.gz 格式的离线源码下载。Download ZIP 功能、Git 仓库克隆。使用浏览器开发者工具(仅限本地缓存)
F12 打开开发者工具 → Network 标签 → 刷新页面 → 右键点击资源 → Save as(保存为本地文件)。 合法爬虫工具(需遵守 robots.txt)

wget(命令行)、HTTrack(图形界面)。 robots.txt(如 https://example.com/robots.txt),明确爬取限制。 wget --mirror --convert-links --adjust-extension --no-parent https://example.com
版权与授权
服务条款限制

多数网站在服务条款中禁止自动化爬取(如 GitHub、知乎等),违规可能导致账号封禁或法律追责。
限制
现代网站多为动态生成(JavaScript 渲染),传统工具无法完整捕获,需使用无头浏览器(如 Puppeteer),但仍需遵守法律。
| 方法 | 合法性 | 适用场景 |
|---|---|---|
| 官方离线包 | ✅ 合法 | 开源项目、文档站点 |
| 浏览器开发者工具 | ⚠️ 有限 | 调试本地缓存资源 |
wget/HTTrack |
⚠️ 需合规 | 个人学习 + 遵守 robots.txt |
| 无头浏览器(Puppeteer) | ⚠️ 需授权 | 动态页面 + 明确许可 |
务必优先选择合法途径,尊重知识产权,避免法律风险。 如需商业用途,务必联系网站所有者获取书面授权。