《深入了解Python爬虫攻防》 课程课件及相关代码。
授人以渔!
大部分爬虫教程都是教一些基础或者是直接找一些案例讲解,已经入门但未熟练的人难以找到适合的课程及练习网站;只教人爬不教原理,以至于部分人学完还是知其然不知其所以然,无法灵活应用;而且很多课程掺杂了大量Python基础语法等内容充集数、知识点不连贯或者避重就轻等。
本课程以横向教学为主,介绍爬虫实际工作中用到的技术、思路及工具,并且以边开发网页边爬取的方式逐步深入爬虫与反爬虫的攻防知识,知己知彼。
编程的一些注意事项:开发环境的路径以及Python脚本文件名不要包含中文、空格等内容;初学者推荐选用开箱即用的开发工具,如:PyCharm等。
- 引言
- 常见的反爬措施
- 开发第一个网页
- 让网页跑起来 - Web 服务器 nginx 的搭建
- 开始第一个爬虫
- 如何解析网页 HTML 源码并提取需要的内容
- 加入简单的反爬虫措施以及应对方法
- 第二个网页及第二个爬虫 - 动态网页
- 第一轮归纳总结
- 当我们运行爬虫时目标网站服务器都收到了什么
- 浏览器 F12 的技术原理 - DevTools 协议
- 抓包工具 Fiddler 的使用
- 网页的魔法:CSS 与 JavaScript
- 第三个网页与爬虫 - JavaScript 动态获取数据
- 必须了解的常见加密算法及编码
- Selenium 的攻防
- 换了 IP 怎么还会被反爬 - 神秘的浏览器指纹
- 奔向 Python 之外的远方 - 用魔法打败魔法
- Node.js 库 Puppeteer
- 第二轮归纳总结
- 实战一:开发一个需要登录的网页并爬取
- 实战二:开发一个验证时间戳的网页并爬取
- 实战三:开发一个用户行为检测的网页并爬取