Web Scraping in Nodejs & JavaScript
通过带有真实网站的示例项目学习 Nodejs 和 JavaScript 中的网页抓取!Craiglist、iMDB、AirBnB 等等!
你将会学到的
- 能够从 Craigslist 上的页面抓取工作
- 了解如何使用请求
- 学习如何使用 NightmareJS
- 学习如何使用 Puppeteer
- 了解如何在没有任何可识别类或 id 的情况下抓取元素
- 了解如何将抓取数据保存到 CSV
- 了解如何将抓取数据保存到 MongoDb
- 了解如何仅使用请求来抓取 Facebook!
- 了解如何对网站进行逆向工程并找到隐藏的 API!
- 了解用于抓取的不同技术,以及何时最好使用它们
- 了解如何使用身份验证抓取网站
- 了解如何使用 Request/Cheerio 抓取 HTML 表格
要求
- 基本 HTML
- 基本的 jQuery
- 基本的 Nodejs
说明
在本课程中,您将学习如何抓取网站,并在真实网站上使用 JavaScript Nodejs Request、Cheerio、NightmareJs和Puppeteer的实际示例。您将使用带有 async/await的最新 JavaScript ES7 语法。
您将学习如何使用 Nodejs Request 和 Cheerio 在 Craigslist 网站上抓取软件工程工作。您将使用带有 async/await 的最新 JavaScript ES7 语法。
然后,您将学习如何使用NighmareJs和Puppeteer抓取需要 JavaScript 的更高级网站,例如iMDB和AirBnB。
我还将向您展示一个实用的真实网站,您甚至可以通过逆向工程网站并找到其隐藏的 API来避免浪费时间首先创建网络爬虫!
了解如何在开发爬虫时避免被网站阻止,方法是使用模拟 html 以测试驱动的方式构建爬虫,而不是在调试和开发时每次都访问网站。您还将了解如果您被阻止时可以做什么,以及无论如何让您的刮刀启动并运行的替代方法!
您还将学习如何在连接不良或连接不良的服务器上进行抓取。
您甚至可以学习如何将结果保存到 CSV 文件和 MongoDB 中!
你如何构建一个每 1 小时(或其他间隔)抓取一次的抓取工具,并将其部署到 Heroku 或 Google Cloud 之类的云主机上?让我告诉你,又快又简单!
您如何抓取需要密码的网站?我也将通过一个真实的网站(Craigslist)向您展示这一点!
您如何使用 Nodejs Express 在 REST API 中提供您的抓取结果?我们如何构建一个显示结果的React 前端?您也会以最快、最简单的方式学习这一点!
此外,课程中还包含一个介绍如何制作基本 GraphQL API的部分。
作为顶部的最后一颗樱桃,我有一个包含秘密后门的部分,向您展示如何仅使用 Request 抓取 Facebook!
如果您对自己尝试抓取的网站有任何问题,完全可以向我寻求帮助。我很乐意为您指明正确的方向!无论我的学生面临什么问题,我都会用它来扩展我的课程!
此课程面向哪些人:
- 任何想学习如何使用 Nodejs 抓取网站的人!
TheItzy » Web Scraping in Nodejs & JavaScript