Web Scraping in Nodejs & JavaScript

Web Scraping in Nodejs & JavaScript

通过带有真实网站的示例项目学习 Nodejs 和 JavaScript 中的网页抓取!Craiglist、iMDB、AirBnB 等等!

你将会学到的

  • 能够从 Craigslist 上的页面抓取工作
  • 了解如何使用请求
  • 学习如何使用 NightmareJS
  • 学习如何使用 Puppeteer
  • 了解如何在没有任何可识别类或 id 的情况下抓取元素
  • 了解如何将抓取数据保存到 CSV
  • 了解如何将抓取数据保存到 MongoDb
  • 了解如何仅使用请求来抓取 Facebook!
  • 了解如何对网站进行逆向工程并找到隐藏的 API!
  • 了解用于抓取的不同技术,以及何时最好使用它们
  • 了解如何使用身份验证抓取网站
  • 了解如何使用 Request/Cheerio 抓取 HTML 表格

要求

  • 基本 HTML
  • 基本的 jQuery
  • 基本的 Nodejs

说明

在本课程中,您将学习如何抓取网站,并在真实网站上使用 JavaScript Nodejs RequestCheerioNightmareJsPuppeteer的实际示例。您将使用带有 async/await的最新 JavaScript ES7 语法。

您将学习如何使用 Nodejs Request 和 Cheerio 在 Craigslist 网站上抓取软件工程工作。您将使用带有 async/await 的最新 JavaScript ES7 语法。

然后,您将学习如何使用NighmareJsPuppeteer抓取需要 JavaScript 的更高级网站,例如iMDBAirBnB

我还将向您展示一个实用的真实网站,您甚至可以通过逆向工程网站并找到其隐藏的 API来避免浪费时间首先创建网络爬虫

了解如何在开发爬虫时避免被网站阻止,方法是使用模拟 html 以测试驱动的方式构建爬虫,而不是在调试和开发时每次都访问网站。您还将了解如果您被阻止时可以做什么,以及无论如何让您的刮刀启动并运行的替代方法!

您还将学习如何在连接不良或连接不良的服务器上进行抓取。

您甚至可以学习如何将结果保存到 CSV 文件和 MongoDB 中

你如何构建一个每 1 小时(或其他间隔)抓取一次的抓取工具,并将其部署到 Heroku 或 Google Cloud 之类的云主机上?让我告诉你,又快又简单!

您如何抓取需要密码的网站?我也将通过一个真实的网站(Craigslist)向您展示这一点!

您如何使用 Nodejs Express 在 REST API 中提供您的抓取结果?我们如何构建一个显示结果的React 前端?您也会以最快、最简单的方式学习这一点!

此外,课程中还包含一个介绍如何制作基本 GraphQL API的部分。

作为顶部的最后一颗樱桃,我有一个包含秘密后门的部分,向您展示如何仅使用 Request 抓取 Facebook

如果您对自己尝试抓取的网站有任何问题完全可以向我寻求帮助。我很乐意为您指明正确的方向!无论我的学生面临什么问题,我都会用它来扩展我的课程!

此课程面向哪些人:

  • 任何想学习如何使用 Nodejs 抓取网站的人!
声明:本站所有资源、素材等全部来源于互联网,赞助VIP仅用于对IT资源服务器带宽等费用支出做支持,从本站下载资源,说明你已同意本条款。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
TheItzy » Web Scraping in Nodejs & JavaScript