2019-03-21

Crawling e WebScrapping

Você quer criar um robô que acesse páginas automaticamente e colete informações do HTML automaticamente, te livrando do trabalho chato de acessar as páginas manualmente? Aqui explico por cima algumas ferramentas e tutorias que te ajudarão nisso!

Fazendo a maldade em Python

Para fazer Crawling e WebScrapping, precisamos de 2 tipos de ferramentas no Python.
Uma biblioteca que finja que o Python é um browser acessando a página Web.
Outra biblioteca que facilite a leitura de HTMLs.

Tanto o Scrappy como o Selenium juntam essas duas funcionalidades em um só lugar. Aprenda o Selenium nesse post!

Como finjir ser um browser?

Biblioteca/Ferramenta Selenium
Biblioteca requests
Biblioteca Scrapy

Como ler HTMLs?

Biblioteca/Ferramenta Selenium
Biblioteca BeautifulSoup
Biblioteca LXML
Biblioteca Scrapy

Referências

Scrapping com BeautifulSoup, Selenium e Pandas
https://medium.freecodecamp.org/better-web-scraping-in-python-with-selenium-beautiful-soup-and-pandas-d6390592e251

Scrapping com BeautifulSoup, Requests
https://hackernoon.com/web-scraping-tutorial-with-python-tips-and-tricks-db070e70e071

Scrapping com LXML e Requests
http://kazuar.github.io/scraping-tutorial/

Tutorial com Selenium bem explicado
http://pythonclub.com.br/selenium-parte-4.html

Quem é mais rápido? Beautiful Soup ou LXML?
https://edmundmartin.com/beautiful-soup-vs-lxml-speed/

Comparação de várias bibliotecas em Python
https://codeburst.io/web-crawling-and-scraping-in-python-7116b16d27c7

Documentação Oficial do Selenium em Python
https://selenium-python.readthedocs.io/getting-started.html

Enviando mensagens via WhatsApp com o Selenium
https://www.youtube.com/watch?v=5hr0IdVM7Qg