Crawling e WebScrapping
Você quer criar um robô que acesse páginas automaticamente e colete informações do HTML automaticamente, te livrando do trabalho chato de acessar as páginas manualmente? Aqui explico por cima algumas ferramentas e tutorias que te ajudarão nisso!
Fazendo a maldade em Python
Para fazer Crawling e WebScrapping, precisamos de 2 tipos de ferramentas no Python.
Uma biblioteca que finja que o Python é um browser acessando a página Web.
Outra biblioteca que facilite a leitura de HTMLs.
Tanto o Scrappy como o Selenium juntam essas duas funcionalidades em um só lugar. Aprenda o Selenium nesse post!
Como finjir ser um browser?
Biblioteca/Ferramenta Selenium
Biblioteca requests
Biblioteca Scrapy
Como ler HTMLs?
Biblioteca/Ferramenta Selenium
Biblioteca BeautifulSoup
Biblioteca LXML
Biblioteca Scrapy
Referências
Scrapping com BeautifulSoup, Selenium e Pandas
https://medium.freecodecamp.org/better-web-scraping-in-python-with-selenium-beautiful-soup-and-pandas-d6390592e251
Scrapping com BeautifulSoup, Requests
https://hackernoon.com/web-scraping-tutorial-with-python-tips-and-tricks-db070e70e071
Scrapping com LXML e Requests
http://kazuar.github.io/scraping-tutorial/
Tutorial com Selenium bem explicado
http://pythonclub.com.br/selenium-parte-4.html
Quem é mais rápido? Beautiful Soup ou LXML?
https://edmundmartin.com/beautiful-soup-vs-lxml-speed/
Comparação de várias bibliotecas em Python
https://codeburst.io/web-crawling-and-scraping-in-python-7116b16d27c7
Documentação Oficial do Selenium em Python
https://selenium-python.readthedocs.io/getting-started.html
Enviando mensagens via WhatsApp com o Selenium
https://www.youtube.com/watch?v=5hr0IdVM7Qg