Митчелл Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание

Если программирование напоминает волшебство, то веб-скрапинг — это очень сильное колдунство. Написав простую автоматизированную программу, можно отправлять запросы на веб-серверы, запрашивать с них данные, а затем анализировать их и извлекать необходимую информацию. Новое расширенное издание книги знакомит не только с веб-скрапингом, но и поможет собрать любого вида данные в современном Интернете.
В части I основное внимание уделено механике веб-скрапинга: как с помощью Python запрашивать информацию с веб-сервера, производить базовую обработку серверного отклика и организовать автоматизированное взаимодействие с сайтами. В части II исследованы более специфичные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.
— Разбирайте сложные HTML-страницы.
— Разрабатывайте поисковые роботы с помощью фреймворка Scrapy.
— Изучайте методы хранения данных, полученных с помощью скрапинга.
— Считывайте и извлекайте данные из документов.
— Очищайте и нормализуйте плохо отформатированные данные.
— Читайте и пишите информацию на естественных языках.
— Освойте поиск по формам и логинам.
— Изучите скрапинг JavaScript и работу с API.
— Используйте и пишите программы для преобразования изображений в текст.
— Учитесь обходить скрапинговые ловушки и блокаторы ботов.
— Протестируйте собственный сайт с помощью скрапинга.

IT-технологии

Возрастные ограничения: 16+

Издательство: Питер

Бумажных страниц: 437

Книгу «Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание», автор которой — Митчелл, вы можете почитать на сайте или в приложении для iOS или Android. Книги, аудиокниги и комиксы электронной библиотеки Яндекс Книг можно читать и слушать онлайн или скачивать на устройство, чтобы читать без интернета.

Митчелл Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание

О книге Цитаты79 Читают802 На полках

IT-технологии

Возрастные ограничения: 16+

Издательство: Питер

Бумажных страниц: 437

Цитаты79

Анастасия Куцьцитирует1 месяц назад

Однако в библиотеке есть еще два объекта, которые используются реже, но все же о них важно знать:
•объектыNavigableString — служат для представления не самих тегов, а текста внутри тегов (некоторые функции принимают и создают не объекты тегов, а объекты NavigableString);
•объектыComment — применяются для поиска HTML-комментариев, заключенных в теги комментариев, .

Комментировать