Алексей Лукконен: Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание кітабынан алынған цитата. from urllib.request import urlopen from urllib....

Алексей Лукконендәйексөз келтірді2 ай бұрын

from urllib.request import urlopen from urllib.parse import urlparse from bs4 import BeautifulSoup import re import datetime import random pages = set() random.seed(datetime.datetime.now()) # Получить список всех внутренних ссылок, найденных на странице. def getInternalLinks(bs, includeUrl): includeUrl = '{}://{}'.format(urlparse(includeUrl).scheme, urlparse(includeUrl).netloc) internalLinks = [] # найти все ссылки, которые начинаются с "/" for link in bs.find_all('a', href=re.compile('^(/|.*'+includeUrl+')')): if link.attrs['href'] is not None: if link.attrs['href'] not in internalLinks: if(link.attrs['href'].startswith('/')): internalLinks.append( includeUrl+link.attrs['href'])

Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание

Райан Митчелл

Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание

Райан Митчеллжәне т.б.

1.3K

Кіру не тіркелу пікір қалдыру үшін

Алексей Лукконендәйексөз келтірді2 ай бұрын

Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание

Райан Митчелл

Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание

Райан Митчеллжәне т.б.

1.3K

Кіру не тіркелу пікір қалдыру үшін