Алексей Лукконен
Алексей Лукконендәйексөз келтірді2 ай бұрын
from urllib.request import urlopen from urllib.parse import urlparse from bs4 import BeautifulSoup import re import datetime import random pages = set() random.seed(datetime.datetime.now()) # Получить список всех внутренних ссылок, найденных на странице. def getInternalLinks(bs, includeUrl): includeUrl = '{}://{}'.format(urlparse(includeUrl).scheme, urlparse(includeUrl).netloc) internalLinks = [] # найти все ссылки, которые начинаются с "/" for link in bs.find_all('a', href=re.compile('^(/|.*'+includeUrl+')')): if link.attrs['href'] is not None: if link.attrs['href'] not in internalLinks: if(link.attrs['href'].startswith('/')): internalLinks.append( includeUrl+link.attrs['href'])
Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание
Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание
·
Райан Митчелл
Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание
Райан Митчеллжәне т.б.
1.3K

Кіру не тіркелу пікір қалдыру үшін

БастыАудиоКомикстерБалаларға арналған