Алексей Лукконенcard.quoted9 күн бұрын
from urllib.request import urlopen

from urllib.parse import urlparse

from bs4 import BeautifulSoup

import re

import datetime

import random

pages = set()

random.seed(datetime.datetime.now())

# Получить список всех внутренних ссылок, найденных на странице.

def getInternalLinks(bs, includeUrl):

includeUrl = '{}://{}'.format(urlparse(includeUrl).scheme,

urlparse(includeUrl).netloc)

internalLinks = []

# найти все ссылки, которые начинаются с "/"

for link in bs.find_all('a',

href=re.compile('^(/|.*'+includeUrl+')')):

if link.attrs['href'] is not None:

if link.attrs['href'] not in internalLinks:

if(link.attrs['href'].startswith('/')):

internalLinks.append(

includeUrl+link.attrs['href'])
  • Комментарий жазу үшін кіру немесе тіркелу