Beautiful Soup (парсер HTML)

З Вікіпедыі, свабоднай энцыклапедыі

Beautiful Soup — гэта пакет Python для разбору HTML і XML дакументаў (у тым ліку з няправільнай разметкай, напрыклад з незачыненымі тэгамі). Ён стварае дрэва парсінгу, якое можна выкарыстоўваць для вымання даных з HTML, што карысна для вэб-скрапінгу[1][2].

Beautiful Soup быў створаны Леанардам Рычардсанам[3][4].

Прыклад кода[правіць | правіць зыходнік]

Beautiful Soup прадстаўляе разабраныя даныя ў выглядзе дрэва, па якім можна ажыццяўляць пошук і ітэрацыю з дапамогай звычайных цыклаў Python[5]. Прыклад ніжэй выкарыстоўвае стандартную бібліятэку Python requests для загрузкі галоўнай старонкі англійскай Вікіпедыі, а затым выкарыстоўвае Beautiful Soup для разбору дакумента і пошуку ўсіх спасылак у ім[6].

#!/usr/bin/env python3
# Выманне якароў з HTML-дакумента
import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/wiki/Main_Page'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Версіі[правіць | правіць зыходнік]

Beautiful Soup 3 быў афіцыйным рэлізам Beautiful Soup з траўня 2006 па сакавік 2012 гады. Бягучы рэліз — Beautiful Soup 4.x. Beautiful Soup 4 можа быць усталяваны з дапамогай pip install beautifulsoup4.

У 2021 годзе падтрымка Python 2.7 была спынена, і рэліз 4.9.3 стаў апошнім, які яго падтрымлівае[7].

Зноскі

  1. «Beautiful Soup website». Retrieved 18 April 2012. Beautiful Soup is licensed under the same terms as Python itself
  2. Python. Beautiful Soup: Build a Web Scraper With Python – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.
  3. Code : Leonard Richardson (англ.). Launchpad. Праверана 19 верасня 2020.
  4. Tidelift. beautifulsoup4 | pypi via the Tidelift Subscription (англ.). tidelift.com. Праверана 19 верасня 2020.
  5. How To Scrape Web Pages with Beautiful Soup and Python 3 | DigitalOcean (англ.). www.digitalocean.com. Праверана 1 чэрвеня 2023.
  6. Python. Python's urllib.request for HTTP Requests – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.
  7. Richardson. Beautiful Soup 4.10.0 (англ.). beautifulsoup. Google Groups (7 верасня 2021). Праверана 27 September 2022.