网络爬虫是一个可以自动抓取互联网内容的程序。Python有很多库可以用来实现网络爬虫,其中最常用的是requests
(用于发送HTTP请求)和BeautifulSoup
(用于解析HTML)。
以下是一个简单的Python网络爬虫示例,该爬虫会抓取指定网页的所有标题(<title>
标签)并打印出来:
python">import requests
from bs4 import BeautifulSoup def get_titles(url): # 发送HTTP请求 response = requests.get(url) # 检查请求是否成功 if response.status_code != 200: print(f"Failed to retrieve the webpage. Status code: {response.status_code}") return [] # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 查找所有的<title>标签 titles = soup.find_all('title') # 提取并返回标题文本 return [title.text for title in titles] # 使用示例
url = 'https://www.exam.....pl....e.com' # 替换为你想要爬取的网页URL
titles = get_titles(url)
for title in titles: print(title)