通过 Beautiful 定位标签,获取图片链接,仅限于图片直接内嵌于网页源代码中,有的网站图片链接藏在 js 文件,无法爬取
#爬取 umei.cc 中的图片 | |
import requests | |
from bs4 import BeautifulSoup | |
domain = "https://umei.cc/katongdongman/dongmantupian/" #网站地址 | |
headers = { | |
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36" | |
} | |
res = requests.get(domain, headers=headers) | |
res.encoding = 'utf-8' #防止中文乱码 | |
content = res.text #获取源代码 | |
mainPage = BeautifulSoup(content, "html.parser") #创建 Beautiful 对象,说明其使用的语言 | |
img_list = mainPage.find("div", class_="TypeList").find_all("img") #找到 class="TypeList" 的 div 标签包裹的所有 img 标签 | |
for img in img_list: #遍历这些 img 标签 | |
img_scr = img.get("src") #获取其中的 src 属性值 | |
# print(img_name) | |
imgName = "img/{}".format(img_scr.split('/')[-1]) #获取图片名称 | |
with open(imgName, mode="wb") as f: #打开文件 | |
f.write(requests.get(img_scr).content) #写入二进制码 | |
f.close() | |
print("over") | |
print("all over!") |