通过 Beautiful 定位标签,获取图片链接,仅限于图片直接内嵌于网页源代码中,有的网站图片链接藏在 js 文件,无法爬取

#爬取 umei.cc 中的图片
import requests
from bs4 import BeautifulSoup
domain = "https://umei.cc/katongdongman/dongmantupian/" #网站地址
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
}
res = requests.get(domain, headers=headers)
res.encoding = 'utf-8'  #防止中文乱码
content = res.text  #获取源代码
mainPage = BeautifulSoup(content, "html.parser")    #创建 Beautiful 对象,说明其使用的语言
img_list = mainPage.find("div", class_="TypeList").find_all("img")  #找到 class="TypeList" 的 div 标签包裹的所有 img 标签
for img in img_list:    #遍历这些 img 标签
    img_scr = img.get("src")    #获取其中的 src 属性值
    # print(img_name)
    imgName = "img/{}".format(img_scr.split('/')[-1])   #获取图片名称
    with open(imgName, mode="wb") as f:  #打开文件
        f.write(requests.get(img_scr).content)  #写入二进制码
    f.close()
    print("over")
print("all over!")
更新于

请我喝[茶]~( ̄▽ ̄)~*

PocketCat 微信支付

微信支付

PocketCat 支付宝

支付宝