Python爬取4K超清唯美桌面壁纸

前言💨

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

做一个小调查

大家有自己想要爬取的网站的么,可以留言评论哦

基本开发环境💨

Python 3.6

Pycharm

相关模块的使用💨

import requests

import re

import os

安装Python并添加到环境变量,pip安装需要的相关模块即可。

一、💥明确需求

————————————————

版权声明:本文为CSDN博主「python内瑟斯」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/pythonZaoAn/article/details/119574959


如图所示爬取里面的高清壁纸

二、💥网页数据分析


点击下载原图,会自动给你下载壁纸图片。



所以只需要获取这个链接就可以了爬取壁纸图片了。

返回列表的可以发现,网页是瀑布流加载方式,当你往下滑才会有数据出现。所以可以在下滑网页的前,先打开开发者工具,当下滑网页的时候新加载出来的数据会出现。


通过对比可以知道,这个数据包中包含了,壁纸图片下载的地址。

需要注意的就是这个数据链接是post请求,并不是get请求


需要提交的data参数,就是对应的页码。

三、💥代码实现

1、获取图片ID

  for page in range(1, 11):

        url = 'https://wallpaper.wispx.cn/cat/%E5%8A%A8%E6%BC%AB'

        headers = {

            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',

            'x-requested-with': 'XMLHttpRequest',

        }

        data = {

            'page': page

        }

        response = requests.post(url=url, headers=headers)

        result = re.findall('detail(.*?)target=', response.text)

        for index in result:

            image_id = index.replace('\\', '').replace('" ', '')

            page_url = f'https://wallpaper.wispx.cn/detail{image_id}'

2、获取壁纸url地址,并保存

def main(page_url):

    html_data = get_response(page_url).text

    image_url = re.findall('<a class="mdui-ripple mdui-ripple-white" href="(.*?)">', html_data)[0]

    image_title = re.findall('<title>(.*?)</title>', html_data)[0].split(' - ')[0]

    image_content = get_response(image_url).content

    path = 'images\\'

    if not os.path.exists(path):

        os.makedirs(path)

    with open(path + image_title + '.jpg', mode='wb') as f:

        f.write(image_content)

        print('正在保存:', image_title)

需要注意的点:

请求头里面要防盗链,不然就下载不了。

def get_response(html_url):

    header = {

        'referer': 'https://wallpaper.wispx.cn/detail/1206',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'

    }

    resp = requests.get(url=html_url, headers=header)

    return resp

四、💥实现效果

目录

前言💨

基本开发环境💨

相关模块的使用💨

一、💥明确需求

二、💥网页数据分析

三、💥代码实现

四、💥实现效果

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

前言

一、pandas是什么?

二、使用步骤

1.引入库

2.读入数据

总结

前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。

提示:以下是本篇文章正文内容,下面案例可供参考

一、pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') import ssl ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv( 'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv') print(data.head())

该处使用的url网络请求的数据。

总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

————————————————

版权声明:本文为CSDN博主「python内瑟斯」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/pythonZaoAn/article/details/119574959


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容