当前位置：首页 > Python > 正文

高效抓取网页数据（Python异步Web请求入门教程）

主机测评网
Python
2025-12-14
877

在当今网络开发和数据采集场景中，Python异步Web请求已成为提升程序效率的关键技术。传统同步请求在处理多个URL时会逐个等待响应，导致大量时间浪费在I/O等待上。而使用异步方式，我们可以在等待一个请求响应的同时发起其他请求，极大提高吞吐量。

高效抓取网页数据（Python异步Web请求入门教程） Python异步Web请求 asyncio aiohttp Python并发请求异步HTTP客户端第1张

为什么需要异步请求？

假设你要从10个不同的网站获取数据：

同步方式：依次请求，总耗时 ≈ 每个请求耗时之和（比如10秒）
异步方式：几乎同时发起所有请求，总耗时 ≈ 最慢的那个请求耗时（比如1.2秒）

这就是Python并发请求带来的巨大性能优势！

所需工具：asyncio 与 aiohttp

在Python中实现异步Web请求，我们主要依赖两个核心库：

asyncio：Python标准库，提供事件循环和异步编程基础
aiohttp：基于asyncio的异步HTTP客户端/服务器框架

首先安装aiohttp：

pip install aiohttp

第一个异步请求示例

下面是一个简单的单个异步请求示例，帮助你理解基本结构：

import asyncioimport aiohttpasync def fetch(session, url):    async with session.get(url) as response:        return await response.text()async def main():    async with aiohttp.ClientSession() as session:        html = await fetch(session, 'https://httpbin.org/get')        print(html)# 运行异步函数asyncio.run(main())

这段代码展示了如何使用aiohttp创建一个异步HTTP客户端会话，并获取网页内容。

并发请求多个URL

现在让我们实现真正的异步HTTP客户端功能——同时请求多个URL：

import asyncioimport aiohttpimport timeasync def fetch_url(session, url):    try:        async with session.get(url) as response:            content = await response.text()            print(f"✅ 已获取: {url[:30]}... | 状态码: {response.status}")            return content    except Exception as e:        print(f"❌ 请求失败: {url} | 错误: {str(e)}")        return Noneasync def fetch_multiple_urls(urls):    async with aiohttp.ClientSession() as session:        tasks = [fetch_url(session, url) for url in urls]        results = await asyncio.gather(*tasks)        return results# 测试URL列表urls = [    'https://httpbin.org/delay/1',    'https://httpbin.org/delay/2',    'https://jsonplaceholder.typicode.com/posts/1',    'https://jsonplaceholder.typicode.com/posts/2',    'https://api.github.com',]# 记录开始时间start_time = time.time()# 执行并发请求results = asyncio.run(fetch_multiple_urls(urls))# 输出耗时print(f"\n⏱️ 总耗时: {time.time() - start_time:.2f} 秒")print(f"📄 成功获取 {len([r for r in results if r is not None])} 个页面")

在这个例子中，我们使用asyncio.gather()同时运行多个任务。即使某些请求较慢（如delay/2），也不会阻塞其他快速请求的完成。