当前位置：首页 > Python > 正文

高效处理海量数据：Python外部排序算法详解（小白也能掌握的大数据排序技巧）

主机测评网
Python
2025-12-18
889

在处理大规模数据时，我们经常会遇到内存不足以一次性加载全部数据的情况。这时候，传统的内部排序（如快速排序、归并排序等）就不再适用了。为了解决这个问题，Python外部排序应运而生。本文将带你从零开始理解并实现一个完整的外部排序算法，即使你是编程小白，也能轻松掌握！

什么是外部排序？

外部排序是一种用于处理无法一次性装入内存的大数据集的排序方法。其核心思想是：将大文件分割成多个小块，每个小块可以单独装入内存进行排序，然后将这些已排序的小块合并成一个最终的有序大文件。

高效处理海量数据：Python外部排序算法详解（小白也能掌握的大数据排序技巧） Python外部排序外部排序算法大数据排序 Python文件排序第1张

外部排序的基本步骤

分块（Splitting）：将原始大文件按内存容量划分为若干个小文件（称为“run”）。
内部排序（Internal Sorting）：将每个小文件读入内存，使用常规排序算法（如sorted()）进行排序，并写回磁盘。
多路归并（K-way Merge）：将所有已排序的小文件进行合并，生成最终的有序大文件。

动手实现：Python外部排序代码

下面我们用 Python 实现一个简单的外部排序程序。假设我们要对一个包含大量整数的文本文件进行排序。

第一步：生成测试数据

import random# 生成一个包含100万个随机整数的大文件（用于测试）with open('large_data.txt', 'w') as f:    for _ in range(1_000_000):        f.write(str(random.randint(1, 10_000_000)) + '\n')

第二步：实现外部排序主函数

import heapqimport osdef external_sort(input_file, output_file, chunk_size=10000):    """    外部排序主函数    :param input_file: 输入文件路径    :param output_file: 输出文件路径    :param chunk_size: 每次读取的行数（控制内存使用）    """    temp_files = []        # 第一步：分块并内部排序    with open(input_file, 'r') as f:        chunk = []        for line in f:            chunk.append(int(line.strip()))            if len(chunk) >= chunk_size:                chunk.sort()                temp_file = f'temp_{len(temp_files)}.txt'                with open(temp_file, 'w') as tf:                    for num in chunk:                        tf.write(str(num) + '\n')                temp_files.append(temp_file)                chunk = []                # 处理最后一块        if chunk:            chunk.sort()            temp_file = f'temp_{len(temp_files)}.txt'            with open(temp_file, 'w') as tf:                for num in chunk:                    tf.write(str(num) + '\n')            temp_files.append(temp_file)        # 第二步：多路归并    file_handles = [open(tf, 'r') for tf in temp_files]    heap = []        # 初始化堆    for i, fh in enumerate(file_handles):        line = fh.readline()        if line:            heapq.heappush(heap, (int(line.strip()), i))        with open(output_file, 'w') as out_f:        while heap:            val, file_idx = heapq.heappop(heap)            out_f.write(str(val) + '\n')            next_line = file_handles[file_idx].readline()            if next_line:                heapq.heappush(heap, (int(next_line.strip()), file_idx))        # 关闭并删除临时文件    for fh in file_handles:        fh.close()    for tf in temp_files:        os.remove(tf)# 使用示例external_sort('large_data.txt', 'sorted_data.txt')