当前位置：首页 > C++ > 正文

C++外部排序详解（手把手教你用C++实现大数据外存排序算法）

主机测评网
C++
2025-12-18
843

在处理大规模数据时，我们常常会遇到内存无法一次性加载全部数据的情况。这时候，传统的内部排序（如快速排序、归并排序等）就不再适用了。为了解决这个问题，C++外部排序应运而生。本文将从零开始，详细讲解外部排序算法的原理与实现，即使是编程小白也能轻松掌握！

什么是外部排序？

外部排序是指当待排序的数据量太大，无法全部装入内存时，借助外存（如硬盘）进行排序的一种算法。其核心思想是“分而治之”：先将大文件分割成多个小文件，每个小文件可以装入内存进行排序，然后再将这些已排序的小文件合并成一个完整的有序文件。

C++外部排序详解（手把手教你用C++实现大数据外存排序算法） C++外部排序外部排序算法 C++大数据排序外存排序实现第1张

外部排序的基本步骤

外部排序通常分为两个阶段：

生成初始归并段（Run）：将大文件按内存容量切分成若干块，每块读入内存后使用内部排序（如std::sort）排序，然后写回磁盘，形成多个有序的小文件（称为“归并段”）。
多路归并：将这些有序的小文件进行多路归并，最终合成一个完整的有序大文件。

C++实现外部排序

下面我们用C++编写一个简单的外部排序程序。假设我们要对一个包含大量整数的文件进行排序，内存最多只能容纳1000个整数。

第一步：生成初始归并段

#include <iostream>#include <fstream>#include <vector>#include <algorithm>#include <string>const int BUFFER_SIZE = 1000; // 内存缓冲区大小void generateRuns(const std::string& inputFile) {    std::ifstream in(inputFile);    std::vector<int> buffer;    int num, runIndex = 0;    while (in >> num) {        buffer.push_back(num);        if (buffer.size() == BUFFER_SIZE) {            std::sort(buffer.begin(), buffer.end());            std::ofstream out("run_" + std::to_string(runIndex++) + ".txt");            for (int x : buffer) {                out << x << '\n';            }            out.close();            buffer.clear();        }    }    // 处理最后一块    if (!buffer.empty()) {        std::sort(buffer.begin(), buffer.end());        std::ofstream out("run_" + std::to_string(runIndex) + ".txt");        for (int x : buffer) {            out << x << '\n';        }    }}

第二步：两路归并（简化版）

为了简化，我们先实现两路归并。实际应用中可使用败者树或堆实现k路归并以提高效率。

void mergeTwoFiles(const std::string& file1,                      const std::string& file2,                      const std::string& outputFile) {    std::ifstream f1(file1), f2(file2);    std::ofstream out(outputFile);    int a, b;    bool hasA = (f1 >> a), hasB = (f2 >> b);    while (hasA && hasB) {        if (a <= b) {            out << a << '\n';            hasA = (f1 >> a);        } else {            out << b << '\n';            hasB = (f2 >> b);        }    }    // 写入剩余数据    while (hasA) {        out << a << '\n';        hasA = (f1 >> a);    }    while (hasB) {        out << b << '\n';        hasB = (f2 >> b);    }}

第三步：主函数整合

int main() {    // 假设原始数据在 "data.txt" 中    generateRuns("data.txt");    // 简化：假设有两个归并段 run_0.txt 和 run_1.txt    mergeTwoFiles("run_0.txt", "run_1.txt", "sorted_output.txt");    std::cout << "外部排序完成！结果保存在 sorted_output.txt" << std::endl;    return 0;}