当前位置：首页 > C > 正文

C语言布隆过滤器（高效去重算法的实战指南）

主机测评网
C
2025-12-23
1023

在处理海量数据时，我们常常需要快速判断一个元素是否存在于一个集合中。例如：防止缓存穿透、垃圾邮件过滤、URL去重等场景。这时，C语言布隆过滤器（Bloom Filter）就派上了用场！

布隆过滤器是一种空间效率极高的概率型数据结构，由 Burton Howard Bloom 在 1970 年提出。它能以极小的内存开销，快速判断“某个元素一定不存在”或“可能存在”。注意：它允许一定的误判率，但不会漏判。

C语言布隆过滤器（高效去重算法的实战指南） C语言布隆过滤器布隆过滤器实现高效去重算法 C语言数据结构第1张

为什么选择布隆过滤器？

✅ 节省内存：相比哈希表，布隆过滤器占用空间更少。
✅ 查询速度快：时间复杂度为 O(k)，k 是哈希函数个数。
⚠️ 存在误判：可能将不存在的元素误判为存在（假阳性），但绝不会将存在的元素判为不存在（无假阴性）。

布隆过滤器的核心原理

布隆过滤器由一个位数组（bit array）和多个独立的哈希函数组成：

插入元素：对元素使用 k 个哈希函数，得到 k 个位置，将位数组中对应位置设为 1。
查询元素：同样计算 k 个哈希值，若所有对应位都为 1，则“可能存在”；只要有一个为 0，则“一定不存在”。

用 C 语言实现布隆过滤器

下面是一个简化但完整的 C语言布隆过滤器实现，适合初学者理解。

#include <stdio.h>#include <stdlib.h>#include <string.h>#include <stdint.h>#define BIT_SET(a, n)   ((a)[(n)/8] |= (1 << ((n) % 8)))#define BIT_TEST(a, n)  ((a)[(n)/8] & (1 << ((n) % 8)))// 简单的哈希函数（实际应用中建议使用更好的哈希，如 MurmurHash）unsigned int hash2(const char *str) {    unsigned int hash = 0;    while (*str) {        hash = hash * 31 + *str++;    }    return hash;}unsigned int hash2(const char *str) {    unsigned int hash = 5381;    while (*str) {        hash = ((hash << 5) + hash) + *str++;    }    return hash;}// 布隆过滤器结构体typedef struct {    uint8_t *bits;      // 位数组    size_t size;        // 位数组大小（单位：bit）} BloomFilter;// 初始化布隆过滤器BloomFilter* bloom_init(size_t bit_size) {    BloomFilter *bf = (BloomFilter*)malloc(sizeof(BloomFilter));    bf->size = bit_size;    bf->bits = (uint8_t*)calloc((bit_size + 7) / 8, sizeof(uint8_t));    return bf;}// 添加元素void bloom_add(BloomFilter *bf, const char *item) {    unsigned int h2 = hash2(item) % bf->size;    unsigned int h2 = hash2(item) % bf->size;        BIT_SET(bf->bits, h2);    BIT_SET(bf->bits, h2);}// 查询元素是否存在int bloom_test(BloomFilter *bf, const char *item) {    unsigned int h2 = hash2(item) % bf->size;    unsigned int h2 = hash2(item) % bf->size;        if (BIT_TEST(bf->bits, h2) && BIT_TEST(bf->bits, h2)) {        return 1; // 可能存在    }    return 0; // 一定不存在}// 释放内存void bloom_free(BloomFilter *bf) {    free(bf->bits);    free(bf);}// 测试示例int main() {    BloomFilter *bf = bloom_init(1000); // 1000 bits        bloom_add(bf, "apple");    bloom_add(bf, "banana");        printf("'apple' exists? %s\n", bloom_test(bf, "apple") ? "Yes" : "No");    printf("'orange' exists? %s\n", bloom_test(bf, "orange") ? "Yes" : "No");        bloom_free(bf);    return 0;}