当前位置：首页 > Python > 正文

Python序列挖掘入门教程（手把手教你用Python实现序列模式挖掘算法）

主机测评网
Python
2025-12-18
962

在当今大数据时代，Python序列挖掘成为从用户行为、交易记录、日志数据等时序数据中发现有价值模式的重要技术。无论是电商推荐系统、客户行为分析，还是生物信息学中的DNA序列研究，序列模式挖掘都发挥着关键作用。

本教程将带你从零开始，使用Python实现一个基础但实用的序列挖掘算法——PrefixSpan（前缀投影序列模式挖掘）。即使你是编程小白，也能轻松上手！

Python序列挖掘入门教程（手把手教你用Python实现序列模式挖掘算法） Python序列挖掘序列模式挖掘数据挖掘算法 Python数据挖掘第1张

什么是序列挖掘？

序列模式挖掘是从一系列有序事件（即“序列”）中找出频繁出现的子序列的过程。例如：

用户A的购物序列：[牛奶, 面包] → [鸡蛋] → [果汁]
用户B的购物序列：[面包] → [牛奶, 鸡蛋] → [果汁, 薯片]

我们可能发现频繁子序列：[牛奶] → [鸡蛋] → [果汁]，这有助于预测用户下一步行为。

准备工作：安装必要库

我们将使用纯Python实现，无需复杂依赖。但为了演示方便，可安装 pandas 用于数据处理：

pip install pandas

步骤一：理解PrefixSpan算法原理

PrefixSpan（Prefix-Projected Pattern Growth）是一种高效的序列模式挖掘算法，其核心思想是：

从空序列开始，逐步扩展前缀；
对每个前缀，在原始序列集中构建“投影数据库”；
在投影数据库中寻找能接在当前前缀后的频繁项；
递归地对新前缀进行挖掘，直到无法扩展。

步骤二：用Python实现PrefixSpan

下面是一个简化但功能完整的PrefixSpan实现：

from collections import defaultdictdef get_projection_database(sequences, prefix):    """根据前缀生成投影数据库"""    proj_db = []    for seq in sequences:        found = False        for i in range(len(seq)):            if set(prefix[-1]).issubset(set(seq[i])):                # 找到前缀最后一个元素的位置                remaining = seq[i+1:]                if remaining:                    proj_db.append(remaining)                found = True                break        if not found and len(prefix) == 1:            # 处理单元素前缀            for i in range(len(seq)):                if set(prefix[0]).issubset(set(seq[i])):                    remaining = seq[i+1:]                    if remaining:                        proj_db.append(remaining)                    break    return proj_dbdef find_frequent_items(proj_db, min_support):    """在投影数据库中找出频繁项"""    item_count = defaultdict(int)    for seq in proj_db:        seen_items = set()        for itemset in seq:            for item in itemset:                if item not in seen_items:                    item_count[item] += 1                    seen_items.add(item)        total_seqs = len(proj_db)    frequent_items = [        (item, count)         for item, count in item_count.items()         if count >= min_support    ]    return frequent_itemsdef prefixspan_recursive(sequences, prefix, min_support, patterns):    """递归挖掘频繁序列"""    proj_db = get_projection_database(sequences, prefix)    if not proj_db:        return        frequent_items = find_frequent_items(proj_db, min_support)    for item, _ in frequent_items:        new_prefix = prefix + [[item]]        patterns.append((new_prefix, len(get_projection_database(sequences, new_prefix))))        prefixspan_recursive(sequences, new_prefix, min_support, patterns)def prefixspan(sequences, min_support):    """主函数：执行PrefixSpan算法"""    # 初始化：找出所有频繁单项    all_items = defaultdict(int)    for seq in sequences:        seen = set()        for itemset in seq:            for item in itemset:                if item not in seen:                    all_items[item] += 1                    seen.add(item)        patterns = []    for item, count in all_items.items():        if count >= min_support:            prefix = [[item]]            patterns.append((prefix, count))            prefixspan_recursive(sequences, prefix, min_support, patterns)        return patterns# 示例数据：每个序列由多个项集组成sequences = [    [['A', 'B'], ['C'], ['D']],    [['A'], ['B'], ['C', 'D']],    [['B'], ['A', 'C'], ['D']],    [['A'], ['B', 'C'], ['D']],    [['A'], ['B'], ['C'], ['D']]]# 设置最小支持度为2min_sup = 2frequent_patterns = prefixspan(sequences, min_sup)print("频繁序列模式（支持度≥2）：")for pattern, support in frequent_patterns:    print(f"{pattern} : 支持度={support}")

步骤三：运行结果解读

运行上述代码，你将看到类似以下输出：

频繁序列模式（支持度≥2）：[['A']] : 支持度=4[['A'], ['B']] : 支持度=3[['A'], ['C']] : 支持度=3[['A'], ['D']] : 支持度=4[['B']] : 支持度=4[['B'], ['C']] : 支持度=3[['B'], ['D']] : 支持度=4[['C']] : 支持度=4[['C'], ['D']] : 支持度=4[['D']] : 支持度=5

这表示在5个序列中，有4个包含['A']，3个包含['A']后跟['B']等。这些就是我们通过Python数据挖掘技术发现的频繁序列模式。