当前位置：首页 > Python > 正文

Python实现机器翻译（从零开始构建神经网络翻译系统）

主机测评网
Python
2025-12-15
668

在人工智能飞速发展的今天，Python机器翻译已成为自然语言处理（NLP）领域的重要应用。无论你是编程新手还是希望深入了解神经网络翻译原理的学习者，本教程都将带你一步步用Python从零构建一个简单的机器翻译系统。

什么是机器翻译？

机器翻译（Machine Translation, MT）是指利用计算机自动将一种自然语言（源语言）转换为另一种自然语言（目标语言）的技术。早期的规则方法已被现代基于深度学习的方法所取代，其中最经典的就是seq2seq模型（Sequence-to-Sequence）。

Python实现机器翻译（从零开始构建神经网络翻译系统） Python机器翻译神经网络翻译 seq2seq模型小白学NLP 第1张

准备工作：安装必要库

在开始编码前，请确保你的环境中已安装以下Python库：

pip install tensorflow numpy pandas matplotlib

步骤一：准备双语数据集

为了训练翻译模型，我们需要一个平行语料库（即每句源语言对应一句目标语言）。这里我们使用一个简化的英文-西班牙语小数据集作为示例。

# 示例数据english_sentences = [    "I love programming",    "She is reading a book",    "They are playing football"]spanish_sentences = [    "Me encanta programar",    "Ella está leyendo un libro",    "Ellos están jugando al fútbol"]

步骤二：文本预处理

我们需要对文本进行清洗、分词，并添加特殊标记（如<start>和<end>），以便模型识别句子边界。

import redef preprocess_sentence(sentence):    # 转小写并清理标点    sentence = re.sub(r"[^\w\s]", "", sentence.lower())    # 添加起始和结束标记    return f"<start> {sentence} <end>"# 示例print(preprocess_sentence("I love programming"))# 输出: <start> i love programming <end>

步骤三：构建Seq2Seq模型

我们将使用TensorFlow/Keras构建一个基础的编码器-解码器架构。编码器读取输入句子并生成上下文向量，解码器根据该向量生成目标语言句子。

import tensorflow as tffrom tensorflow.keras.layers import Embedding, LSTM, Densefrom tensorflow.keras.models import Modelclass Encoder(tf.keras.Model):    def __init__(self, vocab_size, embedding_dim, enc_units):        super(Encoder, self).__init__()        self.embedding = Embedding(vocab_size, embedding_dim)        self.lstm = LSTM(enc_units, return_state=True)    def call(self, x):        x = self.embedding(x)        output, state_h, state_c = self.lstm(x)        return output, state_h, state_cclass Decoder(tf.keras.Model):    def __init__(self, vocab_size, embedding_dim, dec_units):        super(Decoder, self).__init__()        self.embedding = Embedding(vocab_size, embedding_dim)        self.lstm = LSTM(dec_units, return_sequences=True, return_state=True)        self.fc = Dense(vocab_size)    def call(self, x, hidden):        x = self.embedding(x)        output, state_h, state_c = self.lstm(x, initial_state=hidden)        logits = self.fc(output)        return logits, [state_h, state_c]