作者 | 日期
| 模块 | 功能 | 核心技术 |
|---|---|---|
| 模块A | 特征提取 | CNN/Transformer |
| 模块B | 序列建模 | Attention |
一句话解释作用。
| 方法 | 优点 | 缺点 |
|---|---|---|
| 传统方法 | ... | ... |
| 本方法 | ... | ... |
\[ y = f(W \cdot x + b) \]
| 配置项 | 值 | 说明 |
|---|---|---|
| Batch Size | — | 训练批次大小 |
| Learning Rate | — | 初始学习率 |
| Optimizer | — | 优化器类型 |
| Loss Function | — | 损失函数设计 |
| Epochs | — | 训练轮次 |
| 配置项 | 值 | 说明 |
|---|---|---|
| Batch Size | — | 推理批次大小 |
| 解码策略 | — | Greedy/Beam/Sampling |
| 精度 | — | FP32/FP16/INT8 |
| 加速框架 | — | TensorRT/ONNX 等 |
| 维度 | 🟢 训练(Training) | 🔵 推理(Inference) |
|---|---|---|
| 数据流 | 带数据增强 + Shuffle | 原始输入,无增强 |
| 模型模式 | model.train() — Dropout/BN 激活 |
model.eval() — Dropout 关闭,BN 冻结 |
| 梯度 | 计算梯度,反向传播 | torch.no_grad(),无反向传播 |
| Loss | 计算 Loss + 正则化项 | 无 Loss 计算 |
| 后处理 | 无(直接算 Loss) | 解码策略(Beam Search 等) |
| 性能关注 | 收敛速度、显存占用 | 延迟、吞吐量、精度 |
| 加速手段 | 混合精度、梯度累积、DDP | 量化、KV Cache、TensorRT |