u09
CUDA 加速
系统架构GPU 并行化解调
0 LOC0 个模块OOK解调+RLL解码CUDA核
>10x加速比
GPU Parallelized Demodulation on Jetson Orin NX
架构
并行化策略
OOK 解调并行化
每个像素列独立进行阈值判决:
- 线程块:对应图像的每一列
- 线程:对应列内的每个像素点
__global__ void ook_demodulate_kernel(
float* frame, // 输入帧
int8_t* output, // 输出比特
float threshold, // 判决阈值
int width, height
) {
int col = blockIdx.x;
int row = threadIdx.x;
if (col >= width || row >= height) return;
float val = frame[row * width + col];
output[col] = (val > threshold) ? 1 : 0;
}
RLL 解码并行化
每个 6-bit 符号独立查表解码:
- 线程块:对应一组 6-bit 符号
- 线程:对应单个符号
当前状态
| 组件 | 状态 |
|---|---|
| UTF-8 文字编码 | ✅ 完成 |
| OOK 调制 | ✅ 完成 |
| CUDA OOK 解调核 | 🔄 进行中 |
| CUDA RLL 解码核 | 🔄 进行中 |
性能目标
| 指标 | 目标 |
|---|---|
| 解调延迟 | < 10ms @ 1080p |
| 帧率 | ≥ 30 fps |
| CUDA 加速比 | > 10x vs CPU |