UOCC 毕设知识网络
u09

CUDA 加速

系统架构

GPU 并行化解调

0 LOC0 个模块OOK解调+RLL解码CUDA核
>10x加速比

GPU Parallelized Demodulation on Jetson Orin NX

架构

并行化策略

OOK 解调并行化

每个像素列独立进行阈值判决:

  • 线程块:对应图像的每一列
  • 线程:对应列内的每个像素点
__global__ void ook_demodulate_kernel(
    float* frame,      // 输入帧
    int8_t* output,    // 输出比特
    float threshold,   // 判决阈值
    int width, height
) {
    int col = blockIdx.x;
    int row = threadIdx.x;
    
    if (col >= width || row >= height) return;
    
    float val = frame[row * width + col];
    output[col] = (val > threshold) ? 1 : 0;
}

RLL 解码并行化

每个 6-bit 符号独立查表解码:

  • 线程块:对应一组 6-bit 符号
  • 线程:对应单个符号

当前状态

组件状态
UTF-8 文字编码✅ 完成
OOK 调制✅ 完成
CUDA OOK 解调核🔄 进行中
CUDA RLL 解码核🔄 进行中

性能目标

指标目标
解调延迟< 10ms @ 1080p
帧率≥ 30 fps
CUDA 加速比> 10x vs CPU