u09

CUDA 加速

系统架构

GPU 并行化解调

0 LOC0 个模块OOK解调+RLL解码CUDA核

>10x加速比

CUDA 加速

Jetson Orin NX — GPU Kernel Visualization

Pipeline Stage

CPU → GPU DMA

OOK Kernel

并行阈值判决

RLL Kernel

输出比特流

性能目标

GPU 延迟< 10ms

帧率≥ 30 fps

加速比> 10×

CUDA 并行加速

Jetson Orin NX 上的 GPU 并行解调架构。

1/10

GPU Parallelized Demodulation on Jetson Orin NX

架构

并行化策略

OOK 解调并行化

每个像素列独立进行阈值判决：

线程块：对应图像的每一列
线程：对应列内的每个像素点

__global__ void ook_demodulate_kernel(
    float* frame,      // 输入帧
    int8_t* output,    // 输出比特
    float threshold,   // 判决阈值
    int width, height
) {
    int col = blockIdx.x;
    int row = threadIdx.x;
    
    if (col >= width || row >= height) return;
    
    float val = frame[row * width + col];
    output[col] = (val > threshold) ? 1 : 0;
}

RLL 解码并行化

每个 6-bit 符号独立查表解码：

线程块：对应一组 6-bit 符号
线程：对应单个符号

当前状态

组件	状态
UTF-8 文字编码	✅ 完成
OOK 调制	✅ 完成
CUDA OOK 解调核	🔄 进行中
CUDA RLL 解码核	🔄 进行中

性能目标

指标	目标
解调延迟	< 10ms @ 1080p
帧率	≥ 30 fps
CUDA 加速比	> 10x vs CPU