Move YOLO Decoder from CPU to GPU

2022-02-17 15:21:35 -03:00
parent a82f1b8662
commit 91d15dda56
10 changed files with 339 additions and 279 deletions
--- a/nvdsinfer_custom_impl_Yolo/yoloForward_v2.cu
+++ b/nvdsinfer_custom_impl_Yolo/yoloForward_v2.cu
@@ -11,8 +11,28 @@

 inline __device__ float sigmoidGPU(const float& x) { return 1.0f / (1.0f + __expf(-x)); }

-__global__ void gpuRegionLayer(const float* input, float* output, const uint gridSizeX, const uint gridSizeY, const uint numOutputClasses,
-                               const uint numBBoxes)
+__device__ void softmaxGPU(const float* input, const int bbindex, const int numGridCells,
+                            uint z_id, const uint numOutputClasses, float temp, float* output)
+{
+    int i;
+    float sum = 0;
+    float largest = -INFINITY;
+    for (i = 0; i < numOutputClasses; ++i) {
+        int val = input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))];
+        largest = (val>largest) ? val : largest;
+    }
+    for (i = 0; i < numOutputClasses; ++i) {
+        float e = __expf(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))] / temp - largest / temp);
+        sum += e;
+        output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))] = e;
+    }
+    for (i = 0; i < numOutputClasses; ++i) {
+        output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))] /= sum;
+    }
+}
+
+__global__ void gpuRegionLayer(const float* input, float* output, float* softmax, const uint gridSizeX, const uint gridSizeY, const uint numOutputClasses,
+                               const uint numBBoxes, const float* anchors)
 {
    uint x_id = blockIdx.x * blockDim.x + threadIdx.x;
    uint y_id = blockIdx.y * blockDim.y + threadIdx.y;
@@ -27,43 +47,51 @@ __global__ void gpuRegionLayer(const float* input, float* output, const uint gri
    const int bbindex = y_id * gridSizeX + x_id;

    output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 0)]
-        = sigmoidGPU(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 0)]);
+        = sigmoidGPU(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 0)]) + x_id;

    output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 1)]
-        = sigmoidGPU(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 1)]);
+        = sigmoidGPU(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 1)]) + y_id;

    output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 2)]
-        = __expf(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 2)]);
+        = __expf(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 2)]) * anchors[z_id * 2];

    output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 3)]
-        = __expf(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 3)]);
+        = __expf(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 3)]) * anchors[z_id * 2 + 1];

-    output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 4)]
+    softmaxGPU(input, bbindex, numGridCells, z_id, numOutputClasses, 1.0, softmax);
+
+    const float objectness
        = sigmoidGPU(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 4)]);

-    float temp = 1.0;
-    int i;
-    float sum = 0;
-    float largest = -INFINITY;
-    for(i = 0; i < numOutputClasses; ++i){
-        int val = input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))];
-        largest = (val>largest) ? val : largest;
-    }
-    for(i = 0; i < numOutputClasses; ++i){
-        float e = exp(input[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))] / temp - largest / temp);
-        sum += e;
-        output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))] = e;
-    }
-    for(i = 0; i < numOutputClasses; ++i){
-        output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))] /= sum;
+    float maxProb = 0.0f;
+    int maxIndex = -1;
+
+    for (uint i = 0; i < numOutputClasses; ++i)
+    {
+        float prob
+            = softmax[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + (5 + i))];
+
+        if (prob > maxProb)
+        {
+            maxProb = prob;
+            maxIndex = i;
+        }
    }
+
+    output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 4)]
+        = objectness * maxProb;
+
+    output[bbindex + numGridCells * (z_id * (5 + numOutputClasses) + 5)]
+        = maxIndex;
 }

-cudaError_t cudaYoloLayer_v2(const void* input, void* output, const uint& batchSize, const uint& gridSizeX, const uint& gridSizeY,
-                            const uint& numOutputClasses, const uint& numBBoxes, uint64_t outputSize, cudaStream_t stream);
+cudaError_t cudaYoloLayer_v2(const void* input, void* output, void* softmax, const uint& batchSize, const uint& gridSizeX, const uint& gridSizeY,
+                            const uint& numOutputClasses, const uint& numBBoxes, uint64_t outputSize, cudaStream_t stream,
+                            const void* anchors);

-cudaError_t cudaYoloLayer_v2(const void* input, void* output, const uint& batchSize, const uint& gridSizeX, const uint& gridSizeY,
-                            const uint& numOutputClasses, const uint& numBBoxes, uint64_t outputSize, cudaStream_t stream)
+cudaError_t cudaYoloLayer_v2(const void* input, void* output, void* softmax, const uint& batchSize, const uint& gridSizeX, const uint& gridSizeY,
+                            const uint& numOutputClasses, const uint& numBBoxes, uint64_t outputSize, cudaStream_t stream,
+                            const void* anchors)
 {
    dim3 threads_per_block(16, 16, 4);
    dim3 number_of_blocks((gridSizeX / threads_per_block.x) + 1,
@@ -73,8 +101,9 @@ cudaError_t cudaYoloLayer_v2(const void* input, void* output, const uint& batchS
    {
        gpuRegionLayer<<<number_of_blocks, threads_per_block, 0, stream>>>(
            reinterpret_cast<const float*>(input) + (batch * outputSize),
-            reinterpret_cast<float*>(output) + (batch * outputSize), gridSizeX, gridSizeY, numOutputClasses,
-            numBBoxes);
+            reinterpret_cast<float*>(output) + (batch * outputSize), 
+            reinterpret_cast<float*>(softmax) + (batch * outputSize), gridSizeX, gridSizeY, numOutputClasses,
+            numBBoxes, reinterpret_cast<const float*>(anchors));
    }
    return cudaGetLastError();
 }