d8/daa/_backend_conv2_d_8h_source.html

#pragma once


#if _MSC_VER >= 1900 && defined(_M_X64)


#include "BackendBase.h"

#include "Parameters.h"


namespace FLImaging

{

    namespace AI

    {

        #ifdef CUDNN_MODE

        template <typename T>

        class CCuda_Conv2D_Cudnn;

        #endif


        template <typename T>

        class FL_EXPORT CTensor;


        template <typename T>

        class FL_EXPORT CBackendConv2D : public CBackendBase<T>

        {

        public:

            CBackendConv2D();

            CBackendConv2D(const CBackendConv2D<T>& bc);

            virtual ~CBackendConv2D();


            virtual const CResult SetConvolutionParams(const CConvolutionParameters& convParams);

            virtual CConvolutionParameters GetConvolutionParams();

            virtual const CResult SetTransConvolutionParams(const CTransConvolutionParameters& convParams);

            virtual CTransConvolutionParameters GetTransConvolutionParams();


            virtual const CResult Forward(CTensor<T>* pTsrX, CTensor<T>* pTsrW, CTensor<T>* pTsrY, const std::vector<int64_t>& vctYShape);

            virtual const CResult DerivativeImage(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx, const std::vector<int64_t>& vctDxShape, bool bAddGradient, CTensor<T>* pTsrAddGradientTemp = nullptr, CTensor<T>* pTsrKernelBuffer = nullptr);

            virtual const CResult DerivativeKernel(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw, const std::vector<int64_t>& vctDwShape, bool bAddGradient, CTensor<T>* pTsrAddGradientTemp = nullptr);


            virtual const CResult TransConvForward(CTensor<T>* pTsrX, CTensor<T>* pTsrW, CTensor<T>* pTsrY, CTensor<T>* pTsrKernelTranspose = nullptr, CTensor<T>* pTsrKernelBuffer = nullptr);

            virtual const CResult TransConvDerivativeImage(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx, const std::vector<int64_t>& vctXShape, bool bAddGradient, CTensor<T>* pTsrKernelBuffer = nullptr, CTensor<T>* pTsrAddGradientTemp = nullptr);

            virtual const CResult TransConvDerivativeKernel(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw, const std::vector<int64_t>& vctDwShape, bool bAddGradient, CTensor<T>* pTsrInputTranspose = nullptr, CTensor<T>* pTsrKernelTranspose = nullptr, CTensor<T>* pTsrAddGradientTemp = nullptr);


            DeclareGetClassType();

            SupportToDuplicateObjectWithoutCreateNewObject(CBackendConv2D<T>, *this);


        protected:

            virtual const CResult ForwardGEMM(CTensor<T>* pTsrOperand, CTensor<T>* pTsrKernel, CTensor<T>* pTsrResult);

            virtual void Im2Col(const T* pTData_im, const int32_t i32Channels, const int32_t i32Height, const int32_t i32Width, const int32_t i32Kernel_h, const int32_t i32Kernel_w, const int32_t i32Pad_h, const int32_t i32Pad_w, const int32_t i32Stride_h, const int32_t i32Stride_w, const int32_t i32Dilation_h, const int32_t i32Dilation_w, T* pTData_col, const int32_t i32OutputH=0,const int32_t i32OutputW = 0);

            virtual void Im2ColTranspose(const T* pTData_im, const int32_t i32Channels, const int32_t i32Height, const int32_t i32Width, const int32_t i32Kernel_h, const int32_t i32Kernel_w, const int32_t i32Pad_h, const int32_t i32Pad_w, const int32_t i32Stride_h, const int32_t i32Stride_w, const int32_t i32Dilation_h, const int32_t i32Dilation_w, T* pTData_col, const int32_t i32OutputH = 0, const int32_t i32OutputW = 0);

            virtual void Col2Im(const T* PTData_col, const int32_t i32Channels, const int32_t i32Height, const int32_t width, const int32_t i32Kernel_h, const int32_t i32Kernel_w,const int32_t i32Pad_h, const int32_t i32Pad_w,const int32_t i32Stride_h, const int32_t i32Stride_w,const int32_t i32Dilation_h, const int32_t i32Dilation_w,T* pTData_im, const int32_t i32OutputH = 0, const int32_t i32OutputW = 0);


            virtual void GEMM(int32_t i32M, int32_t i32N, int32_t i32K, T tAlpha, const T* pTA, int32_t i32Lda, const T* pTB, int32_t i32Ldb, T BETA, T* pTC, int32_t i32Ldc);


        protected:

            virtual const CResult ForwardConvImpGEMMCPU(CTensor<T>* pTsrX, CTensor<T>* pTsrW, CTensor<T>* pTsrY);

            virtual void GEMMUnit16MostN(int32_t i32M, int32_t i32N, int32_t i32K, const T* pTA, int32_t i32Lda, const T* pTB, int32_t i32Ldb, T BETA, T* pTC, int32_t i32Ldc);

            virtual void GEMMUnit16MostM(int32_t i32M, int32_t i32N, int32_t i32K, const T* pTA, int32_t i32Lda, const T* pTB, int32_t i32Ldb, T BETA, T* pTC, int32_t i32Ldc);


            virtual void GEMMUnit36MostN(int32_t i32M, int32_t i32N, int32_t i32K, const T* pTA, int32_t i32Lda, const T* pTB, int32_t i32Ldb, T BETA, T* pTC, int32_t i32Ldc);

            virtual void GEMMUnit36MostM(int32_t i32M, int32_t i32N, int32_t i32K, const T* pTA, int32_t i32Lda, const T* pTB, int32_t i32Ldb, T BETA, T* pTC, int32_t i32Ldc);


            virtual void DyToTransformBatchColumn(const T* pTDy, T* pTDyTransform, int64_t i64DyBatch, int64_t i64DyChannel, int64_t i64DyHeight, int64_t i64DyWidth, int64_t i64DyTFColumn);

            virtual void DyToTransform4x4BatchRow(const T* pTDy, T* pTDyTransform, int64_t i64DyBatch, int64_t i64DyChannel, int64_t i64DyHeight, int64_t i64DyWidth, int64_t i64DyTFColumn);

            virtual void DyToTransform6x6BatchRow(const T* pTDy, T* pTDyTransform, int64_t i64DyBatch, int64_t i64DyChannel, int64_t i64DyHeight, int64_t i64DyWidth, int64_t i64DyTFColumn);


            virtual void KernelToTransform4x4(const T* pTKernel, T* pTTransform, int64_t i64KernelBatch, int64_t i64Ch, int64_t i64KernelHeight, int64_t i64KernelWidth);

            virtual void KernelToTransform6x6(const T* pTKernel, T* pTTransform, int64_t i64KernelBatch, int64_t i64Ch, int64_t i64KernelHeight, int64_t i64KernelWidth);


            virtual void InputToTransform6x6ChRow(const T* pTInput, T* pTTransform, int64_t i64Ch, int64_t i64Height, int64_t i64Width, int64_t i64PadH, int64_t i64PadW);

            virtual void InputToTransformChRow(const T* pTInput, T* pTTransform, int64_t i64Ch, int64_t i64Height, int64_t i64Width, int64_t i64PadH, int64_t i64PadW);

            virtual void InputToTransform6x6BatchRow(const T* pTInput, T* pTTransform, int64_t i64Ch, int64_t i64Height, int64_t i64Width, int64_t i64PadH, int64_t i64PadW);

            virtual void InputToTransformBatchRow(const T* pTInput, T* pTTransform, int64_t i64Batch, int64_t i64Ch, int64_t i64Height, int64_t i64Width, int64_t i64PadH, int64_t i64PadW);

            virtual void InputToTransformChColumn(const T* pTInput, T* pTTransform, int64_t i64Ch, int64_t i64Height, int64_t i64Width, int64_t i64PadH, int64_t i64PadW);


            virtual void YTransformToOutput4x4(const T* pTOutputTransform, T* pTOutput, int64_t i64OutputCh, int64_t i64InputCh, int64_t i64InputH, int64_t i64InputW, int64_t i64PadH, int64_t i64PadW);

            virtual void YTransformToOutput6x6(const T* pTOutputTransform, T* pTOutput, int64_t i64OutputCh, int64_t i64InputCh, int64_t i64InputH, int64_t i64InputW, int64_t i64PadH, int64_t i64PadW);

            virtual const CResult Forward_ConvWinograd(CTensor<T>* pTsrX, CTensor<T>* pTsrW, CTensor<T>* pTsrY);

            virtual const CResult Forward_ConvDirect(CTensor<T>* pTsrX, CTensor<T>* pTsrW, CTensor<T>* pTsrY);

            virtual const CResult DerivativeImage_ConvGEMM(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx, CTensor<T>* pTsrKernelBuffer);

            virtual const CResult DerivativeImage_Direct(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx);

            virtual const CResult DerivativeImage_Winograd(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx, CTensor<T>* pTsrKernelBuffer);

            virtual const CResult DerivativeKernel_ConvGEMM(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw);

            virtual const CResult DerivativeKernel_Direct(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw);

            virtual const CResult DerivativeKernel_Winograd(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw);


            // atrous

            virtual const CResult Forward_AtrousConvDirect(CTensor<T>* pTsrOperand, CTensor<T>* pTsrKernel, CTensor<T>* pTsrResult);

            virtual const CResult DerivativeImage_Direct_Atrous(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx);

            virtual const CResult DerivativeKernel_Direct_Atrous(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw);


            //Group

            virtual const CResult Forward_GroupConvDirect(CTensor<T>* pTsrOperand, CTensor<T>* pTsrKernel, CTensor<T>* pTsrResult);

            virtual const CResult DerivativeImage_Direct_Group(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx);

            virtual const CResult DerivativeKernel_Direct_Group(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw);


            virtual const CResult ForwardGEMM_Group(CTensor<T>* pTsrOperand, CTensor<T>* pTsrKernel, CTensor<T>* pTsrResult);

            virtual const CResult DerivativeImage_ConvGEMM_Group(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx, CTensor<T>* pTsrKernelBuffer);

            virtual const CResult DerivativeKernel_ConvGEMM_Group(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw);


            virtual const CResult Forward_ConvWinograd_Group(CTensor<T>* pTsrX, CTensor<T>* pTsrW, CTensor<T>* pTsrY);

            virtual const CResult DerivativeImage_Winograd_Group(CTensor<T>* pTsrDy, CTensor<T>* pTsrW, CTensor<T>* pTsrDx, CTensor<T>* pTsrKernelBuffer);

            virtual const CResult DerivativeKernel_Winograd_Group(CTensor<T>* pTsrDy, CTensor<T>* pTsrX, CTensor<T>* pTsrDw);


        protected:

            CConvolutionParameters m_convParams;

            int64_t m_i64OutputPaddingY;

            int64_t m_i64OutputPaddingX;


            #ifdef CUDNN_MODE

            CCuda_Conv2D_Cudnn<T>* m_pCudnn;

            #endif

        };

    }

}


#endif

FLImaging::AI
Definition AlgorithmAIBase.h:18

FLImaging