米联客FDMA IP在安路FPGA上实现DDR视频缓存(带源码)
1 概述本系统中,主要使用了安路PH1A系列FPGA PH1A180SFG676 FPGA芯片,该芯片具有最大226个GPIO、210K 等效LUT4s、600个DSP、129Kbit ERAM、16个PLL、2组MIPI 4Lane 或者1组MIPI 8lane CSI ,单lane速度高达2.5Gbps,具备高速Serdes速度可达12.5G可以支持PCIE3.0、HDMI4K、12G-SDI等高速应用,该FPGA还可以支持DDR3或者DDR4内存颗粒。本系统方案中硬件使用了米联客基于PH1A系列FPGA PH1A180SFG676 FPGA芯片和米联客CAM001-CS500摄像头。数据缓存采用米联客自研的AXI-FDMA及AXI-FDMA_DBUF IP,作用是将图像送入DDR中进行缓存之后再显示出来。2 系统框图3 方案介绍3.1 uiFDMA IP分析AXI-FDMA IP是米联客的基于AXI4总线协议定制的一个DMA控制器。本文对AXI4-FULL总线接口进行了封装,同时定义了简单的APP接口提供用户调用AXI4总线实现数据交互。这个IP 我们命名为FDMA(Fast Direct Memory Access)。有了这个IP我们可以统一实现用FPGA代码直接读写PL的DDR,并且支持包括XILINX、安路等具有AXI接口的DDR控制或者BRAM等。AXI-FDMA IP参数端口可以设置AXI4的最大burst长度,当挂在支持MUX的IP上,可以在多个FDMA同时使用的时候,通过设置合理的burst长度,来优化总线上某个通路同一时刻独占AXI4总线的时间。3.1.1 FDMA的写时序fdma_wready设置为1,当fdma_wbusy=0的时候代表FDMA的总线非忙,可以进行一次新的FDMA传输,这个时候可以设置fdma_wreq=1,同时设置fdma burst的起始地址和fdma_wsize本次需要传输的数据大小(以bytes为单位)。当fdma_wvalid=1的时候需要给出有效的数据,写入AXI总线。当最后一个数写完后,fdma_wvalid和fdma_wbusy变为0。AXI4总线最大的burst lenth是256,而经过封装后,用户接口的fdma_size可以任意大小的,fdma ip内部代码控制每次AXI4总线的Burst长度,这样极大简化了AXI4总线协议的使用。以下给出FDMA写操作源码部分的时序图。下图中一次传输以传输262个长度的数据为例,如果需要MAX_BURST_LEN_SIZE 设置了最大值256,那么2次AXI4 BURST才能完成,第一次传输256个长度数据,第二次传输6个长度的数据。3.1.2 FDMA的读时序fdma_rready设置为1,当fdma_rbusy=0的时候代表FDMA的总线非忙,可以进行一次新的FDMA传输,这个时候可以设置fdma_rreq=1,同时设置fdma burst的起始地址和fdma_rsize本次需要传输的数据大小(以bytes为单位)。当fdma_rvalid=1的时候需要给出有效的数据,写入AXI总线。当最后一个数写完后,fdma_rvalid和fdma_rbusy变为0。同样对于AXI4总线的读操作,AXI4总线最大的burst lenth是256,而经过封装后,用户接口的fdma_size可以任意大小的,fdma ip内部代码控制每次AXI4总线的Burst长度,这样极大简化了AXI4总线协议的使用。以上代码我们进行了详细的注释性分析。FDMA的读写代码高度对称,以上源码和以下波形图都和写操作类似,理解起会提高很多效率。以下给出FDMA读操作源码部分的时序图。下图中一次传输以传输262个长度的数据为例,如果需要MAX_BURST_LEN_SIZE 设置了最大值256,那么2次AXI4 BURST才能完成,第一次传输256个长度数据,第二次传输6个长度的数据。3.1.3 AXI-FDMA控制器源码/*********uiFDMA(AXI-FAST DMA Controller)基于AXI总线的自定义内存控制器***********--版本号3.1--1.代码简洁,占用极少逻辑资源,代码结构清晰,逻辑设计严谨,读写对称--2.fdma控制信号,简化了AXI总线的控制,根据I_fdma_wsize和I_fdma_rsize可以自动完成AXI总线的控制,完成数据的搬运*********************************************************************/
module uiFDMA#(parameterinteger M_AXI_ID_WIDTH = 3 , //ID,demo中没用到parameterinteger M_AXI_ID = 0 , //ID,demo中没用到parameterinteger M_AXI_ADDR_WIDTH = 32 ,//内存地址位宽parameterinteger M_AXI_DATA_WIDTH = 128 ,//AXI总线的数据位宽parameterinteger M_AXI_MAX_BURST_LEN = 64 //AXI总线的burst 大小,对于AXI4,支持任意长度,对于AXI3以下最大16)(input wire I_fdma_waddr ,//FDMA写通道地址input I_fdma_wareq ,//FDMA写通道请求input wire I_fdma_wsize ,//FDMA写通道一次FDMA的传输大小 output O_fdma_wbusy ,//FDMA处于BUSY状态,AXI总线正在写操作
input wire I_fdma_wdata ,//FDMA写数据outputwire O_fdma_wvalid ,//FDMA 写有效input wire I_fdma_wready ,//FDMA写准备好,用户可以写数据
input wire I_fdma_raddr ,// FDMA读通道地址input I_fdma_rareq ,// FDMA读通道请求input wire I_fdma_rsize ,// FDMA读通道一次FDMA的传输大小 output O_fdma_rbusy ,// FDMA处于BUSY状态,AXI总线正在读操作
outputwire O_fdma_rdata ,// FDMA读数据outputwire O_fdma_rvalid ,// FDMA 读有效input wire I_fdma_rready ,// FDMA读准备好,用户可以读数据
//以下为AXI总线信号 input wire M_AXI_ACLK ,input wire M_AXI_ARESETN ,outputwire M_AXI_AWID ,outputwire M_AXI_AWADDR ,outputwire M_AXI_AWLEN ,outputwire M_AXI_AWSIZE ,outputwire M_AXI_AWBURST ,outputwire M_AXI_AWLOCK ,outputwire M_AXI_AWCACHE ,outputwire M_AXI_AWPROT ,outputwire M_AXI_AWQOS ,outputwire M_AXI_AWVALID ,input wire M_AXI_AWREADY ,outputwire M_AXI_WID ,outputwire M_AXI_WDATA ,outputwire M_AXI_WSTRB ,outputwire M_AXI_WLAST , outputwire M_AXI_WVALID ,input wire M_AXI_WREADY ,input wire M_AXI_BID ,input wire M_AXI_BRESP ,input wire M_AXI_BVALID ,outputwire M_AXI_BREADY ,outputwire M_AXI_ARID ,
outputwire M_AXI_ARADDR , outputwire M_AXI_ARLEN , outputwire M_AXI_ARSIZE , outputwire M_AXI_ARBURST , outputwire M_AXI_ARLOCK , outputwire M_AXI_ARCACHE , outputwire M_AXI_ARPROT , outputwire M_AXI_ARQOS , outputwire M_AXI_ARVALID , input wire M_AXI_ARREADY , input wire M_AXI_RID , input wire M_AXI_RDATA , input wire M_AXI_RRESP , input wire M_AXI_RLAST , input wire M_AXI_RVALID , outputwire M_AXI_RREADY );
//计算数据位宽function integer clogb2 (input integer bit_depth); begin for(clogb2=0; bit_depth>0; clogb2=clogb2+1) bit_depth = bit_depth >> 1; end endfunction
localparam AXI_BYTES =M_AXI_DATA_WIDTH/8;localparam MAX_BURST_LEN_SIZE = clogb2(M_AXI_MAX_BURST_LEN -1);
//fdma axi write----------------------------------------------reg axi_awaddr=0; //AXI4 写地址reg axi_awvalid = 1'b0; //AXI4 写地有效wire axi_wdata ; //AXI4 写数据wire axi_wlast ; //AXI4 写LAST信号reg axi_wvalid= 1'b0; //AXI4 写数据有效wire w_next= (M_AXI_WVALID & M_AXI_WREADY);//当valid ready信号都有效,代表AXI4数据传输有效reg wburst_len= 1; //写传输的axi burst长度,代码会自动计算每次axi传输的burst 长度reg wburst_cnt= 0; //每次axi bust的计数器reg wfdma_cnt = 0;//fdma的写数据计数器reg axi_wstart_locked=0;//axi 传输进行中,lock住,用于时序控制wire axi_wburst_size = wburst_len * AXI_BYTES;//axi 传输的地址长度计算
assign M_AXI_AWID = M_AXI_ID; //写地址ID,用来标志一组写信号, M_AXI_ID是通过参数接口定义assign M_AXI_AWADDR = axi_awaddr;assign M_AXI_AWLEN = wburst_len - 1;//AXI4 burst的长度assign M_AXI_AWSIZE = clogb2(AXI_BYTES-1);assign M_AXI_AWBURST = 2'b01;//AXI4的busr类型INCR模式,地址递增assign M_AXI_AWLOCK = 1'b0;assign M_AXI_AWCACHE = 4'b0010;//不使用cache,不使用bufferassign M_AXI_AWPROT = 3'h0;assign M_AXI_AWQOS = 4'h0;assign M_AXI_AWVALID = axi_awvalid;assign M_AXI_WDATA = axi_wdata;assign M_AXI_WSTRB = {(AXI_BYTES){1'b1}};//设置所有的WSTRB为1代表传输的所有数据有效assign M_AXI_WLAST = axi_wlast;assign M_AXI_WVALID = axi_wvalid & I_fdma_wready;//写数据有效,这里必须设置I_fdma_wready有效assign M_AXI_BREADY = 1'b1;//----------------------------------------------------------------------------//AXI4 FULL Writeassignaxi_wdata = I_fdma_wdata;assignO_fdma_wvalid = w_next;reg fdma_wstart_locked = 1'b0;wire fdma_wend;wire fdma_wstart;assign O_fdma_wbusy = fdma_wstart_locked ;//在整个写过程中fdma_wstart_locked将保持有效,直到本次FDMA写结束always @(posedge M_AXI_ACLK) if(M_AXI_ARESETN == 1'b0 || fdma_wend == 1'b1 ) fdma_wstart_locked <= 1'b0; else if(fdma_wstart) fdma_wstart_locked <= 1'b1; //产生fdma_wstart信号,整个信号保持1个M_AXI_ACLK时钟周期assign fdma_wstart = (fdma_wstart_locked == 1'b0 && I_fdma_wareq == 1'b1);
//AXI4 write burst lenth busrt addr ------------------------------//当fdma_wstart信号有效,代表一次新的FDMA传输,首先把地址本次fdma的burst地址寄存到axi_awaddr作为第一次axi burst的地址。如果fdma的数据长度大于256,那么当axi_wlast有效的时候,自动计算下次axi的burst地址always @(posedge M_AXI_ACLK) if(fdma_wstart) axi_awaddr <= I_fdma_waddr; else if(axi_wlast == 1'b1) axi_awaddr <= axi_awaddr + axi_wburst_size ; //AXI4 write cycle -----------------------------------------------//axi_wstart_locked_r1, axi_wstart_locked_r2信号是用于时序同步reg axi_wstart_locked_r1 = 1'b0, axi_wstart_locked_r2 = 1'b0;always @(posedge M_AXI_ACLK)begin axi_wstart_locked_r1 <= axi_wstart_locked; axi_wstart_locked_r2 <= axi_wstart_locked_r1;end// axi_wstart_locked的作用代表一次axi写burst操作正在进行中。always @(posedge M_AXI_ACLK) if((fdma_wstart_locked == 1'b1) &&axi_wstart_locked == 1'b0) axi_wstart_locked <= 1'b1; else if(axi_wlast == 1'b1 || fdma_wstart == 1'b1) axi_wstart_locked <= 1'b0;
//AXI4 addr valid and write addr-----------------------------------always @(posedge M_AXI_ACLK) if((axi_wstart_locked_r1 == 1'b1) &&axi_wstart_locked_r2 == 1'b0) axi_awvalid <= 1'b1; else if((axi_wstart_locked == 1'b1 && M_AXI_AWREADY == 1'b1)|| axi_wstart_locked == 1'b0) axi_awvalid <= 1'b0; //AXI4 write data--------------------------------------------------- always @(posedge M_AXI_ACLK) if((axi_wstart_locked_r1 == 1'b1) &&axi_wstart_locked_r2 == 1'b0) axi_wvalid <= 1'b1; else if(axi_wlast == 1'b1 || axi_wstart_locked == 1'b0) axi_wvalid <= 1'b0;////AXI4 write data burst len counter----------------------------------always @(posedge M_AXI_ACLK) if(axi_wstart_locked == 1'b0) wburst_cnt <= 'd0; else if(w_next) wburst_cnt <= wburst_cnt + 1'b1;
assign axi_wlast = (w_next == 1'b1) && (wburst_cnt == M_AXI_AWLEN);//fdma write data burst len counter----------------------------------reg wburst_len_req = 1'b0;reg fdma_wleft_cnt =16'd0;
// wburst_len_req信号是自动管理每次axi需要burst的长度always @(posedge M_AXI_ACLK) wburst_len_req <= fdma_wstart|axi_wlast;
// fdma_wleft_cnt用于记录一次FDMA剩余需要传输的数据数量always @(posedge M_AXI_ACLK) if( fdma_wstart )begin wfdma_cnt <= 1'd0; fdma_wleft_cnt <= I_fdma_wsize; end else if(w_next)begin wfdma_cnt <= wfdma_cnt + 1'b1; fdma_wleft_cnt <= (I_fdma_wsize - 1'b1) - wfdma_cnt; end//当最后一个数据的时候,产生fdma_wend信号代表本次fdma传输结束assignfdma_wend = w_next && (fdma_wleft_cnt == 1 );//一次axi最大传输的长度是256因此当大于256,自动拆分多次传输always @(posedge M_AXI_ACLK)begin if(M_AXI_ARESETN == 1'b0)begin wburst_len <= 1; end else if(wburst_len_req)begin if(fdma_wleft_cnt >0) wburst_len <= M_AXI_MAX_BURST_LEN; else wburst_len <= fdma_wleft_cnt; end else wburst_len <= wburst_len;end
//fdma axi read----------------------------------------------reg axi_araddr =0 ; //AXI4 读地址reg axi_arvalid=1'b0; //AXI4读地有效wire axi_rlast ; //AXI4 读LAST信号reg axi_rready= 1'b0;//AXI4读准备好wire r_next = (M_AXI_RVALID && M_AXI_RREADY);// 当valid ready信号都有效,代表AXI4数据传输有效reg rburst_len= 1; //读传输的axi burst长度,代码会自动计算每次axi传输的burst 长度reg rburst_cnt= 0; //每次axi bust的计数器reg rfdma_cnt = 0; //fdma的读数据计数器reg axi_rstart_locked =0; //axi 传输进行中,lock住,用于时序控制wire axi_rburst_size = rburst_len * AXI_BYTES; //axi 传输的地址长度计算
assign M_AXI_ARID = M_AXI_ID; //读地址ID,用来标志一组写信号, M_AXI_ID是通过参数接口定义assign M_AXI_ARADDR = axi_araddr;assign M_AXI_ARLEN = rburst_len - 1; //AXI4 burst的长度assign M_AXI_ARSIZE = clogb2((AXI_BYTES)-1);assign M_AXI_ARBURST = 2'b01; //AXI4的busr类型INCR模式,地址递增assign M_AXI_ARLOCK = 1'b0; //不使用cache,不使用bufferassign M_AXI_ARCACHE = 4'b0010;assign M_AXI_ARPROT = 3'h0;assign M_AXI_ARQOS = 4'h0;assign M_AXI_ARVALID = axi_arvalid;assign M_AXI_RREADY = axi_rready&&I_fdma_rready; //读数据准备好,这里必须设置I_fdma_rready有效assign O_fdma_rdata = M_AXI_RDATA; assign O_fdma_rvalid = r_next;
//AXI4 FULL Read-----------------------------------------
reg fdma_rstart_locked = 1'b0;wire fdma_rend;wire fdma_rstart;assign O_fdma_rbusy = fdma_rstart_locked ;//在整个读过程中fdma_rstart_locked将保持有效,直到本次FDMA写结束always @(posedge M_AXI_ACLK) if(M_AXI_ARESETN == 1'b0 || fdma_rend == 1'b1) fdma_rstart_locked <= 1'b0; else if(fdma_rstart) fdma_rstart_locked <= 1'b1; //产生fdma_rstart信号,整个信号保持1个M_AXI_ACLK时钟周期assign fdma_rstart = (fdma_rstart_locked == 1'b0 && I_fdma_rareq == 1'b1); //AXI4 read burst lenth busrt addr ------------------------------//当fdma_rstart信号有效,代表一次新的FDMA传输,首先把地址本次fdma的burst地址寄存到axi_araddr作为第一次axi burst的地址。如果fdma的数据长度大于256,那么当axi_rlast有效的时候,自动计算下次axi的burst地址always @(posedge M_AXI_ACLK) if(fdma_rstart == 1'b1) axi_araddr <= I_fdma_raddr; else if(axi_rlast == 1'b1) axi_araddr <= axi_araddr + axi_rburst_size ; //AXI4 r_cycle_flag------------------------------------- //axi_rstart_locked_r1, axi_rstart_locked_r2信号是用于时序同步reg axi_rstart_locked_r1 = 1'b0, axi_rstart_locked_r2 = 1'b0;always @(posedge M_AXI_ACLK)begin axi_rstart_locked_r1 <= axi_rstart_locked; axi_rstart_locked_r2 <= axi_rstart_locked_r1;end// axi_rstart_locked的作用代表一次axi读burst操作正在进行中。always @(posedge M_AXI_ACLK) if((fdma_rstart_locked == 1'b1) &&axi_rstart_locked == 1'b0) axi_rstart_locked <= 1'b1; else if(axi_rlast == 1'b1 || fdma_rstart == 1'b1) axi_rstart_locked <= 1'b0;//AXI4 addr valid and read addr-----------------------------------always @(posedge M_AXI_ACLK) if((axi_rstart_locked_r1 == 1'b1) &&axi_rstart_locked_r2 == 1'b0) axi_arvalid <= 1'b1; else if((axi_rstart_locked == 1'b1 && M_AXI_ARREADY == 1'b1)|| axi_rstart_locked == 1'b0) axi_arvalid <= 1'b0; //AXI4 read data--------------------------------------------------- always @(posedge M_AXI_ACLK) if((axi_rstart_locked_r1 == 1'b1) &&axi_rstart_locked_r2 == 1'b0) axi_rready <= 1'b1; else if(axi_rlast == 1'b1 || axi_rstart_locked == 1'b0) axi_rready <= 1'b0;////AXI4 read data burst len counter----------------------------------always @(posedge M_AXI_ACLK) if(axi_rstart_locked == 1'b0) rburst_cnt <= 'd0; else if(r_next) rburst_cnt <= rburst_cnt + 1'b1; assign axi_rlast = (r_next == 1'b1) && (rburst_cnt == M_AXI_ARLEN);//fdma read data burst len counter----------------------------------reg rburst_len_req = 1'b0;reg fdma_rleft_cnt =16'd0;// rburst_len_req信号是自动管理每次axi需要burst的长度always @(posedge M_AXI_ACLK) rburst_len_req <= fdma_rstart | axi_rlast;// fdma_rleft_cnt用于记录一次FDMA剩余需要传输的数据数量 always @(posedge M_AXI_ACLK) if(fdma_rstart )begin rfdma_cnt <= 1'd0; fdma_rleft_cnt <= I_fdma_rsize; end else if(r_next)begin rfdma_cnt <= rfdma_cnt + 1'b1; fdma_rleft_cnt <= (I_fdma_rsize - 1'b1) - rfdma_cnt; end//当最后一个数据的时候,产生fdma_rend信号代表本次fdma传输结束assignfdma_rend = r_next && (fdma_rleft_cnt == 1 );//axi auto burst len caculate-----------------------------------------//一次axi最大传输的长度是256因此当大于256,自动拆分多次传输always @(posedge M_AXI_ACLK)begin if(M_AXI_ARESETN == 1'b0)begin rburst_len <= 1; end else if(rburst_len_req)begin if(fdma_rleft_cnt >0) rburst_len <= M_AXI_MAX_BURST_LEN; else rburst_len <= fdma_rleft_cnt; end else rburst_len <= rburst_len;end
3.2 uidbuf IP分析FDMA-DBUF IP代码采用"对称设计"方法,读写代码对称,好处是代码结构清晰,读写过程一致,代码效率高,更加容易维护。3.2.1: FDMA-DBUF写状态机为了配合AXI-FDMA IP发送数据到PS,我们写了一个uifdmadbuf ip,通过这个IP把用户编写的数据时序,转为AXI-FMDA接口数据流。该IP支持视频格式的帧同步,每一帧都进行同步,也支持没有帧同步的数据流方式传输。3.2.3: FDMA-DBUF读状态机读数据的过程和写数据的过程是对称的,状态机如下:为了配合AXI-FDMA IP发送数据到FPGA,我们写了一个uifdmadbuf ip,通过这个IP把用户编写的数据时序,转为AXI-FMDA接口数据流。该IP支持视频格式的帧同步,每一帧都进行同步,也支持没有帧同步的数据流方式传输。3.2.4 uidbuf源码
`timescale 1ns / 1ns
module uidbuf#(parameterinteger VIDEO_ENABLE = 1,//使能视频帧支持功能parameterinteger ENABLE_WRITE = 1,//使能写通道parameterinteger ENABLE_READ = 1,//使能读通道
parameterinteger AXI_DATA_WIDTH = 128,//AXI总线数据位宽parameterinteger AXI_ADDR_WIDTH = 32, //AXI总线地址位宽
parameterinteger W_BUFDEPTH = 2048, //写通道AXI设置FIFO缓存大小parameterinteger W_DATAWIDTH = 32,//写通道AXI设置数据位宽大小parameter W_BASEADDR = 0, //写通道设置内存起始地址parameterinteger W_DSIZEBITS = 24, //写通道设置缓存数据的增量地址大小,用于FDMA DBUF 计算帧缓存起始地址parameterinteger W_XSIZE = 1920, //写通道设置X方向的数据大小,代表了每次FDMA 传输的数据长度parameterinteger W_XSTRIDE = 1920, //写通道设置X方向的Stride值,主要用于图形缓存应用parameterinteger W_YSIZE = 1080, //写通道设置Y方向值,代表了进行了多少次XSIZE传输parameterinteger W_XDIV = 2, //写通道对X方向数据拆分为XDIV次传输,减少FIFO的使用parameterinteger W_BUFSIZE = 3, //写通道设置帧缓存大小,目前最大支持128帧,可以修改参数支持更缓存数
parameterinteger R_BUFDEPTH = 2048, //读通道AXI设置FIFO缓存大小parameterinteger R_DATAWIDTH = 32, //读通道AXI设置数据位宽大小parameter R_BASEADDR = 0, //读通道设置内存起始地址parameterinteger R_DSIZEBITS = 24, //读通道设置缓存数据的增量地址大小,用于FDMA DBUF 计算帧缓存起始地址parameterinteger R_XSIZE = 1920, //读通道设置X方向的数据大小,代表了每次FDMA 传输的数据长度parameterinteger R_XSTRIDE = 1920, //读通道设置X方向的Stride值,主要用于图形缓存应用parameterinteger R_YSIZE = 1080, //读通道设置Y方向值,代表了进行了多少次XSIZE传输parameterinteger R_XDIV = 2, //读通道对X方向数据拆分为XDIV次传输,减少FIFO的使用parameterinteger R_BUFSIZE = 3 //读通道设置帧缓存大小,目前最大支持128帧,可以修改参数支持更缓存数)(input wire I_ui_clk, //和FDMA AXI总线时钟一致input wire I_ui_rstn, //和FDMA AXI复位一致//sensor input -W_FIFO--------------input wire I_W_clk, //用户写数据接口时钟input wire I_W_FS, //用户写数据接口同步信号,对于非视频帧一般设置为1input wire I_W_wren, //用户写数据使能input wire I_W_data, //用户写数据output reg O_W_sync_cnt =0, //写通道BUF帧同步输出inputwire I_W_buf, // 写通道BUF帧同步输入output wire O_W_full,
//----------fdma signals write------- output wire O_fdma_waddr, //FDMA写通道地址output wire O_fdma_wareq, //FDMA写通道请求output wire O_fdma_wsize, //FDMA写通道一次FDMA的传输大小 inputwire I_fdma_wbusy, //FDMA处于BUSY状态,AXI总线正在写操作output wire O_fdma_wdata, //FDMA写数据inputwire I_fdma_wvalid, //FDMA 写有效output wire O_fdma_wready, //FDMA写准备好,用户可以写数据output reg O_fmda_wbuf =0, //FDMA的写帧缓存号输出output wire O_fdma_wirq, //FDMA一次写完成的数据传输完成后,产生中断。//----------fdma signals read-------inputwire I_R_clk, //用户读数据接口时钟inputwire I_R_FS, //用户读数据接口同步信号,对于非视频帧一般设置1inputwire I_R_rden, //用户读数据使能output wire O_R_data, //用户读数据output reg O_R_sync_cnt =0, //读通道BUF帧同步输出inputwire I_R_buf, //写通道BUF帧同步输入output wire O_R_empty,
output wire O_fdma_raddr, // FDMA读通道地址output wire O_fdma_rareq, // FDMA读通道请求output wire O_fdma_rsize, // FDMA读通道一次FDMA的传输大小 inputwire I_fdma_rbusy, // FDMA处于BUSY状态,AXI总线正在读操作 inputwire I_fdma_rdata, // FDMA读数据inputwire I_fdma_rvalid, // FDMA 读有效output wire O_fdma_rready, // FDMA读准备好,用户可以读数据output reg O_fmda_rbuf =0, // FDMA的读帧缓存号输出output wire O_fdma_rirq // FDMA一次读完成的数据传输完成后,产生中断);
// 计算Log2function integer clog2;input integer value;begin for (clog2=0; value>0; clog2=clog2+1) value = value>>1; endendfunction
//FDMA读写状态机的状态值,一般4个状态值即可localparam S_IDLE=2'd0;localparam S_RST =2'd1;localparam S_DATA1 =2'd2;localparam S_DATA2 =2'd3;
// 通过设置通道使能,可以优化代码的利用率generateif(ENABLE_WRITE == 1)begin : FDMA_WRITE_ENABLE
localparam WFIFO_DEPTH = W_BUFDEPTH; //写通道FIFO深度localparam W_WR_DATA_COUNT_WIDTH = clog2(WFIFO_DEPTH); //计算FIFO的写通道位宽localparam W_RD_DATA_COUNT_WIDTH = clog2(WFIFO_DEPTH*W_DATAWIDTH/AXI_DATA_WIDTH);//clog2(WFIFO_DEPTH/(AXI_DATA_WIDTH/W_DATAWIDTH))+1;
localparam WYBUF_SIZE = (W_BUFSIZE - 1'b1); //写通道需要完成多少次XSIZE操作localparam WY_BURST_TIMES = (W_YSIZE*W_XDIV); //写通道需要完成的FDMA burst 操作次数,XDIV用于把XSIZE分解多次传输localparam FDMA_WX_BURST = (W_XSIZE*W_DATAWIDTH/AXI_DATA_WIDTH)/W_XDIV; //FDMA BURST 一次的大小localparam WX_BURST_ADDR_INC = (W_XSIZE*(W_DATAWIDTH/8))/W_XDIV; //FDMA每次burst之后的地址增加localparam WX_LAST_ADDR_INC = (W_XSTRIDE-W_XSIZE)*(W_DATAWIDTH/8) + WX_BURST_ADDR_INC; //根据stride值计算出来最后一次地址
(*mark_debug = "true"*) (* KEEP = "TRUE" *) wireW_wren_ri = I_W_wren;
assign O_fdma_wready = 1'b1;reg O_fdma_wareq_r= 1'b0;reg W_FIFO_Rst=0;(*mark_debug = "true"*) (* KEEP = "TRUE" *)wire W_FS;(*mark_debug = "true"*) (* KEEP = "TRUE" *)reg W_MS=0;reg W_addr=0;(*mark_debug = "true"*) (* KEEP = "TRUE" *)reg W_bcnt=0;(*mark_debug = "true"*) (* KEEP = "TRUE" *)wire W_rcnt;(*mark_debug = "true"*) (* KEEP = "TRUE" *)reg W_REQ=0;(*mark_debug = "true"*) (* KEEP = "TRUE" *)reg wirq_dly_cnt =0;reg wdiv_cnt =0;reg wrst_cnt =0;reg O_fmda_wbufn;
(*mark_debug = "true"*) (* KEEP = "TRUE" *) wire wirq= O_fdma_wirq;
assign O_fdma_wsize = FDMA_WX_BURST;assign O_fdma_wirq = (wirq_dly_cnt>0);
assign O_fdma_waddr = W_BASEADDR + {O_fmda_wbufn,W_addr};//由于FPGA逻辑做乘法比较复杂,因此通过设置高位地址实现缓存设置
reg W_MS_r =0;always @(posedge I_ui_clk) W_MS_r <= W_MS;
//每次FDMA DBUF 完成一帧数据传输后,产生中断,这个中断持续60个周期的uiclk,这里的延迟必须足够ZYNQ IP核识别到这个中断always @(posedge I_ui_clk) begin if(I_ui_rstn == 1'b0)begin wirq_dly_cnt <= 6'd0; O_fmda_wbuf <=0; end else if((W_MS_r == S_DATA2) && (W_MS == S_IDLE))begin wirq_dly_cnt <= 60; O_fmda_wbuf <= O_fmda_wbufn; end else if(wirq_dly_cnt >0) wirq_dly_cnt <= wirq_dly_cnt - 1'b1;end
//帧同步,对于视频有效fs_cap #(.VIDEO_ENABLE(VIDEO_ENABLE))fs_cap_W0( .I_clk(I_ui_clk), .I_rstn(I_ui_rstn), .I_vs(I_W_FS), .O_fs_cap(W_FS));
assign O_fdma_wareq = O_fdma_wareq_r;
//写通道状态机,采用4个状态值描述 always @(posedge I_ui_clk) begin if(!I_ui_rstn)begin W_MS <= S_IDLE; W_FIFO_Rst <= 0; W_addr <= 0; O_W_sync_cnt <= 0; W_bcnt <= 0; wrst_cnt <= 0; wdiv_cnt <= 0; O_fmda_wbufn <= 0; O_fdma_wareq_r <= 1'd0; end else begin case(W_MS) S_IDLE:begin W_addr <= 0; W_bcnt <= 0; wrst_cnt <= 0; wdiv_cnt <=0; if(W_FS) begin //帧同步,对于非视频数据一般常量为1 W_MS <= S_RST; if(O_W_sync_cnt < WYBUF_SIZE) //输出帧同步计数器 O_W_sync_cnt <= O_W_sync_cnt + 1'b1; else O_W_sync_cnt <= 0; end end S_RST:begin//帧同步,对于非视频数据直接跳过,对于视频数据,会同步每一帧,并且复位数据FIFO O_fmda_wbufn <= I_W_buf; wrst_cnt <= wrst_cnt + 1'b1; if((VIDEO_ENABLE == 1) && (wrst_cnt < 40)) W_FIFO_Rst <= 1; else if((VIDEO_ENABLE == 1) && (wrst_cnt < 100)) W_FIFO_Rst <= 0; else if(O_fdma_wirq == 1'b0) begin W_MS <= S_DATA1; end end S_DATA1:begin //发送写FDMA请求 if(I_fdma_wbusy == 1'b0 && W_REQ )begin O_fdma_wareq_r<= 1'b1; end else if(I_fdma_wbusy == 1'b1) begin O_fdma_wareq_r<= 1'b0; W_MS <= S_DATA2; end end S_DATA2:begin //写有效数据 if(I_fdma_wbusy == 1'b0)begin if(W_bcnt == WY_BURST_TIMES - 1'b1) //判断是否传输完毕 W_MS <= S_IDLE; else begin if(wdiv_cnt < W_XDIV - 1'b1)begin//如果对XSIZE做了分次传输,一个XSIZE也需要XDIV次FDMA完成传输 W_addr <= W_addr +WX_BURST_ADDR_INC;//计算地址增量 wdiv_cnt <= wdiv_cnt + 1'b1; end else begin W_addr <= W_addr + WX_LAST_ADDR_INC; //计算最后一次地址增量,最后一次地址根据stride 计算 wdiv_cnt <= 0; end W_bcnt <= W_bcnt + 1'b1; W_MS <= S_DATA1; end end end default: W_MS <= S_IDLE; endcase end end
//写通道的数据FIFO,采用了原语调用xpm_fifo_async fifo,当FIFO存储的数据阈值达到一定量,一般满足一次FDMA的burst即可发出请求wire W_rbusy;always@(posedge I_ui_clk) W_REQ<= (W_rcnt > FDMA_WX_BURST - 2)&&(~W_rbusy);
wfifo #(.DATA_WIDTH_W(W_DATAWIDTH),.DATA_WIDTH_R(AXI_DATA_WIDTH),.ADDR_WIDTH_W(W_WR_DATA_COUNT_WIDTH),.ADDR_WIDTH_R(W_RD_DATA_COUNT_WIDTH),.AL_FULL_NUM(WFIFO_DEPTH-2),.AL_EMPTY_NUM(2),.SHOW_AHEAD_EN(1'b1) ,.OUTREG_EN ("NOREG"))u_wfifo(.rst((I_ui_rstn == 1'b0) || (W_FIFO_Rst == 1'b1)), //asynchronous port,active hight.clkw(I_W_clk),//write clock.clkr(I_ui_clk),//read clock.we(I_W_wren),//write enable,active hight.di(I_W_data),//write data.re(I_fdma_wvalid),//read enable,active hight.dout(O_fdma_wdata),//read data//.valid(),//read data valid flag.full_flag(O_W_full),//fifo full flag//.empty_flag(),//fifo empty flag//.afull(),//fifo almost full flag//.aempty(),//fifo almost empty flag//.wrusedw(W_rcnt),//stored data number in fifo.rdusedw(W_rcnt) //available data number for read ) ;
endelse begin : FDMA_WRITE_DISABLE
//----------fdma signals write------- assign O_fdma_waddr = 0;assign O_fdma_wareq = 0;assign O_fdma_wsize = 0; assign O_fdma_wdata = 0;assign O_fdma_wready = 0;assign O_fdma_wirq = 0;assign O_W_full = 0;
endendgenerate
generateif(ENABLE_READ == 1)begin : FDMA_READ// 通过设置通道使能,可以优化代码的利用率localparam RYBUF_SIZE = (R_BUFSIZE - 1'b1); //读通道需要完成多少次XSIZE操作localparam RY_BURST_TIMES = (R_YSIZE*R_XDIV); //读通道需要完成的FDMA burst 操作次数,XDIV用于把XSIZE分解多次传输localparam FDMA_RX_BURST = (R_XSIZE*R_DATAWIDTH/AXI_DATA_WIDTH)/R_XDIV; //FDMA BURST 一次的大小localparam RX_BURST_ADDR_INC = (R_XSIZE*(R_DATAWIDTH/8))/R_XDIV; //FDMA每次burst之后的地址增加localparam RX_LAST_ADDR_INC = (R_XSTRIDE-R_XSIZE)*(R_DATAWIDTH/8) + RX_BURST_ADDR_INC; //根据stride值计算出来最后一次地址
localparam RFIFO_DEPTH = R_BUFDEPTH*R_DATAWIDTH/AXI_DATA_WIDTH;//R_BUFDEPTH/(AXI_DATA_WIDTH/R_DATAWIDTH);localparam R_WR_DATA_COUNT_WIDTH = clog2(RFIFO_DEPTH); //读通道FIFO 输入部分深度localparam R_RD_DATA_COUNT_WIDTH = clog2(R_BUFDEPTH); //写通道FIFO输出部分深度
assign O_fdma_rready = 1'b1;reg O_fdma_rareq_r= 1'b0;reg R_FIFO_Rst=0;wire R_FS;reg R_MS=0;reg R_addr=0;reg R_bcnt=0;wire R_wcnt;reg R_REQ=0;reg rirq_dly_cnt =0;reg rdiv_cnt =0;reg rrst_cnt =0;reg O_fmda_rbufn;assign O_fdma_rsize = FDMA_RX_BURST;assign O_fdma_rirq = (rirq_dly_cnt>0);
assign O_fdma_raddr = R_BASEADDR + {O_fmda_rbufn,R_addr};//由于FPGA逻辑做乘法比较复杂,因此通过设置高位地址实现缓存设置
reg R_MS_r =0;always @(posedge I_ui_clk) R_MS_r <= R_MS;
//每次FDMA DBUF 完成一帧数据传输后,产生中断,这个中断持续60个周期的uiclk,这里的延迟必须足够ZYNQ IP核识别到这个中断always @(posedge I_ui_clk) begin if(I_ui_rstn == 1'b0)begin rirq_dly_cnt <= 6'd0; O_fmda_rbuf <=0; end else if((R_MS_r == S_DATA2) && (R_MS == S_IDLE))begin rirq_dly_cnt <= 60; O_fmda_rbuf <= O_fmda_rbufn; end else if(rirq_dly_cnt >0) rirq_dly_cnt <= rirq_dly_cnt - 1'b1;end
//帧同步,对于视频有效fs_cap #(.VIDEO_ENABLE(VIDEO_ENABLE))fs_cap_R0(.I_clk(I_ui_clk),.I_rstn(I_ui_rstn),.I_vs(I_R_FS),.O_fs_cap(R_FS));
assign O_fdma_rareq = O_fdma_rareq_r;
//读通道状态机,采用4个状态值描述 always @(posedge I_ui_clk) begin if(!I_ui_rstn)begin R_MS <= S_IDLE; R_FIFO_Rst <= 0; R_addr <= 0; O_R_sync_cnt <= 0; R_bcnt <= 0; rrst_cnt <= 0; rdiv_cnt <= 0; O_fmda_rbufn <= 0; O_fdma_rareq_r<= 1'd0; end else begin case(R_MS) //帧同步,对于非视频数据一般常量为1 S_IDLE:begin R_addr <= 0; R_bcnt <= 0; rrst_cnt <= 0; rdiv_cnt <=0; if(R_FS) begin R_MS <= S_RST; if(O_R_sync_cnt < RYBUF_SIZE) //输出帧同步计数器,当需要用读通道做帧同步的时候使用 O_R_sync_cnt <= O_R_sync_cnt + 1'b1; else O_R_sync_cnt <= 0; end end S_RST:begin//帧同步,对于非视频数据直接跳过,对于视频数据,会同步每一帧,并且复位数据FIFO O_fmda_rbufn <= I_R_buf; rrst_cnt <= rrst_cnt + 1'b1; if((VIDEO_ENABLE == 1) && (rrst_cnt < 40)) R_FIFO_Rst <= 1; else if((VIDEO_ENABLE == 1) && (rrst_cnt < 100)) R_FIFO_Rst <= 0; else if(O_fdma_rirq == 1'b0) begin R_MS <= S_DATA1; end end S_DATA1:begin if(I_fdma_rbusy == 1'b0 && R_REQ)begin O_fdma_rareq_r<= 1'b1; end else if(I_fdma_rbusy == 1'b1) begin O_fdma_rareq_r<= 1'b0; R_MS <= S_DATA2; end end S_DATA2:begin //写有效数据 if(I_fdma_rbusy == 1'b0)begin if(R_bcnt == RY_BURST_TIMES - 1'b1) //判断是否传输完毕 R_MS <= S_IDLE; else begin if(rdiv_cnt < R_XDIV - 1'b1)begin//如果对XSIZE做了分次传输,一个XSIZE也需要XDIV次FDMA完成传输 R_addr <= R_addr +RX_BURST_ADDR_INC;//计算地址增量 rdiv_cnt <= rdiv_cnt + 1'b1; end else begin R_addr <= R_addr + RX_LAST_ADDR_INC; //计算最后一次地址增量,最后一次地址根据stride 计算 rdiv_cnt <= 0; end R_bcnt <= R_bcnt + 1'b1; R_MS <= S_DATA1; end end end default:R_MS <= S_IDLE; endcase endend
//读通道的数据FIFO,采用了原语调用xpm_fifo_async fifo,当FIFO存储空间有足够空余,满足一次FDMA的burst即可发出请求wire R_wbusy;always@(posedge I_ui_clk) R_REQ<= (R_wcnt < FDMA_RX_BURST - 2)&&(~R_wbusy);
rfifo #(.DATA_WIDTH_W(AXI_DATA_WIDTH),.DATA_WIDTH_R(R_DATAWIDTH),.ADDR_WIDTH_W(R_WR_DATA_COUNT_WIDTH),.ADDR_WIDTH_R(R_RD_DATA_COUNT_WIDTH),.AL_FULL_NUM(RFIFO_DEPTH-2),.AL_EMPTY_NUM(2),.SHOW_AHEAD_EN(1'b1) ,.OUTREG_EN ("NOREG"))u_rfifo(.rst((I_ui_rstn == 1'b0) || (R_FIFO_Rst == 1'b1)), //asynchronous port,active hight.clkw(I_ui_clk),//write clock.clkr(I_R_clk),//read clock.we(I_fdma_rvalid),//write enable,active hight.di(I_fdma_rdata),//write data.re(I_R_rden),//read enable,active hight.dout(O_R_data),//read data//.valid(),//read data valid flag//.full_flag(),//fifo full flag.empty_flag(O_R_empty),//fifo empty flag//.afull(),//fifo almost full flag//.aempty(),//fifo almost empty flag.wrusedw(R_wcnt) //stored data number in fifo//.rdusedw(W_rcnt) //available data number for read ) ;
endelse begin : FDMA_READ_DISABLE
assign O_fdma_raddr = 0;assign O_fdma_rareq = 0;assign O_fdma_rsize = 0; //assign I_fdma_rdata = 0;assign O_fdma_rready = 0;assign O_fdma_rirq = 0;assign O_R_empty = 1'b0;
endendgenerate
endmodule
3.3 Anlogic DDR IP使用方法3.3.1 添加DDR 控制IP选中正确的DDR型号、数据位宽、DDR时钟参数,这里使用默认的MT41J128M16JT-125的器件,更改位宽为64bit,(x32改为32即可)
设置支持Debug Control,支持用串口打印DDR信息默认adc为x64的adc,在ddr IP目录中的ddr_ip.adc文件,可以直接读取后覆盖源文件。我们这里导入已经提供的DDR PIN脚约束,方便管理。选择时钟位置,然后校对单击OK后如下图,继续单击OK单击YES3.3.2 修改ddr_ip.v修改ddr_ip_1.txt的路径,注意画红线位置复制以下文件到DDR IP路径alc_mc_enc.sv文件是安路官方提供的加密ddr控制器(MC),其中包括axi和native两种接口4 FPGA工程打开配套代码的FPGA工程如下:5 实验演示下图是使用米联客-安路AP102板卡实现MIPI相机方案演示图
5.1 硬件接线5.2 实验结果
6 心得分享期间在更新demo时还发现了uidbuf中的一个小问题,这个问题我们也花费很长时间才解决。如下图所示,从MIPI IP出来的数据,每4个时钟拼接为64bit写入到uidbuf IP的FIFO中,而uidbuf IP中FIFO的读端口数据位宽为512bit(AP102的DDR的内部数据位宽是512位),因此需要写入8个64bit的数据才能从FIFO输出512bit的数据,也就是要经过32个MIPI时钟输出的数据到FIFO,FIFO的读端口才能输出一次512bit数据。图1 . 数据传输示意图
但是现在会出现一个问题,原先uidbuf IP中设置的W_REQ是当读FIFO中的数据大于FDMA_WX_BURST - 2的时候发起一次FDMA的BURST。FDMA_WX_BURST的长度,我们这里假设FDMA_WX_BURST =15,在不考虑代码的效率问题时,由于读FIFO的时钟是200M(DDR IP中设置是4:1模式),那么只要15个200M时钟就能把存在FIFO中的所有数据读完,但是实际上,FIFO里面之前有效存储了14个512bit。那么最后一个512bit需要32个MIPI时钟才能准备好,所以会导致FIFO中最后一个数据读出的是错误的。图2 . 原uifdma IP配置示意图
下图是数据进入uidubf IP的FIFO之前的位宽转换代码。图3 . 位宽转换示意图
在此基础上我们做了如下改进,设置W_REQ当FIFO中的数据大于FDMA_WX_BURST - 1,也就是FIFO中的数据达到FDMA_WX_BURST - 1时再开始从FIFO读出,这样可以确保FIFO中数据不会读空从而导致错误。图4 . uifdma IP配置修改示意图
页:
[1]