第9章DSP应用技术.ppt
9 DSP技术及高速实时数字信号处理,9.1 DSP技术9.2 雷达数字信号处理,9.1 DSP技术,一、DSP的分类二、DSP芯片的运算速度三、TI DSP四、ADI高性能DSP,一、DSP的分类,二、DSP芯片的运算速度 运算速度是DSP芯片的一个最重要的性能指标,也是选择DSP芯片时所需要考虑的一个主要因素。DSP芯片的运算速度可以用以下几种性能指标来衡量:(1)指令周期:即执行一条指令所需的时间,通常以ns(纳秒)为单位。如TMS320LC54980在主频为80MHz时的指令周期为125ns;(2)MAC时间:即一次乘法加上一次加法的时间。大部分DSP芯片可在一个指令周期内完成一次乘法和加法操作,如TMS320LC54980的MAC时间就是125ns;(3)FFT执行时间:即运行一个N点FFT程序所需的时间。由于FFT运算涉及的运算在数字信号处理中很有代表性,因此FFT运算时间常作为衡量DSP芯片运算能力的一个指标;,(4)MIPS:即每秒执行百万条指令。如TMS320LC54980的处理能力为80MIPS,即每秒可执行八千万条指令;(5)MOPS:即每秒执行百万次操作。如 TMS320C40的运算能力为 275 MOPS;(6)MFLOPS:即每秒执行百万次浮点操作。如 TMS320C31在主频为40MHz时的处理能力为40 MFLOPS;(7)BOPS:即每秒执行十亿次操作。如 TMS320C80的处理能力为 2 BOPS。,DSP Market Share in 2003,Total Revenue:6,130 Million US-$,C5000,C6000,C2000,Efficient Integrationfor ControlDSC,Power EfficientPerformanceDSP,High PerformanceC EfficiencyDSP,Texas Instruments DSP/DSC-Portfolio,TMS320 Family Branches,Texas Instruments TMS320 family,Different families and sub-families exist to support different markets.,Control Performance,Future of Control:Improved Industrial Drive,Improved System Density for ONET,etc.,Multi-Function,Appliance&Consumer Control,F2801100 MIPS,F2806100 MIPS,F2808100 MIPS,Software Compatible,F2810150 MIPS,Announced,High-Precision Uni-processor Control for Applications from Industrial Drives to Automotive,C2810150 MIPS,C2811150 MIPS,C2812150 MIPS,Samples December 04,Higher performanceGreater integration,F2811150 MIPS,F2812150 MIPS,C24x,F24x,LC240 xA,LF240 xA,R2811150 MIPS,R2812150 MIPS,Roadmap of TMS320C2000 DSCs,TIMER,Flash(words),ROM(words),RAM(words),CPU,ADC,McBSP,EXMIF,Watch Dog,SPI,SCI(UART),CAN,Volts(V),#I/O,Package,Resolution,CAP/QEP,PWM(CMP),Event Manager,32bit 32 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16bit 16bit,18K 18K 2.5K 2.5K 1.0K 1.0K 1.0K 2.5K 1.5K 544 1.0K 544 544 544 544,32K 16K 6K 8K 4K,128K 64K 32K 32K 16K 8K 8K 8K8K 16K,6/6 6/6 6/4 6/4 3/2 3/2 1/0 6/4 6/4 3/2 1/0 3/23/24/23/2,16 16 16 16 8 8 7 16 16 8 7 8 8 12 8,7 7 4 4 2 2 2 4 4 2 2 2232,12-bit 12-bit 10-bit 10-bit 10-bit 10-bit 10-bit 10 bit 10-bit 10-bit 10-bit 10-bit10-bit 10-bit 10-bit,2 2 1 1 1 1 1 1 1 1 1 1 1 1 1,200ns 200ns 500ns 500ns 500ns 500ns 500ns 375ns 375ns 425ns 500ns 900ns 900ns 6.1us 900ns,1.8 core 1.8core 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 5.05.05.05.03.3 I/O 3.3 I/O,56 56 41 41 21 21 13 41 41 21 13 32262826,176LQFP 128LQFP 144LQPF 100LQPF 64LQFP 64PQFP 32LQFP 100LQFP 100LQFP 64PQFP 32LQFP 144LQFP 64PQFP 132PQFP64PQFP179u*BGA 68PLCC68PLCC,F2812 F2810 LF2407A LF2406A LF2403A LF2402A LF2401A LC2406A LC2404A LC2402A LC2401A F243 F241 F240 C242,Conv time,#ofChan,16 16 16 16 8 8 5 16 16 8 5 8 8 16 8,TIMER,BootROM(words),MIPS,150 150 40 40 40 40 40 40 40 40 40 20 20 20 20,4K 4K 256 256 256 256 256,TI C2000:Portfolio for Embedded Applications,三、TI DSP1、TMS320F2812高性能的静态CMOS工艺,可使主频达到150MHz(指令周期6.67ns);低功耗设计(1.8V和3.3V供电);高性能的32位CPU。实现16X16和32X32乘操作,快速的中断操作,程序空间达4M,寻址空间达4G,在C/C+和汇编语言中代码可得到优化,还可向下兼容TMS320F24X/LF240X代码;片上存储器:闪存128K字,单访问双口RAM(SARAM)18K字;启动只读存储器ROM 4K字,具有软件启动模式包含标准的数学表;时钟和系统控制采用锁相环技术PLL来控制系统各模块所需要的频率;具有3个外部中断和外围中断扩展模块PIE(Peripheral Interrupt Expansion),PIE可支持多达45个外部中断;128位的代码安全模块CSM(Code Security Module),更好地保护了开发者的知识产权;具有3个32位的CPU 定时器和适合电机控制的事件管理模块EVA和EVB;具有很强的外围通讯功能:同步串行口SPI,通用异步串行口SCI,增强的eCAN和多通道缓存串行口McBSP;多达16个通道、精度可达12位模拟/数字转换器ADC。,C281x Block Diagram,32x32 bitMultiplier,SectoredFlash,A(18-0),D(15-0),Program Bus,Data Bus,RAM,BootROM,22,32-bitAuxiliaryRegisters,332 bit Timers,RealtimeJTAG,CPU,Register Bus,R-M-WAtomicALU,PIE Interrupt Manager,32,32,32,EventManager A,EventManager B,12-bit ADC,Watchdog,McBSP,CAN2.0B,SCI-A,SCI-B,SPI,GPIO,2、TMS320C3X TMS320C30采用改进的哈佛结构,其特点性能如下:指令周期33ns(66MHz)、60MFLOPS、33MIPS总线 24bit地址,32bit数据程序,扩展总线14bit地址,32bit数据程序;6432bit指令Cache;16M片外存储空间,数据程序混放,读单周期,写双周期;片内2K 32bit双口RAM,可分两组分别访问;非标准3240 bit浮点格式;3240 bit浮点乘法器及ALU,32bit移位器;并行乘累加操作;8个40 bit数据寄存器,8个 32 bit辅助(寻址)寄存器;片内DMA控制器;,寻址:循环、位反序;单指令循环、程序块循环;条件调用返回;互锁操作;2个串口;2个定时器;加载方式 32 bit;TI仿真接口(非 JTAG);软硬件等待状态;外部中断4个;1024点复数FFT:1.67 ms;浮点求倒数1155 ns;浮点求平方根倒数 1287 ns;封装181 PGA。,C31是C30的简易型,区别在于没有扩展总线,仅有1个串口,QFP132封装,可用多种模式(8bit16bit32bit串口)加载且可重定位中断矢量表,而C30必须用 32 bit存储器从0地址装入初始化程序代码。C32在C31的基础上对结构进一步简化,将片内RAM从2K 32位减少为512 32位,同样分成两个256字存储块,也具有像C31一样的多模式程序加载方法,此外在以下方面比C31有了增强和改进:条件调用返回;双通道DMA控制器,支持 81632 bit字宽的外部数据访问方式和 1632 bit字宽的外部程序访问;外部管脚PRGW区分 1632 bit外部程序访问;两个外存储器选通信号STRBO、STRB1和一个IO选通IOSTRB,分别对应各种字宽、等待状态、数据类型的三组总线控制寄存器;两种低功耗模式;PQFP144封装,40MHZ50MHZ60 MHZ多种主频。,TI推出了TMS320VC33,VC33采用高达120MHZ或150MHZ的主频,有120150MFLOPS的峰值运算能力,片内 1Mbit RAM,程序代码与先前的 C3X完全兼容,VC33本身结构功能也与C31兼容,采用 3.3 V IO和 1.8V处理器核使功耗降低到200 mw,而 C30C31C32的功耗在1.53W之间。TMS320C3X可以用与浮点乘加相同的速度完成 32 bit定点乘加,要注意的是32 bit定点乘限制输入数据为 16 bit(C32)或 24 bit(C30),结果取 32 bit。TMS320VC33的主要特点:高性能浮点DSP 13ns指令周期、150MFLOPS 34K32bit(1.1Mbit)片上双口SRAM(2 16K+2 1K)、减少了外存(即减少了外部总线周期),速度等性能更高,5 PLL 允许外接低速晶振非常低的功耗(功耗200mW)和价格(100)32bit 高性能CPU、16/32整数、32/40 浮点操作4个内部解码页选通 与I/O及存储器器件简单接口、减少了读取时间32bit位指令24bit 位地址8个可扩展精密寄存器1个串口、2个32bit定时器、DMA协处理器协助I/O和CPU工作144pin(LQFP)132pinPQFP具有8个辅助寄存器的两个地址产生器、两个辅助寄存器算术单元,两个低功耗模式2或3 操作数指令并行算术逻辑单元和单周期乘法器块重复功能带单周期分支的零顶环、条件调用和返回、支持多处理器的互所指令总线控制寄存器配置选通控制等待状态产生1.8V(Core)和3.3V(I/O)供电,C3X在1.53W之间JTAG、更快且支持多片VC33(取代以前的MPSD仿真口)这种强大的硬件配置提供了以前单片难以获得的性能。,为什么要片内RAM大的DSP效率高?目前DSP发展的片内存储器RAM越来越大,要设计高效的DSP系统,就应该选择片内RAM较大的DSP。片内RAM同片外存储器相比,有以下优点:片内RAM的速度较快,可以保证DSP无等待运行。对于C2000/C3x/C5000系列,部分片内存储器可以在一个指令周期内访问两次,使得指令可以更加高效。片内RAM运行稳定,不受外部的干扰影响,也不会干扰外部。DSP片内多总线,在访问片内RAM时,不会影响其它总线的访问,效率较高。,TMS320VC33部分原理图,TMS320VC33电路板图,3、TMS320C6701,TMS320C6701主要特性包括:时钟主频为167M(时钟周期为6ns),最高6ns的指令周期,每个周期可同时执行8条指令,高达1GFLOPS的运行能力;硬件支持IEEE的单精度及双精度指令;1Mbit的片内SRAM,包括64KB的程序区和64KB的数据区;32位的外部存储器接口提供与同步存储器(SBSRAM、SDRAM)及异步存储器(SRAM、EPROM)的无缝连接;由8个独立的运算功能单元和32个32位的通用寄存器组成。运算功能单元包括4个浮点的算术逻辑单元ALU,2个定点的ALU及2个浮点乘法器。,TMS320C6701最突出的特点是采用了先进的VLIW(甚长指令字)CPU核结构。通用寄存器分成A、B两个寄存器文件。采用这种VLIW结构,6701可以一次读取8条32位的指令,将8条指令分配到8个不同的运算单元同时运算。这种片内并行结构是6701获得高运算能力的关键所在。另外,虽然6701一次同时读取和执行8条指令,但并不意味着一次同时执行8条有效的指令。运算单元、寄存器和内存资源冲突以及指令间的上下文依赖关系都会阻碍有效指令的并行执行。6701的运行效率随有效指令的并行程度的不同而不同,因此应用程序编写的好坏直接影响6701的运行效率。,四、ADI浮点DSP 在构成多DSP方面,ADSP Tiger SHARC系列处理器有其自身的优势。在用ADSP Tiger SHARC处理器组成多DSP系统时,其本身就提供了实现互连所需的片内总线仲裁控制和特有的链路口,可以以各种拓扑结构互连DSP,满足一些大运算量的要求。尽管TI的DSP也可以互连,但是机制比较复杂。ADI DSP可以降低外围设计的复杂度,增强系统的稳定性。TS201S芯片(600MHz)主要性能指标:运行速度:1.67ns指令周期,每周期可执行4条指令;DSP内部有2个运算模块,支持的运算类型有:32b和40b浮点运算,8b、6b、32b及64b定点运算;,每秒可执行12G次16b定点运算或3.6G次浮点运算次;采用单指令多数据(SIMD)模式,可提供4.8G/s的40b 乘加运算;外部总线DMA传输速率1.2GB/s(双向);4个链路口(每个链路口提供1.2GB/s的传输速率,可同 时进行DMA传输);用于通过共享总线提供无缝连接的片内集成总线仲裁控制;片上SDRAM控制器,片上DMA控制器(提供14条DMA通 道);1024点复FFT:15.7us;FIR(每阶):0.83ns。,9.2 雷达数字信号处理,一、功能及算法二、结构体系三、实现方法,一、功能及算法 1、概述 主要完成模拟数字转换(ADC)、脉冲压缩(PC)、动目标检测(MTD)/动目标显示(MTI)、相参积累(FFT)、恒虚警处理(CFAR)、数字模拟转换(DAC)等工作,在杂波背景下提取目标。2、ADC,3、脉冲压缩,a.时域处理:非递归滤波器,b.频域处理:采用正反离散傅氏变换法(海明加权),LFM信号脉冲压缩结果,4、动目标检测(显示)(MTD/MTI),5、恒虚警电路(CFAR),a.噪声电平恒定电路(慢门限):无杂波时采用的CFAR电路。b.距离单元平均恒虚警电路(快门限),二、雷达数字信号处理的体系结构,多指令单数据MISD结构,三、雷达数字信号处理的实现,1、ADC:低通/带通信号、时钟/信号隔离、采样频率2、PC:FIR、正反FFT3、MTD/MTI/FFT:数据重排、FIR组、MTI+FFT4、CFAR:快、慢,DSP、FPGA5、DAC:输出驱动、电平,