王耀华
- 作品数:131 被引量:27H指数:3
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术电子电信医药卫生文化科学更多>>
- 基于栅栏和锁的多核Cache一致性维护的方法和装置
- 一种基于栅栏和锁的多核Cache一致性维护的方法和装置,该方法为:对于相同地址的共享数据,在进行多核间的读写操作时,首先通过硬件栅栏保证写数据核获取硬件锁的操作先于读数据核对硬件锁的查询操作;其次,写数据核获取硬件锁后开...
- 王耀华陈书明郭阳万江华叶伟军陈海燕胡封林刘仲陈胜刚刘胜马胜
- 文献传递
- 基于知识库的覆盖数据通路边界情况的测试向量生成方法及系统
- 本发明公开了一种基于知识库的覆盖数据通路边界情况的测试向量生成方法及系统,包括步骤将数据通路中的数据端口分为数据传输类端口与控制类端口;建立基于数据类型的边界值知识库,输入每个数据传输类端口的数据类型得到边界值集合;输入...
- 陈书明吕昭张见王耀华张廷荣胡春媚孙乾
- 文献传递
- 面向VLIW和SIMD架构的编译器自动调试方法及系统
- 本发明公开了一种面向VLIW和SIMD架构的编译器自动调试方法及系统,本发明方法包括针对待校验程序进行语义正确性校验以判断待校验程序相对源程序是否存在语义错误,若语义正确性校验发现存在语义错误,则判定调试不通过,否则针对...
- 时洋邓灿陈照云文梅赵宵磊王家男王耀华扈啸
- 基于门控循环神经网络的硬件木马检测方法及装置
- 本发明公开一种基于门控循环神经网络的硬件木马检测方法及装置,该方法步骤包括:步骤S01.获取被测硬件IP核的门级网表电路;步骤S02.从门级网表电路中筛选超出可控制性阈值的节点作为可疑电路节点;步骤S03.以可疑电路节点...
- 王俊辉李铮昊张洋王耀华李少青陈吉华胡星郭桓王浩文程伟石佳禾
- 面向GPDSP的大规模高性能Linpack测试基准实现的方法
- 本发明公开了一种面向GPDSP的大规模高性能Linpack测试基准实现的方法,采用分块的方式来求解稠密线性方程组:较小的串行任务和小矩阵求逆和三角方程求解任务,由GPDSP中的CPU核负责;规整的计算任务由GPDSP中的...
- 刘仲陈书明郭阳陈海燕万江华陈磊田希孙永节彭元喜扈啸王耀华马胜陈虎张军阳鲁庆男
- 基于SIMD处理器的全定制多粒度矩阵寄存器文件被引量:1
- 2013年
- 在SIMD处理器上映射矩阵运算时会带来大量的数据重排操作从而降低系统性能。本文提出定制化的多粒度矩阵寄存器文件(MMRF)以消除数据重排操作。MMRF支持多粒度的并行行访问和列访问,从而提升矩阵运算的性能。MMRF可以被动态配置为不同的并行访问模式,在不同模式下一个或多个子矩阵可以被并行处理。实验结果显示,同传统的向量寄存器文件(VRF)和矩阵寄存器文件(MRF)相比,MMRF可分别带来2.21倍和1.6倍的平均性能提升,面积分别增加14.3%和3.7%,功耗分别增加14.6%和2.2%。同TMS320C64x+处理器相比,基于SIMD技术的FT-Matrix处理器在引入MMRF后可以得到5.65倍到7.71倍的性能提升。通过层次化的全定制设计技术,MMRF的面积和关键路径分别减少17.9%和39.1%。
- 张凯陈书明王耀华陈海燕李振涛
- 关键词:SIMD矩阵运算多粒度
- SRAM物理不可克隆函数电路及设备
- 本申请涉及一种SRAM物理不可克隆函数电路及设备。包括供电控制模块、第一控制模块、单端口SRAM存储器、数据位加法器模块、使能位加法器模块、多位选择器模块和第二控制模块。在PUF控制信号有效时,通过供电控制模块使单端口S...
- 王耀华邵津津宋睿强郭阳李少青陈吉华王俊辉张洋
- 支持向量随机访存的方法及装置
- 本发明公开了一种支持向量随机访存的方法及装置,该方法的步骤为:S1:对派发的指令进行译码,识别指令的各个域,获取指令类型、地址计算方式、访存粒度和随机地址寄存器文件与寻址相关的信息;S2:根据指令译码信息和计算得到的n个...
- 陈海燕郭阳刘胜吴健虢雷元武陈胜刚万江华王耀华陈俊杰
- 文献传递
- 基于FT-MT的RDSAR算法优化实现
- 2025年
- 合成雷达孔径(Synthetic Aperture Radar,SAR)成像回波数据量大且算法复杂,这使得其在实时应用中的实现面临挑战。针对国防科技大学自主研制的高性能异构多核数字信号处理器(Digital Signal Processor,DSP)FT-MT的体系结构特征及距离-多普勒(Range-Doppler,RD)SAR成像算法的特点,设计了一种面向多核DSP架构的高性能并行RD SAR算法。该算法基于DSP的向量部件,实现了有限脉冲响应滤波(Finite Impulse Response,FIR)、行向和列向快速傅里叶变换(Fast Fourier Transform,FFT)以及快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT)的向量化计算。同时,结合算子融合、双缓冲和多核并行的优化策略,充分发挥FT-MT架构的优势,显著提升了计算密集型算法的运行效率。实验结果表明,采用并行RD SAR算法相比传统的串行算法具有明显的性能优势;在1.0 GHz频率下,FT-MT单个DSP核处理512 kB(1024×512)图像的时间为23.23 ms,而与德州仪器(Texas Instruments,TI)TMS320C6678在1.2 GHz频率下的单核运行相比,性能加速比可高达20.536;FT-MT四核并行处理512 kB图像的时间为6.089 ms,成功实现了实时性。
- 郑利华杨辉文楚王耀华时洋
- 关键词:合成孔径雷达距离-多普勒向量化
- 一种异构多核处理器系统追踪的调试方法及装置
- 一种异构多核处理器系统追踪的调试方法及装置,该方法的步骤包括:步骤S1:寄存器预配置;步骤S2:运行程序;步骤S3:记第i个指定程序段当前PC值为PC_Value<Sub>i</Sub>;若PC_Value<Sub>i<...
- 扈啸 高轩刘衡竹王耀华彭元喜郭阳蒲伟肖珊 何港兴
- 文献传递