一、PMC推出1GHz MIPS单核处理器(论文文献综述)
姜悦[1](2021)在《基于龙芯2K1000的嵌入式Linux系统移植和驱动程序设计》文中研究指明
马晓杰[2](2021)在《基于RISC-V的超标量乱序处理器研究》文中认为随着万物互联的智能时代到来,精简指令集(Reduced Instruction Set Computing,RISC)的优势愈发突显,而作为开源的精简指令集,RISC-V指令集更适合于当下生态开放的环境。为提高指令级并行度,现通用高性能处理器都采用了乱序超标量架构,由于指令乱序调度、分支预测等设计的复杂性,乱序超标量架构一直是处理器领域的研究热点。本文进行了基于RISC-V指令集的乱序超标量处理器研究,研究内容主要可分为以下几点:(1)对稳态下高吞吐率的乱序发射架构进行了研究,并针对传统发射架构高IPC(每周期指令数,Instructions Per Cycle)和低延迟存在矛盾的问题,设计了一种基于指令凋零的乱序发射架构。该发射架构在原有的指令发射队列的基础上添加了一个FIFO队列——沉降池,当指令的年龄大于一定阈值时,指令会由发射队列进入沉降池,在沉降池中的指令可以被无条件发射,该阈值可通过沉降池的状态进行动态调节。同时为进一步提高发射架构的性能,还对指令分配电路、指令请求电路以及指令唤醒电路进行了优化。经过测试,所设计的乱序发射架构相较于带有随机仲裁逻辑的发射架构,IPC可提高25%,且电路延迟只相差6%,稳态下吞吐率提高17%。而相较于带有传统年龄仲裁逻辑的发射架构,电路延迟可降低34%,而IPC只相差7%,稳态下吞吐率提高了24%。(2)对分支预测实例化过程中的性能退化问题进行了研究,发现性能退化会由序列别名冲突、无法获取先验知识、存储器分块化、统计偏差等问题造成。前三个问题可以通过去除先验知识、设计重分配策略、设置状态数合适的饱和计数器来消除,然而统计偏差无法从算法层面有效解决。针对该问题本文设计了面向RISC-V的分支预测辅助器,主要通过对主分支预测器进行统计偏差矫正以及对含有不稳定控制流的循环体进行单独预测的方法,尽可能减小统计偏差,从而进一步提升分支预测器的准确率。实验结果表明,Gshare分支预测器以及TAGE分支预测器配备了分支预测辅助器后分别有2.68%与2.12%的Core Mark性能提升。(3)基于经过优化的处理器核,构建了RISC-V乱序超标量处理器So C,可支持1~4个处理器核,内部基于Tile Link总线进行数据传输,并且挂载有SPI、UART、GPIO、调试模块等外设。同时针对该So C,基于SPI接口对蓝牙组件进行了开发,使So C可应用于低功耗无线传输领域。(4)基于FPGA验证平台进行了原型验证、系统演示和性能测试;基于65nm SMIC工艺库,使用Design Compiler完成了综合以及电路延迟的评估。结果表明该So C可进行引导Linux系统并执行相关应用程序,还可利用Open OCD以及GDB使用调试系统,性能最高可达4.8Core Mark/MHz,优于BOOMv2的3.77Core Mark/MHz。综上所述,本文研究了稳态下高吞吐率的乱序发射架构,以及分支预测实例化过程中的性能退化问题,并基于上述研究构建了RISC-V乱序超标量处理器So C,最终进行了FPGA的原型验证和系统演示,实验结果表明Core Mark性能优于BOOMv2。
李青青[3](2021)在《基于RISC-V多核处理器的Cache及其一致性协议研究》文中提出现代处理器普遍采用高速缓冲存储器(Cache)来缓解处理器与主存储器之间的性能差距。然而,Cache的访问速度随容量的增大而降低,对于频率要求与处理器核几乎保持同频的L1 Cache而言,其容量注定不能很大,从而限制了高性能处理器的发展。因此,探索Cache容量和频率之间的平衡,设计高频的大容量Cache具有重要的现实意义。此外,随着集成电路技术的发展,人们对于处理器性能的需求日益提高,多核乃至众核处理器成为必然趋势,而由此带来的存储一致性问题也日益严峻。Cache一致性是保证多核处理器设计正确性的必要条件,研究低延时的高效Cache一致性协议对提升多核处理器的整体性能十分关键。RISC-V是加州大学伯克利分校提出的一种开源指令集架构,其免费、灵活、可定制等特性使其迅速成为处理器领域的研究热点。本文基于RISC-V多核处理器,研究Cache结构和Cache一致性协议,旨在提升处理器的整体性能,主要工作内容和研究结果归纳如下。1.基于2分频存储体,设计了一种高频、低功耗、大容量的指令Cache—D2MB-ICache。为了保证D2MB-ICache的功能正确且在不降频的前提下扩容,设计了存储体的划分机制、反向时钟以及一个控制跳转访问的电路模块。VCS仿真和DC综合结果表明,与传统指令Cache相比,容量相同和容量扩大一倍的D2MB-ICache的最大工作频率分别提高了14.6%和6.8%,其整体性能也分别提高了10.3%和3.8%。此外,当容量为16 kB、32 kB、64 kB和128 kB时,D2MB-ICache的功耗开销分别降低了0.5%、16.1%、24.3%和24.8%。2.对TileLink协议中现有的Cache一致性协议进行改进,设计了一种低延时、高效的Cache一致性协议—DTBDN。该协议不仅定义了Cache的一致性操作,还涵盖了IO设备的访存操作流程。不同于原有的Cache一致性协议,DTBDN协议将私有副本和共享副本彻底区分开来。在DTBDN协议中,共享副本直接从L2 Cache中获取,从而避免了多个远程读响应同时发出的问题,降低了总线占用率和缺失代价。本文基于Gem5模拟器对DTBDN协议进行了性能测试。实验结果表明,在RISC-V四核处理器系统中,DTBDN协议的性能较MESI和MOESI协议分别提高了2.4%和1.6%;在八核处理器系统中,DTBDN协议的性能比MESI和MOESI协议提升了3.6%和2.5%。3.采用基于仿真的验证方法,构建了面向RISC-V多核处理器存储系统的验证平台。首先,分析验证目标系统的特性,提取Cache一致性协议和多核处理器的典型测试场景的功能点,其中典型测试场景主要用于多核处理器的并行操作验证和边界测试;其次,基于System Verilog语言建立了目标存储系统的测试平台;最后,采用随机测试为主、定向测试为辅的测试方法,基于汇编语言和C语言设计了面向RISC-V多核处理器存储系统的测试程序。验证平台最后输出的功能覆盖率报告为100%,达到了验证要求。
齐豪[4](2021)在《神经网络中卷积操作的软硬件优化研究》文中认为近年来,随着深度学习技术的飞速发展和广泛应用,神经网络模型的深度随之增加,其计算量和访存量也不断增加,这给计算机硬件设计和软件优化带来了巨大的挑战。卷积神经网络是深度学习领域的代表性算法之一,在卷积神经网络中,卷积运算是计算和访存密集型运算,卷积层占整个卷积神经网络计算时间的90%以上,因此优化卷积运算对加速深度学习算法的运行是至关重要的。由于移动设备同时受到算力和功耗的限制,许多轻量级的网络应运而生,比如Xception、MobileNet系列等。在这些轻量级网络中,出现了一种新型的卷积,称为深度卷积。深度卷积的输入特征图的通道和输出特征图的通道大小相等,并且一一对应,输入特征图的通道之间不进行累加操作。深度卷积的层数占网络中所有卷积层数的31%~50%,故如何优化深度卷积的运算也是一个值得研究的问题。优化深度卷积和普通卷积的运算对加速神经网络的运行非常重要,本文分别对深度卷积和普通卷积进行软硬件协同优化,主要贡献如下:1.针对通用CPU、固定向量长度的SIMD处理器均无法高效处理神经网络中的各种规模的深度卷积,性能较低的问题,本文提出了一个多种权值传输模式的硬件架构设计,结合软件模式选择、数据拆分、软流水、数据复用等优化方式,在提高运算效率的同时减少了访存量。实验结果表明,在实现经典神经网络中的深度卷积时,与Intel i7-8850H CPU和向量长度为64的单核SIMD处理器相比,本文所描述的工作最高提升性能分别可达9.3倍和29.3倍。2.针对通用GPU和固定数据驻留模式和传输模式的加速器均无法高效处理神经网络中的各种规模的普通卷积的问题,本文首先提出了一种6维度的数据格式——SDF数据格式。之后硬件设计多种数据驻留模式和权值数据传输模式以减少片上数据传输量。最后结合软件模式选择、数据格式转换、卷积参数的支持与优化,有效解决各种规模卷积的计算性能问题。实验结果表明,在实现经典神经网络中的卷积时,与NVIDIA RTX 8000 GPU和类DaDianNao加速器相比,本文所描述的工作最高提升性能分别可达5.72倍和7.35倍。
罗环[5](2021)在《面向调焦调平的多核DSP图像处理研究与实现》文中研究表明调焦调平系统是高分辨率投影光刻机的重要组成部分,为了获得理想的曝光效果必须使用调焦调平系统实时、准确地测量出硅片相对于投影物镜的离焦量与倾斜量。在基于激光三角测量法的调焦调平技术中,为保证信息的实时性,需要一款高性能的图像处理系统。本文设计并实现了一种面向调焦调平系统的多核DSP图像处理系统,可以在高采样率的情况下同时采集、传输多路图像数据,并及时完成图像处理与算法结果输出。图像处理系统实现了线阵CCD图像的采集传输,算法处理、指令控制等功能。为了提高系统工作效率,本文综合图像处理平台需求与调研结果,选取TI公司的TMS320C6678多核DSP作为算法处理单元,在SYS/BIOS实时操作系统下,实现多核并行算法处理与核间数据通信,并在片间使用Rapid IO总线传输图像数据。系统使用Xilinx公司的Kintex7系列FPGA,通过Cameralink接口接收CCD图像,EMIF16接口接收DSP发送的控制指令与算法处理结果,根据指令信息控制外部相机、光源模块,并将图像与算法结果传输至上位机。最后本文还设计实现了多核DSP的自启动与软件升级功能。系统设计完成后,进行了四方面的测试。首先,对数据传输功能的正确性及关键接口传输速率进行测试,并分析影响传输速率的主要原因。然后,针对关键外设功能进行验证,得到理想结果。之后完成了多核DSP自启动功能测试。最后,在调焦调平系统实验中得出系统性能关键指标。测试结果表明,图像处理系统符合设计要求,并可以成功应用。
柒文杰[6](2021)在《基于实时功率预算的微处理器高能效比算法》文中进行了进一步梳理随着集成电路的特征尺寸的降低,更高的集成密度带来了更高的功率密度,由于芯片散热的限制,多核众核微处理器终于进入了暗硅的时代。暗硅时代有两个突出的问题,一个是如何在安全阈值温度下实现性能的最大化,还有一个是如何优化多核芯片的能效比。多核芯片的能效比优化问题的难点在于,随着集成电路特征尺寸的下降,静态功率的比重在总功率中的比重逐渐增加,因此以往忽略静态功率或者以常数去考虑静态功率的做法便行不通了。而且由于静态功耗的热敏感性,在求解这样一个问题的时候就不可避免得引入热模型,而多核芯片的任意给定点的温度受到工作负载分配情况和任务负载的强度等多方面问题的影响,因此直接求解这样一个问题是非常复杂甚至于不可解的。在上述的基础上,本文便提出了一种考虑了静态功率和温度以及工作电压非线性关系的多核微处理器能效比优化算法,本算法主要通过建立精确的静态功率模型,而且为了求解多核芯片的温度耦合效应,还建立了热模型,性能模型等模型,将涉及到的多个参数结合在一起构成一个有机的整体,最后通过梯度下降算法进行求解。为了证明本文提出算法的适用性和正确性,本文还通过蒙特卡洛扫描算法计算该算法计算出来的能效比在所有可能存在分布中的位置,最后实验结果表明,在可接受的耗时内,本文中提出的算法能够精准的求解多核微处理器能效比优化这一问题。由于频率和功率存在对应关系,而本文中的热管理相关仿真通常以功率作为管理条件,因此也可以通过计算功率预算的方式来调整能效比状态。
刘洋[7](2021)在《基于深度学习的工业钢材瑕疵检测研究》文中研究指明工业钢材瑕疵检测是行业生产和质量管理的重要环节,钢材表面产生的裂纹,斑点等瑕疵会严重影响产品的质量,带来不可控的危害。钢材瑕疵智能检测是困扰行业多年的技术瓶颈,人工检测效率难以把握,检测标准缺乏一致性。采用深度学习技术的目标检测算法在钢材瑕疵检测领域效果显着,但大多不适用于功耗小,计算资源受限的移动或嵌入式设备上。本文结合深度学习技术,改进了Tiny-YOLOv3算法,采用嵌入式设备构建了钢材瑕疵检测系统模型,保证瑕疵检测的精度和实时性。主要研究成果如下:1、为了平衡钢材目标瑕疵检测的精度和速度,提出一种改进的目标检测算法RTiny-YOLOv3。改进的算法基于Tiny-YOLOv3网络结构,首先加入残差网络,提升网络的深度和检测的精度。增加改进的空间金字塔池化SPP模块,提升了网络的特征提取能力。然后结合不同网络层的特征信息,将检测由两个尺度提升到三个尺度。最后选取CIOU作为损失函数,使目标检测的回归更加稳定。采用改进的R-TinyYOLOv3算法和Tiny-YOLOv3算法进行对比实验分析,R-Tiny-YOLOv3算法对钢材瑕疵的检测精度达到71.5%,相比于Tiny-YOLOv3算法提升了10.8%,检测速度达到39.8帧每秒。实现了检测精度和速度的平衡,也满足嵌入式设备的实时检测要求。2、设计了基于边缘智能的工业钢材瑕疵检测系统模型,该系统模型分硬件检测平台和软件管理平台两部分。硬件检测平台采用寒武纪边缘智能1H8开发板,将改进的瑕疵检测模型移植到1H8边缘智能嵌入式平台,整个检测算法的计算任务全部部署在边缘端并完成实时检测。检测平台可以脱离数据中心独立运行,提升钢材的瑕疵检测效率。然后基于硬件平台设计了瑕疵检测软件系统,提供了用户交互界面。具体分为瑕疵检测模块、报警模块、数据查询模块、和输出检测报告模块。质检人员能远程通过该软件系统控制边缘端检测设备,能够实时对生产线的钢材生产情况进行处理和维护,能够对批次的钢材生产检测结果进行数据查询和报告输出,为后续的产品质量溯源提供数据支持,提升质检人员钢材瑕疵检测任务的效率。图[51]表[9]参[70]
马潇潇,杨帆,王展,元国军,安学军[8](2022)在《智能网卡综述》文中进行了进一步梳理在网速飞速提升、内存瓶颈突出、网络处理开销愈发显着的时代,普通网卡在网络协议处理、数据搬移、使用灵活性等方面逐渐暴露出缺陷.智能网卡,作为可编程的智能网络设备,在数据中心、科学计算领域均得到广泛关注,成为解决网络瓶颈的关键技术.在网络协议处理卸载、网络功能虚拟化、特定应用加速等应用场景中发挥着重要作用.综述从智能网卡的基础架构、编程框架、应用方向和热点问题4个方面进行分析,总结了目前产业界中的典型产品、学术界中的重要成果,明确了不同设计架构的优势和不足,分析了不同编程框架适用的应用场景,介绍了智能网卡在典型数据中心应用、科学计算应用实例中的作用,对不同应用场景中智能网卡的软硬件协同设计提供了建议.最后,综述对当前智能网卡设计、使用中仍然存在的热点问题进行总结,总结了通用的智能网卡设计思路,指明未来有价值的重要研究点.
许凯[9](2020)在《基于哈希的高通量生物基因测序数据处理算法优化》文中指出近年来,随着生命科学技术不断发展,特别是在高通量测序技术(通常称为下一代测序,Next Generation Sequencing,NGS)的飞速发展推动下,生命科学中生成的数据量大大增加,基因组测序项目的数量和测序数据的数量急剧增加。高通量测序数据在飞速增加,但处理器的性能提升速度却逐年放缓,甚至接近停滞,单个处理器的性能已经难以进一步扩展。在2015年,由于提升芯片频率等方法会进一步加大芯片的散热问题,同时,指令级的流水和并行也出现了巨大的局限性和低效性,各种微体系结构的改进已经达到瓶颈,处理器性能的提升现在每年只有3.5%,平均20年提升一倍,摩尔定律在芯片领域几乎已经失效。因此学者们开启了多核和异构体系结构的研究,不需要改变程序的算法和实现仅仅依靠芯片性能提升从而使程序性能获得大幅度改善已经变得越来越困难,“免费午餐”的时代已经过去。因此,一方面生命科学高通量测序数据一直在急剧增加,另一方面近年来计算性能的提升主要集中在新兴体系结构的发展,因此在新的体系结构上如何处理高通量测序数据是急切需要解决的问题。基因纠错和基因比对是高通量测序数据处理中前期的两个步骤,纠错和比对在同构CPU上的研究已经有很多,但是针对异构架构处理器的研究和针对大规模数据集的处理研究相对较少。如何在基础的算法上进行改进使得计算量减少,如何针对新兴的异构体系架构进行针对性的设计以适应不同架构处理器的特点,如何进行分布式的实现以针对大规模的数据集,都是需要解决的问题。本文的工作主要针对以上问题,围绕DNA测序数据处理过程中的基因纠错和序列比对在Intel多核和众核架构以及国产自主设计的处理器SW26010等体系结构上的算法设计和针对性实现进行研究。本文的主要研究成果如下所述:1)本文提出了一种可扩展的并行纠错算法SPECTR,旨在提高各种Intel并行平台上Illumina DNA短序列进行纠错时的吞吐量。SPECTR的实现基于k-谱方法,针对Intel多核和众核架构以及异构计算集群采用了许多针对性的优化。本文针对SPECTR中的一个关键操作Bloom过滤器的查询进行了优化,对数据重新布局,加快了查询速度,对查询工作中的共同操作,抽象出查询中向量化需要的一般操作,实现了 Bloom过滤器查询操作的异构计算框架。在纠错过程中,本文设计了一个基于堆栈迭代的方法来取代在异构架构上性能较低的递归操作。在单个设备内,本文使用OpenMP的动态任务划分实现了负载均衡。针对单个节点的多个设备,本文设计了数据的分发框架,实现了不同设备间的负载均衡。针对多个节点,本文设计了分布式实现。实验表明,与在CPU上的多线程原始实现相比,优化后的实现在不同设备中加速了 2.8到9.3倍。与其他基因纠错工具相比,在相同的硬件上执行时,SPECTR的速度可提高1.7到6.4倍。在天河二号超级计算机的32个节点上执行时,实现了约86%的并行效率。2)针对基因比对,本文在神威·太湖之光及其申威体系架构SW26010上设计实现了一种高度可扩展的序列比对算法S-Aligner。为解决序列比对算法中的内存瓶颈和计算瓶颈,S-Aligner设计采用了三层并行级别:(1)使用MPI基于任务网格模式进行节点间并行计算;(2)使用多线程和异步数据传输来实现节点内并行处理,将需要计算的数据进行分块实现了不同计算核心之间的负载均衡,充分利用了 SW26010多核处理器的所有260核,以及(3)向量化了基因比对中计算编辑距离的Myers算法,充分利用了可用的256位SIMD向量寄存器。在文件I/O期间,本文采用异步访问模式和数据共享策略以克服网络文件系统的带宽限制。性能评估表明,S-Aligner几乎可以线性扩展,在太湖之光上的13,312个节点上实现了 95%的并行效率。S-Aligner在具有很高准确度的同时,在单个节点上的性能优于在Intel CPU平台上运行的序列比对工具RazerS3。3)在对S-Aligner进行分析之后,本文设计了一个新的可扩展且高效的基因比对算法SWMapper。为了减少内存的使用和加速索引的构建,SWMap-per使用了一个精简哈希索引,设计并实现了一个分布式索引构建方法。在进行比对时,提出了一种新的过滤算法,将基因序列分解为长种子和短种子,使用短种子查找到候选匹配位置后,利用长种子进行过滤减少需要计算的候选位置数。为了去除候选匹配位置中的重复,设计使用了一个最小堆数据结构进行排序删除重复位置。在对基因序列和参考基因子序列进行编辑距离的计算时,设计实现了带状Myers(Baned Myers)算法的向量化,使用SW26010的一条三元逻辑指令替换多条逻辑指令,减少了计算指令数。本文针对多个计算核心设计了动态调度策略来实现负载均衡,针对多个节点,本文设计了分布式实现。性能评估表明,在单个SW26010上,SWMapper的性能优于在相同硬件上的S-Aligner 6.2倍。与运行在Intel CPU上的其他比对算法相比,SWMapper实现了 2.6到26.5倍的加速。在128个计算核组上运行时,SWMappcr实现了 74%的强扩展效率。
王迪翰[10](2018)在《基于PMU和Android应用的龙芯CPU性能评估工具设计》文中认为Android系统是目前最主流的移动终端操作系统,软硬件开发人员在设计优化时需要获取CPU在面向Android应用运行行为和硬件的性能参数。目前基于ARM架构这类工具很多如ARM公司推出ARM Streamline性能分析器,但对于非ARM架构的龙芯CPU架构,则非常缺乏相应的性能分析工具和方法。因此,针对龙芯CPU设计一套面向安卓应用的性能测试方法对于优化系统性能,推动国产CPU的应用,是非常有意义的。性能监测单元PMU(Performance Monitoring Unit,PMU)能保证额外开销低和目标应用执行干扰的条件下在线记录程序运行时的微架构事件特征。本文在参考了已有性能分析工具VTnue、Perf以及ARM Streamline的实现原理后,结合龙芯2H平台的硬件特性,采用龙芯2H CPU内嵌的PMU,通过全系统采样方式设计并实现了一款面向安卓应用的性能测试工具。该工具主要分为三个模块:数据采集模块,数据采样控制模块,数据分析模块。其中数据采集负责控制性能计数器,采集应用运行中的硬件事件信息;数据采样控制模块负责配置采样的事件类型、数据的存储方式;数据分析模块负责分析收集的抽样数据。论文设计的性能测试工具可以在安卓应用运行时精确统计出每个线程的对应处理器硬件事件数目如:如cpu时钟数、分支预测缺失次数、指令数以及Cache缺失次数等事件,以及每个线程切入时间,切出时间,运行时间等。由于龙芯2H平台已有工具perf在线程统计不区分相同ID的线程、且操作繁琐。我们在进程级对比了本文所实现的性能测试工具与龙芯2H平台已有工具perf的精度。其中0xbenchmark测试结果得出cpu时钟数最大误差为1.11%,分支指令数最大误差为1.41%,一级指令缓存未命中数为0.99%。
二、PMC推出1GHz MIPS单核处理器(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、PMC推出1GHz MIPS单核处理器(论文提纲范文)
(2)基于RISC-V的超标量乱序处理器研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外发展现状 |
1.2.1 乱序超标量处理器 |
1.2.2 RISC-V发展现状 |
1.3 本文的研究内容与架构 |
第二章 乱序超标量处理器与RISC-V设计平台概述 |
2.1 乱序超标量处理器 |
2.1.1 “乱序”与“超标量” |
2.1.2 RISC-V指令集 |
2.1.3 Cache |
2.1.4 分支预测 |
2.1.5 调度与发射 |
2.1.6 相关性与重命名 |
2.2 RISC-V设计平台 |
2.2.1 Chisel与敏捷开发 |
2.2.2 FIRRTL与硬件编译框架 |
2.3 本章小结 |
第三章 稳态下高吞吐率乱序发射架构研究 |
3.1 基于指令凋零的乱序发射架构顶层设计 |
3.2 指令凋零电路 |
3.3 指令分配电路 |
3.4 基于类加法器的指令请求电路 |
3.5 自适应延迟唤醒电路 |
3.6 本章小结 |
第四章 指令分支预测中的性能退化研究 |
4.1 分支预测理论化分析 |
4.1.1 定义与符号 |
4.1.2 理想分支预测模型 |
4.1.3 实例化理想模型 |
4.2 面向RISC-V的分支预测辅助器 |
4.2.1 统计偏差矫正器 |
4.2.2 面向不稳定控制流循环体的分支指令辅助预测器 |
4.3 本章小结 |
第五章 RISC-V乱序超标量处理器SoC构建 |
5.1 基于RISC-V设计平台的的处理器SoC敏捷开发 |
5.2 处理器SoC架构 |
5.3 核心流水线 |
5.4 面向RISC-V处理器的蓝牙开发 |
5.4.1 蓝牙组件 |
5.4.2 蓝牙数据的发送与接收 |
5.4.3 蓝牙与处理器SoC通信 |
5.5 调试系统 |
5.5.1 总体架构 |
5.5.2 选择硬件线程 |
5.5.3 运行控制 |
5.5.4 单步调试 |
5.5.5 调试主机 |
5.6 本章小结 |
第六章 FPGA原型验证以及性能测试 |
6.1 基于FPGA验证平台的功能验证 |
6.1.1 FPGA功能验证平台介绍 |
6.1.2 面向FPGA的专用存储器优化 |
6.1.3 处理器SoC在 FPGA平台上的实现 |
6.1.4 基于FPGA原型验证的性能测试 |
6.2 ASIC测试结果 |
6.3 本章小结 |
第七章 主要结论与展望 |
7.1 主要结论 |
7.2 展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间发表的论文 |
(3)基于RISC-V多核处理器的Cache及其一致性协议研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 Cache的组织形式 |
1.2.2 Cache性能提升技术 |
1.2.3 Cache一致性协议 |
1.2.4 存储系统验证方法 |
1.3 论文的主要内容及组织架构 |
第二章 RISC-V多核处理器的存储系统架构 |
2.1 RISC-V多核处理器的总体存储结构 |
2.2 Cache存储器 |
2.2.1 映射结构 |
2.2.2 替换算法 |
2.2.3 写策略 |
2.3 基于TileLink的 Cache一致性协议 |
2.3.1 TileLink总线 |
2.3.2 现有Cache一致性协议 |
2.4 本章小结 |
第三章 D2MB-ICache设计 |
3.1 设计需求 |
3.2 D2MB-ICache的总体设计 |
3.2.1 存储体的划分机制 |
3.2.2 存储体时钟 |
3.2.3 电路结构和控制流程方案 |
3.3 D2MB-ICache的访问机制 |
3.3.1 写操作 |
3.3.2 读操作 |
3.4 实验结果 |
3.4.1 功能仿真 |
3.4.2 性能测试 |
3.4.3 功耗分析 |
3.5 本章小结 |
第四章 DTBDN一致性协议设计 |
4.1 DTBDN协议的总体方案 |
4.1.1 状态集合 |
4.1.2 读写策略 |
4.1.3 状态转换 |
4.2 DTBDN协议的目录 |
4.2.1 目录结构 |
4.2.2 目录的处理流程 |
4.3 DTBDN协议的操作过程 |
4.3.1 Cache中的一致性操作 |
4.3.2 IO设备的一致性操作 |
4.4 DTBDN协议正确性论证 |
4.4.1 单写多读条件的满足 |
4.4.2 数据最新原则的满足 |
4.5 性能测试 |
4.5.1 Gem5 模拟器 |
4.5.2 测试集的选择 |
4.5.3 不同Cache一致性协议的性能测试 |
4.6 本章小结 |
第五章 RISC-V多核存储系统的验证平台设计 |
5.1 验证平台开发流程 |
5.2 功能点分析 |
5.2.1 Cache一致性协议的功能点 |
5.2.2 多核处理器的典型测试场景 |
5.3 验证平台的搭建 |
5.3.1 验证平台总体设计 |
5.3.2 测试平台设计 |
5.3.3 激励生成器设计 |
5.4 功能覆盖率结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间取得的成果 |
(4)神经网络中卷积操作的软硬件优化研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 深度学习算法与应用 |
1.1.1 深度学习算法 |
1.1.2 深度学习的应用 |
1.2 深度学习计算系统 |
1.2.1 深度学习编程框架 |
1.2.2 深度学习编译器 |
1.2.3 深度学习硬件平台 |
1.3 研究问题和贡献 |
1.3.1 研究问题 |
1.3.2 研究思路和贡献 |
1.4 论文组织结构 |
第2章 相关工作 |
2.1 深度学习加速器 |
2.1.1 基于向量操作的加速器 |
2.1.2 空间数据流加速器 |
2.2 深度学习软件环境 |
2.2.1 深度学习加速器高性能库 |
2.2.2 深度学习编译器 |
2.3 本章小结 |
第3章 软硬件协同优化深度卷积 |
3.1 研究动机 |
3.1.1 深度卷积计算和访存特征 |
3.1.2 深度卷积规模特征 |
3.2 深度卷积加速器 |
3.2.1 加速器整体架构 |
3.2.2 存储单元 |
3.2.3 运算单元 |
3.2.4 数据通路 |
3.3 软件实现和优化 |
3.3.1 模式选择 |
3.3.2 数据拆分 |
3.3.3 软流水 |
3.3.4 空间复用和数据复用 |
3.4 实验 |
3.4.1 Benchmark |
3.4.2 实验平台 |
3.4.3 软件优化结果 |
3.4.4 不同平台对比结果 |
3.5 本章小结 |
第4章 软硬件协同优化卷积 |
4.1 研究动机 |
4.1.1 卷积计算和访存特征 |
4.1.2 卷积规模特征 |
4.2 数据摆放格式 |
4.3 硬件设计 |
4.3.1 整体架构 |
4.3.2 数据转置单元 |
4.3.3 存储单元 |
4.3.4 计算单元 |
4.3.5 数据通路 |
4.4 软件实现和优化 |
4.4.1 执行流程 |
4.4.2 模式选择 |
4.4.3 数据格式转换 |
4.4.4 卷积参数的支持与优化 |
4.5 实验 |
4.5.1 Benchmark |
4.5.2 实验平台 |
4.5.3 实验结果 |
4.6 本章小结 |
第5章 总结和展望 |
5.1 总结 |
5.2 展望 |
5.2.1 神经网络中除卷积之外其它层的优化 |
5.2.2 硬件计算高效的深度学习算法 |
5.2.3 卷积加速器的通用性扩展 |
5.2.4 扩展多核架构 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(5)面向调焦调平的多核DSP图像处理研究与实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 调焦调平概述 |
1.2 课题研究背景与意义 |
1.3 国内外研究现状 |
1.3.1 多核DSP发展现状 |
1.3.2 图像处理技术发展现状 |
1.4 本文主要研究工作与章节安排 |
第二章 系统总体方案与关键技术研究 |
2.1 需求分析与调研 |
2.1.1 主控微处理器调研 |
2.1.2 C6x系列DSP调研 |
2.2 系统总体方案设计 |
2.3 关键技术研究 |
2.3.1 SYS/BIOS实时操作系统 |
2.3.2 核间通信技术 |
2.3.3 C6678 中断系统 |
2.3.4 Rapid IO传输技术 |
2.3.5 EMIF总线 |
2.3.6 SPI总线 |
2.3.7 多核DSP自启动技术 |
2.4 本章小结 |
第三章 图像处理系统实现 |
3.1 硬件设计与研究 |
3.1.1 硬件需求与框架 |
3.1.2 关键电路模块设计 |
3.2 算法研究与实现 |
3.2.1 算法概述 |
3.2.2 离焦量计算 |
3.2.3 倾斜量计算 |
3.3 图像数据传输实现 |
3.4 关键外设驱动开发 |
3.4.1 Nand Flash |
3.4.2 DDR3 |
3.4.3 EMIF16 FPGA |
3.5 多核DSP自启动实现 |
3.6 软件离线升级实现 |
3.7 本章小结 |
第四章 系统调试与验证 |
4.1 图像数据传输测试 |
4.1.1 数据传输正确性测试 |
4.1.2 SRIO接口速率测试 |
4.2 关键外设功能测试 |
4.2.1 Nand Flash读写测试 |
4.2.2 DDR3 读写测试 |
4.3 多核自启动测试 |
4.4 调焦调平系统性能测试 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 展望 |
参考文献 |
附录1 英文缩略词 |
附录2 图像处理系统硬件电路 |
攻读硕士学位期间的学术活动及成果情况 |
(6)基于实时功率预算的微处理器高能效比算法(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究历史与现状 |
1.3 本文主要工作 |
1.4 本论文的结构安排 |
第二章 微处理器实时能效比优化相关技术简介 |
2.1 多核微处理器芯片结构 |
2.2 多核微处理芯片功率模型 |
2.2.1 动态功率模型 |
2.2.2 静态功率模型 |
2.3 多核微处理器热模型 |
2.3.1 热模型理论建立基础 |
2.3.2 多核微处理器热模型建立方法 |
2.4 动态电压频率调整技术 |
2.5 暗硅芯片和能效比优化 |
2.6 含有静态功率模型的仿真技术 |
2.7 优化问题求解方法 |
2.8 本章小结 |
第三章 多核微处理器高能效比功率预算算法技术 |
3.1 能效比定义 |
3.2 多核微处理器能效比特性分析 |
3.3 建立优化目标 |
3.4 多核微处理器高能效比优化 |
3.5 梯度下降求解优化目标 |
3.6 多核微处理器高能效比优化总流程 |
3.7 本章小结 |
第四章 实验结果 |
4.1 实验配置 |
4.2 能效比优化算法展示 |
4.3 能效比优化算法瞬态结果展示 |
4.4 静态功耗占比对算法的影响 |
4.5 算法耗时展示 |
4.6 本章小结 |
第五章 全文总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(7)基于深度学习的工业钢材瑕疵检测研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与研究意义 |
1.2 国内外研究现状 |
1.2.1 国内外瑕疵检测系统研究现状 |
1.2.2 国内外瑕疵检测算法研究现状 |
1.2.3 嵌入式平台的发展 |
1.3 存在的问题及发展趋势 |
1.4 研究内容及组织结构 |
1.4.1 研究内容 |
1.4.2 论文组织结构 |
第二章 深度学习理论 |
2.1 卷积神经网络 |
2.2 基于卷积神经网络的目标检测模型 |
2.2.1 基于区域建议的算法 |
2.2.2 基于回归思想的算法 |
2.3 边缘计算技术 |
2.4 本章小结 |
第三章 改进的R-Tiny-YOLOv3 瑕疵检测算法 |
3.1 引言 |
3.2 改进的R-Tiny-YOLOv3 的网络模型 |
3.2.1 增加改进的残差层 |
3.2.2 改进的SPP-Net结构 |
3.2.3 改进的损失函数 |
3.3 实验过程与结果分析 |
3.3.1 数据集的制作 |
3.3.2 实验平台与模型训练 |
3.3.3 评价指标 |
3.3.4 实验结果及分析 |
3.4 本章小结 |
第四章 钢材瑕疵检测系统模型 |
4.1 系统模型总体设计 |
4.2 硬件平台实现 |
4.2.1 硬件平台搭建 |
4.2.2 瑕疵检测模型部署 |
4.2.3 开发板运行验证 |
4.3 软件系统实现 |
4.3.1 MySQL数据库 |
4.3.2 瑕疵检测模块 |
4.3.3 数据查询模块 |
4.3.4 报警模块 |
4.4 系统测试 |
4.4.1 系统模型测试 |
4.4.2 输出检测报告 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 工作展望 |
参考文献 |
致谢 |
作者简介及攻读硕士学位期间取得的成果 |
(8)智能网卡综述(论文提纲范文)
1 智能网卡基础架构 |
1.1 按核心处理器分类 |
1.1.1 基于FPGA的设计 |
1.1.2 基于MP的设计 |
1) 基于NP-SoC的智能网卡 |
2) 基于GP-SoC智能网卡 |
1.1.3 基于ASIC的设计 |
1.2 按数据通路分类 |
1.2.1 On-Path设计 |
1.2.2 Off-Path设计 |
1.3 基础架构小结 |
2 智能网卡编程框架 |
2.1 数据密集型 |
2.2 控制密集型 |
2.3 编程框架小结 |
3 应用方向 |
3.1 网络协议处理 |
3.2 网络功能卸载 |
3.3 数据中心应用 |
3.4 科学计算应用 |
3.5 应用方向小结 |
4 热点问题 |
4.1 架构及编程框架探索 |
4.2 应用探索 |
4.3 协议接口探索 |
5 智能网卡设计与测试 |
5.1 设计方法 |
5.2 测试方法 |
6 总结展望 |
(9)基于哈希的高通量生物基因测序数据处理算法优化(论文提纲范文)
中文摘要 |
英文摘要 |
文中使用的缩略词和符号 |
第一章 绪论 |
1.1 研究的背景和意义 |
1.2 研究的现状和挑战 |
1.2.1 数据量的增加 |
1.2.2 基因序列纠错的方法 |
1.2.3 基因序列比对的方法 |
1.2.4 异构处理器的发展 |
1.2.5 生物信息学在异构架构上的实现 |
1.2.6 面临的挑战 |
1.3 本文研究内容和创新点 |
1.4 本文的组织结构和章节安排 |
第二章 背景 |
2.1 哈希算法 |
2.1.1 哈希简介 |
2.1.2 布隆过滤器 |
2.2 FASTQ格式 |
2.3 基因纠错算法 |
2.4 基于哈希的基因比对算法 |
2.4.1 SAM格式 |
2.4.2 种子-延伸策略 |
2.4.3 精确比对和最优比对 |
2.4.4 Smith-Waterman算法 |
2.5 高性能计算机的体系结构 |
2.5.1 Intel CPU和向量处理器 |
2.5.2 Xeon Phi |
2.5.3 SW26010 |
2.6 编程模型 |
2.6.1 MPI模型 |
2.6.2 OpcnMP模型 |
2.6.3 Athread编程模型 |
2.7 本章小结 |
第三章 SPECTR: 多核和众核架构上的可扩展短读序列纠错 |
3.1 引言 |
3.2 串行纠错算法介绍 |
3.3 并行算法设计 |
3.3.1 数据内存对齐 |
3.3.2 向量化Bloom过滤器查询 |
3.3.3 消除递归代码 |
3.3.4 优化细节 |
3.4 分布式实现 |
3.5 实验结果 |
3.5.1 实验设置 |
3.5.2 准确度 |
3.5.3 单设备性能 |
3.5.4 与其他工具的比较 |
3.5.5 天河二号上的性能 |
3.6 本章小结 |
第四章 S-Aligner: 基于神威·太湖之光超级计算机的基因比对 |
4.1 引言 |
4.2 Myers算法 |
4.3 S-Aligner的设计 |
4.3.1 计算核组间的大规模并行 |
4.3.2 计算核组内的多线程并行 |
4.3.3 SIMD向量化 |
4.3.4 局部设备内存的使用 |
4.4 实验结果 |
4.4.1 单节点的性能分析 |
4.4.2 与RazerS3的比较 |
4.4.3 扩展性分析 |
4.5 本章小结 |
第五章 SWMapper: 基于精简哈希的可扩展基因比对 |
5.1 引言 |
5.2 带状Myers算法 |
5.3 SWMapper的设计 |
5.3.1 MPE上的工作流程 |
5.3.2 精简哈希索引的建立 |
5.3.3 CPE上的工作流程 |
5.3.4 移除重复位置 |
5.3.5 种子过滤 |
5.3.6 带状Myers算法的向量化 |
5.3.7 数据传输优化 |
5.3.8 分布式版本 |
5.4 实验结果 |
5.4.1 准确度 |
5.4.2 建立哈希索引的时间 |
5.4.3 比对时间 |
5.4.4 优化的性能分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
博士期间发表的论文 |
博士期间参加的科研工作 |
相关的开源项目 |
学位论文评阅及答辩情况表 |
(10)基于PMU和Android应用的龙芯CPU性能评估工具设计(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 背景与意义 |
1.2 性能分析工具研究 |
1.3 研究内容及目标 |
1.4 论文组织 |
第二章 基于PMU的性能分析技术 |
2.1 基于PMU性能分析工具 |
2.1.1 VTune |
2.1.2 Perf |
2.1.3 Streamline |
2.1.4 Oprofile |
2.2 龙芯2H平台的硬件支持 |
2.2.1 龙芯性能检测单元PMU |
2.2.2 性能计数器的工作流程 |
2.3 设计方案 |
2.3.1 龙芯2H性能数据采集方案分析 |
2.3.2龙芯2H性能数据采集方案设计 |
2.4 本章小结 |
第三章 驱动层的设计与实现 |
3.1 驱动层性能数据的提取设计 |
3.1.1 时钟源和定时器的选择 |
3.1.2 Linux内核静态追踪点 |
3.1.3 性能计数器的操作 |
3.2 驱动层与用户层数据交换 |
3.3 本章小结 |
第四章 龙芯CPU性能数据的提取实现 |
4.1 性能数据的组织 |
4.1.1 性能数据帧组织形式 |
4.1.2 二进制文件标记和线程名称的提交 |
4.1.3 性能数据基本类型编码 |
4.2 压缩性能数据的解码 |
4.3 本章小结 |
第五章 实验验证 |
5.1 软硬件平台搭建 |
5.1.1 实验硬件平台 |
5.1.2 实验软件平台 |
5.1.3 测试软件与测试方法 |
5.2 结果及验证 |
5.2.1 性能数据的统计结果 |
5.2.2 与perf实测结果对比 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
四、PMC推出1GHz MIPS单核处理器(论文参考文献)
- [1]基于龙芯2K1000的嵌入式Linux系统移植和驱动程序设计[D]. 姜悦. 哈尔滨工业大学, 2021
- [2]基于RISC-V的超标量乱序处理器研究[D]. 马晓杰. 江南大学, 2021(01)
- [3]基于RISC-V多核处理器的Cache及其一致性协议研究[D]. 李青青. 江南大学, 2021(01)
- [4]神经网络中卷积操作的软硬件优化研究[D]. 齐豪. 中国科学技术大学, 2021(08)
- [5]面向调焦调平的多核DSP图像处理研究与实现[D]. 罗环. 合肥工业大学, 2021
- [6]基于实时功率预算的微处理器高能效比算法[D]. 柒文杰. 电子科技大学, 2021(01)
- [7]基于深度学习的工业钢材瑕疵检测研究[D]. 刘洋. 安徽建筑大学, 2021(08)
- [8]智能网卡综述[J]. 马潇潇,杨帆,王展,元国军,安学军. 计算机研究与发展, 2022
- [9]基于哈希的高通量生物基因测序数据处理算法优化[D]. 许凯. 山东大学, 2020(04)
- [10]基于PMU和Android应用的龙芯CPU性能评估工具设计[D]. 王迪翰. 东南大学, 2018(04)