内存延迟与带宽分析
在现代计算机环境中,内存访问效率通常成为性能瓶颈。处理器达到内存的速度,即延迟以及每秒可以传输的数据量,即带宽,是影响应用程序性能的主要因素。
在各种情况下,这两个因素都很重要。
本节将重点介绍内存亚周组件的首脑会议性能。
在X8 6 平台上,英特尔内存延迟检查器(MLC)是一个非常有用的设备,可以在Windows和Linux上免费使用。
MLC可以通过各种访问模式和负载来测量现金和内存延迟和带宽。
在基于ARM的系统上,尽管没有类似的工具,但用户可以从源代码(例如LMBENCH2 ,BANDWIDTH4 和Streams等)下载和构建内存延迟和带宽基准等。
本节讨论了两个多个多元化:Idol Reed Laquetan并读取带宽。
偶像芦苇延迟延迟,当系统处于被动状态时,从内存系统组件中恢复数据需要最少的时间。
当系统通过其他内存诱导应用程序加载时,此延迟会增加。
MLC通过证明相关加载(也称为指针徒步旅行)来测量非活动延迟。
测量线程分配了一个非常大的缓冲区并续订了它,以便缓冲区在每个缓冲区(6 4 次罚款)现金线中有另一个不邻近现金线的指标。
通过正确塑造缓冲区,我们可以确保几乎所有负载一个达到一定水平的现金或主要记忆。
这是一个测试系统的示例,包括英特尔Elderlake主机,Corey 7 –1 2 6 0pcpu和1 6 GBDDR4 @2 4 00mt/s双通道内存。
该处理器具有4 个表演P(实际上是两个物理核 * 2 个过度透明的)过度核心和8 E(熟练)核心。
每个P核心具有4 8 KB L1 数据现金和1 .2 5 MB L2 现金。
每个E Core都有一个3 2 KB L1 数据缓存,而四个E Core是可以达到共享2 MBL2 缓存的群集。
系统中的所有核心1 8 MB L3 均由现金支持。
这是MLC命令:选项-DLE_LATINCY用于测量阅读延迟。
当存在其他线程生成的内存流量时,MLC具有LOADED_LETAN选项,可以测量延迟。
选项-C0修复位于P核心上的逻辑CPU0上的测量线。
选项-L使大页面能够限制我们的测量中的TLB效应。
选项-B1 0M MLC要求使用1 0MB缓冲区,该缓冲区可以在我们的系统上以L3 现金放置。
以下图表表示L1 ,L2 和L3 缓存的REED延迟。
左侧的第一个区域与L1 D现金匹配,这是每个物理核心的私有区域。
我们可以看到,E核的延迟为0.9 NS,而P核略高于1 .1 NS。
此外,我们可以使用此图来确认缓存大小。
请注意,当缓冲区的尺寸超过3 2 kb时,E核心的延迟开始增加,但孔延迟保持不变,最高为4 8 kb。
它证实了E核的L1 D现金大小为3 2 KB,而P核的L1 D现金大小为4 8 KB。
第二个区域显示了L2 现金延迟,E核孔(5 .9 NSVS.3 .2 NS)大约两次。
对于P核,超过1 .2 5 MB缓冲尺寸后延迟增加,这是可以预期的。
但是我们希望E核心的延迟将保持不变,最多可达2 MB,但在我们的测量中没有发生。
从2 MB到1 4 MB的第三个区域匹配L3 现金延迟,这两种内核大约为1 2 N。
系统中所有内核共享的系统是总尺寸的1 8 MB。
有趣的是,我们看到了一些意外的动态变化,从1 5 MB而不是1 8 MB开始。
这很可能是因为某些访问会错过L3 ,需要进入主内存。
第四个区域与内存延迟匹配,只有其初始部分显示在图表上。
当我们越过1 8 MB范围时,延迟将迅速增长,并开始稳定E核的2 4 MB和P核的6 4 MB。
当使用5 00MB的大型缓冲尺寸时,E -core访问为4 5 NS,P核心为9 0NS。
此内存衡量延迟,因为几乎没有加载会击中L3 现金。
使用类似的技术,我们可以测量内存层次结构各个组件的带宽。
为了衡量带宽,MLC执行的负载请求均未由任何后续说明使用。
这允许MLC使最大带宽成为可能。
MLC在每个配置的逻辑处理器上产生一个软件线程。
该地址独立于每个线程,并且线程之间没有数据共享。
与延迟实验一样,线程使用的缓冲区大小决定MLC L1 /L2 /L3 是测量现金带宽还是内存带宽。
这是新的选项-K,它是用于测量的CPU指定数字列表。
-Y选项要求使用AVX2 加载MLC,即每次加载3 2 个字节。
MLC使用单独的芦苇和正确的比率来测量带宽,但是在下面的图中,我们仅显示所有读带宽,因为它使我们对摘要带宽的峰会有了自发的理解。
但是其他比率也很重要。
我们使用IntelMPLC测量的系统的关节延迟和带宽数字如下所示。
与主内存相比,核心共享的L3 可以从较低的高速缓存(例如L1 和L2 )中获得更高的带宽。
共享现金(例如L3 和E Core L2 )非常好,可以同时提供多个核心的请求。
例如,单个E核L2 的带宽为1 00GB/s。
使用来自同一群集的两个E核,我测量了1 4 0GB/s,三个E核心1 6 5 GB/s,而所有四个E核都能够从L2 获得1 7 5 GB/s。
L3 对于现金也是如此,其中单个P核心带宽为6 0gb/s,而E核心带宽仅为2 5 GB/s。
但是,当使用所有核心时,L3 可以保持3 00GB/s现金的带宽。
我们测量纳米秒的延迟和GB/s的带宽,因此它们也取决于核心运行的频率。
在不同的情况下,看到的数量可能会有所不同。
例如,假设只有在系统上的最大涡轮频率上行走时,P芯的L1 延迟为X,而L1 带宽Y为。
当系统满足时,我们可以看到这些矩阵分别为1 .2 5 倍和0.7 5 y。
为了降低频率效应,而不是使用纳米conds,而是核心持续时间的延迟和矩阵可以使用一些样品频率来表示,例如3 GHz。
了解计算机的主要特征是程序如何使用可用资源的基本方法。
通过车顶线的性能模型,它是CPU计算的障碍或记忆读数的刺激。
如果经常在同一平台上分析性能,最好记住内存层次结构各个组件的延迟和带宽,这有助于建立测试系统的心理模型,并有助于进一步的性能分析。
怎样运行内存检测工具
1 在Windows 1 0系统屏幕上,单击菜单“开始/Windows系统/面板”第2 节。在“开放控制面板”窗口中,单击“查看方法”下拉菜单,在弹出菜单中选择“大图标”菜单,然后在1 0个系统中找到“管理工具”图标。
此时,您将选择立即重新启动或在重新启动计算机时检查内存6 重新启动计算机后,内存诊断工具将自动运行,并将测试内存。
7 按快捷方式F1 后,我们可以打开检查模式。
通常,只需选择默认的“标准”即可。
tm5内存测试怎么用
您可以使用TM5 内存测试软件来测试内存性能。详细说明:1 选择TM5 软件:TM5 是专门用于测试计算机内存性能的软件。
通过下载和安装软件,用户可以轻松执行内存性能测试。
2 安装和执行:安装TM5 软件后,根据软件说明进行运行。
通常,该软件会提供简单的操作接口和测试选项。
3 测试过程:在TM5 软件接口中,选择内存测试功能。
该软件将执行一系列测试,包括阅读记忆和写作速度,延迟等,以评估内存性能。
4 显示测试结果:测试完成后,软件将显示详细测试的结果。
用户可以使用这些结果来了解内存性能条件并确定是否存在问题。
注意:1 进行内存测试时,请确保计算机处于稳定状态,并防止其他背景程序干扰测试结果。
2 在测试之前,您可以首先清洁内存以确保测试的精度。
3 如有必要,您可以在官方TM5 软件网站上找到详细的操作指南和教程,以获得更具体的测试结果。
得益于上述步骤,用户可以轻松使用TM5 内存测试软件来测试其计算机的内存性能。
这不仅有助于理解真正的内存性能,还可以帮助用户确定是否存在潜在问题。