Intel graphics HD 4600 核芯显卡对比 nVIDIA Geforce GTX 750 2GB GDDR5 独立显卡

Intel graphics HD 4600 核芯显卡对比 nVIDIA Geforce GTX 750 2GB GDDR5 独立显卡参数比较，3D Mark 性能测试

下面列出的这些比较项目与参数，来自于使用 CPU-Z 与 GPU-Z 工具，对相应的硬件进行检测的结果，

后面会给出使用 3D Mark 进行基准测试的软件版本以及相应硬件的得分，FPS（每秒帧数，可以作为对显卡或显示芯片性能进行综合判断的依据）

**********************************************************************

比较项目：GPU 内部代号

项目含义：

这是指生产商在开发该 GPU 时,公司内部使用的开发代号;

以 nVIDIA 而言,通常这与 GPU的核心架构代号(一般使用物理学家的名字,例如GM107 是"麦克斯韦"架构)有某种程度的关联;

图形显示芯片生产商在开发时,可以使用相同的内部代号(或核心架构代号),然后通过调整,更改流处理器的数量,显示核心的时钟频率,显存时钟频率,显存类型,显存数量以及位宽等可控因素,来衍生出一系列用于最终销售的不同型号的产品,

这不仅能丰富自己的产品线,而且有利于厂商在低,中,高端等不同市场需求下的销售策略布局,减少开发成本;

另外,同一个内部开发带号通常意味着相同的 GPU 核心架构,可以使用相同类型的驱动程序,这为显卡驱动程序开发人员编写驱动,以及用户通过内部带号查找,更新,下载,安装驱动等等,都提供了很大的便利.

***********************************************************************

比较项目:GPU 版本号(Revision)

项目含义:

该项目仅适用于 nVIDIA ,对于 ATI 与 Intel 的图形处理器而言,其没有 "GPU 版本号"的概念.

***********************************************************************

比较项目:制造工艺(Technology,制程技术,生产工艺)

项目含义:

制造工艺是衡量构成图形处理器内部的集成电路(Intergrated Circuit,IC)的各种电路,电子组件,元器件的特征尺寸大小,以及导线间连接的精度的重要指标;

制造工艺的精度在早期通常在微米(μm)量级;现在已经提升到纳米量级(nm),其数值越小,表示生产 GPU 时的精度越高,在相等面积的芯片上可以集成更复杂的电路,更多的元器件,最重要的是(从用户角度看),芯片的功耗也就更低;

1 mm(毫米)=0.001μm ; 1μm=0.001 nm

***********************************************************************

比较项目:(硅)芯片面积(Die Size)

项目含义:

对于 IntelHD 4600 而言,由于是集成在一个封装的 CPU 硅芯片的内部,因此这意味着整个 CPU 芯片的面积;

对于 nVIDIA 与 ATI 的 GPU 而言,这就是真实的图形处理器硅芯片的大小;

(硅)芯片面积以平方毫米(m㎡)为单位.

***********************************************************************

比较项目:晶体管数量(Transistors)

项目含义:

晶体管数量以百万个(M)为单位;

对于 IntelHD 4600 而言,其有两种含义:整个封装的 CPU 硅芯片内的晶体管数量;或者是 CPU 硅芯片内部的IntelHD 4600 显示芯片部件内的晶体管数量;目前尚无法确定,由 GPU-Z 给出的数字是表示哪一种.

***********************************************************************

比较项目:显卡生产商 ID(Subvendor ID) 与设备 ID(Device ID)

项目含义:

依照 GPU-Z 的解释,设备 ID 是指由图形处理器(GPU) 生产商自行指派的一组字符串标识符,前面的4个字符代表生产商 ID;后面的4个字符代表该设备(GPU)的 ID ;

我们知道,由于制造技术,经验,以及研发能力等诸多因素,桌面型 PC 使用的图形处理器市场份额一直被像 nVIDIA, AMD/ATI, Intel 这样的几家厂商所垄断;

上述这3家厂商虽然也自行生产所谓"公版"显卡,但多数情况下,他们仅生产,并销售

图形处理器芯片给一些第三方的"显卡制造商",例如 asus,gigabyte,elsa,msi 等等,由这些第三方厂商负责将图形处理器显示芯片集成在 PCB 版上,并添加显示存储器(显存),导热金属片,散热风扇,设计符合主流 PCI-Express 规范的显卡接口,以及

向显示器输出信号使用的接口类型等等;

而显卡生产商 ID 就是指这些第三方显卡制造商的 ID ,根据 GPU-Z 的解释,这个 ID 是由 PCI-SIG (PCI 特别兴趣小组,一个制定或审核 PCI 标准的国际化组织)分发给各个显卡制造商的 ID ,可以用来唯一地标识显卡制造商;

注意,有些显卡制造商并不会乖乖地在显卡 BIOS 中提供这个由 PCI-SIG 小组指派给他们的 ID (或者修改成其他 ID),而 GPU-Z 是读取显卡 BIOS 来显示某些信息,

这样,用户通过 GPU-Z 看到的这个 ID 可能不准确;一般情况下,对于绝大多数"一线显卡品牌大厂",这个值是可信的.在下面的例子中可以看出, PCI-SIG 分发给 gigabyte 的 ID 为 1458.

另外,对于 Intel 核芯显卡, 由于不存在第三方显卡制造商的概念,因此 GPU-Z 会将该项目显示成"与主板制造商相同的显卡制造商 ID",例如 asus 的 ID 为 1043.

***********************************************************************

比较项目:ROPs/TMUs

(Raster Operations Units,光栅处理单元数量/Texture Mapping Units,纹理贴图单元数量)

项目含义:

ROPs 表示 GPU 中负责光栅处理的单元数量; TMUs 表示 GPU 中负责纹理贴图(也翻译成纹理映射,材质贴图等等)的单元数量;

总的来讲, GPU 中的这些单元数量越多,显卡的性能就越强劲;

我们知道,屏幕上的三维图像是用大量的小块二维多边形来模拟并填充的;

在传统的 GPU 渲染流水线模型中,首先顶点渲染管线(着色器)处理每个多边形的顶点数据(x,y,z 坐标),将3维顶点坐标转换为能在2维屏幕上显示的数据(几何转换),并生成线框多边型;然后填充这些顶点间的所有片元,即光栅化;

最后由像素渲染管线(着色器)计算片元中,每个需要最终在屏幕上显示的像素颜色,亮度,以及用于模拟其他特效,如光照,阴影,粒子物理系统等的高级像素属性,同时还要根据纹理数据再对每个像素作进一步处理;

而随微软的 DirectX 10 图形 API 提出的新一代的统一渲染架构(shader model 4.0)指出,顶点渲染与像素渲染都可以由一种叫做"流处理器"的硬件来完成,不需要依赖特定的着色器;

(着色器,即 shader ,实际上就是 GPU 内执行并行计算的上百个微型处理单元,传统的图形流水线模型规定:进行顶点坐标几何计算的 shader 为顶点着色器;进行片段颜色计算,即像素属性值计算的 shader 为片段或像素着色器;按照传统图形流水线设计的 GPU 内部渲染架构,其内部的顶点 shader 与像素 shader 数量与功能都是固定的;也就是说,顶点 shader 不支持对像素的操作,反之亦然,

这意味着,当执行三维场景中需要生成大量的多边形的建模任务时,顶点 shader 全负载工作,而像素 shader 则闲着没事干;反之亦然,所以传统的渲染架构造成 GPU 内大量的并行计算资源的浪费)

光栅处理单元与纹理贴图单元就是在 GPU 渲染流程中(在光栅化之后),用于辅助传统的像素着色器或者现代的流处理器进行渲染计算,对像素属性进行高级操作的硬件,两者的区别以及作用,参考下图:

上图中"可编程的着色器或流处理器"含义是指,这些并行处理单元的功能不是固定的;

用户通过图形学 API (例如 OpenGL )内置的"着色语言"或者GPU 计算语言(最显著的例子是 CUDA ,ComputeUnifiedDeviceArchitecture ,计算统一设备架构)

编写自定义的算法,可编程的图形硬件能识别并执行这些算法,从而改变原来固定的功能,实现更强大,更复杂的图形渲染方式,这也是如今多数复杂的三维动画或游戏特效的原理.

*****关于 CUDA 的介绍,请参考结尾的补充资料*****

从游戏玩家的角度看, ROPs 的数量影响着游戏画面的光照,阴影,雾,火焰爆炸特效,抗锯齿的级别(从1倍到32倍)等效果开启下,其流畅性,主要以每秒的帧率,即 FPS 来衡量;

而 TMUs 的数量则影响着游戏中三维物体的真实程度,表面的细节,贴图的二线性,三线性,各向异性过滤的级别(从1倍到16倍),以及是否支持环境凹凸贴图,多重纹理等高级纹理效果;

***********************************************************************

比较项目:流处理器(shaders)数量

项目含义:

关于流处理器的信息请参考上一个项目中相关的介绍,流处理器既可以执行顶点渲染;也可以执行像素渲染,具备更广泛意义的通用计算功能(其 "Unified" 字段就是这一层含义);

例如, nVIDIA 的流处理器,每一个都是支持CUDA计算架构的可并行计算单元;

另外,IntelHD 4600 的流处理器不支持CUDA计算架构.

***********************************************************************

比较项目:像素填充速率(Pixel Fillrate)

项目含义:

正如这个听起来很前卫的术语所暗示的,它衡量 GPU 每秒能够生成多少"初始"像素来填充构成多边形的片段,通常以每秒十亿个像素(GPixel/s)为单位;

GPU 内部微架构(或渲染模型)以及流处理器的数量,都会影响到像素填充速率的大小;

例如,从前一个比较项目我们知道,IntelHD 4600 有 20 个流处理器,因此它的像素填充速率为: 每秒14亿个像素;

nVIDIAGeforce GTX 750 有 512 个流处理器,因此它的像素填充速率为: 每秒339亿个像素,如下所示;

另外,常常可以听见一个容易与此混淆的术语: 多边形生成速率(以每秒百万个多边形为单位),GPU-Z 并没有将它列为检测并衡量显卡的技术参数之一,因为它不是 GPU "原生"的性能参数;我们可以粗略的认为,将像素填充速率除以多边形生成速率,就得出构成每个多边形的平均像素个数.

***********************************************************************

比较项目:纹理填充速率(Texture Fillrate)

项目含义:

正如这另一个在显卡发烧友间经常论及的术语所暗示的,它衡量 GPU 每秒能够对多少个像素进行纹理映射(贴图)操作,即赋予像素与纹理相关的属性值,通常以每秒十亿个纹理元素(GTexel/s)为单位;

在最简单的情况下,一个纹理元素映射到一个像素,有关纹理元素和纹理映射的更多细节,请阅读与计算机图形学相关的书籍;

GPU 内的 TMUs 数量与流处理器数量,共同决定了该 GPU 的纹理填充速率和质量;

***********************************************************************

比较项目:支持的 DirectX/Shader Model 版本

项目含义:

DirectX 与Shader Model 分别是微软推出的图形 API 与渲染模型;

DirectX 包含一系列在 windows 平台下开发多媒体应用的接口组件: Direct3D 用于实现三维特效,被绝大多数游戏厂商使用;

DirectSound,DirectInput,DirectOutput 等组件 API ,也是开发,增强其它多媒体应用的音效与用户交互体验时不可或缺的;

游戏厂商想要实现更复杂,炫目的效果,就必须尽可能地使用最新版本的 DirectX 中的 API 函数来开发游戏(游戏厂商日益依赖于 DirectX 来实现特效,或是节省开发成本);而 GPU 制造厂商为了支持更多最新游戏的特效,就等同于需要支持最新版的 DirectX;

在桌面型 PC 娱乐市场,游戏与 GPU 开发厂商似乎都不得不跟随这个由微软制定的"游戏规则",才能保证自己的产品有较高的市场份额与利润;

与此相反,在学术研究以及工业绘图领域,类似 OpenGL 这样开源的图形 API 则是行业标准,它不是由一家公司所垄断,而且没有强制与任何操作系统"捆绑";

任何第三方机构,团体都可以向其中添加新的特性,功能,只是要经过标准委员会的审核---这总比微软一手遮天,然后其它厂商被牵着鼻子走要强.

Shader Model 是微软提出的渲染模型,类似 OpenGL 的图形流水线概念,不同之处在于,Shader Model 4.0 版本提出了统一渲染架构,它要求 GPU 制造商将原来功能分立的顶点与像素着色器,改为以通用的处理单元来实现,其目的无非是为了巩固自己在桌面 PC 娱乐市场的图形 API 垄断地位,于是,AMD/ATI 与 nVIDIA 分别提出了符合微软统一渲染架构的新版 GPU 渲染架构;例如,流处理器就是符合微软统一渲染架构的nVIDIA 版本.

以纯粹游戏玩家的角度而言,GPU 支持的DirectX/Shader Model 版本越新,才能实现更多的游戏特效,然而,默认情况下,DirectX/Shader Model 的版本取决于 windows 的版本,例如,windows XP 仅"捆绑"了 DirectX 9.0c ,windows 7 则支持

DirectX 11 ,DirectX/Shader Model 的当前最新版为 11.1/5.0 ,可以通过在 windows 的 "开始"-> "运行" 对话框中,执行 dxdiag 命令,查看你的系统上的

DirectX 版本,许多以光盘形式发售的游戏,以及显卡厂商提供的显卡驱动程序,都提供可以作为独立组件安装的最新版DirectX ,用来替换系统上旧版的DirectX.

***********************************************************************

比较项目:显卡与外界(通常是主板芯片组或 CPU)交换数据的接口类型以及速度

项目含义:

关于 intel Haswell 微架构的内部组织，与 PEG(PCI Express 显卡)通信的专用通道，以及各种版本的PCI Express 规范的数据传输速率(带宽)，请参考下面几张示意图：

从上图可以看到,Haswell 微架构的 CPU 内部由三个主要组件构成:核芯显卡,CPU核心,以及系统代理,环形总线连结这三个组件各自的缓存,实现数据在 CPU 内部组件之间的高速传输.

因此,按照上面的架构,将图形处理器集成在 CPU 内部,以及为独立的高性能图形处理器提供专用的 PCIExpress 3.0 x16 高速通道,彻底解决了传统的平台架构中,

GPU 与 CPU 之间通信,需要经过 AGP/PCIe 总线,北桥芯片,共享系统总线....等低带宽,慢速总线的缺点;

Haswell 架构能满足 GPGPU 要求的高带宽,低延迟计算环境(可惜核芯显卡不支持当前最流行的 GPGPU 架构 CUDA ,因此只能使用 nVIDIA 图形处理器或其他支持 CUDA 的图形处理器)

关于 Haswell CPU 内部的PCI Express* 接口特性,总结如下,其中部分内容是翻译自 Intel 网站上的原文文档中相关的介绍:

桌面型第4代 intel core (酷睿) 处理器上的 PCI Express* 接口，是单个 16 信道(x16)的端口，它也可以配置成窄带宽模式(一个8信道+2个4信道,1x8,2x4 ；

或者2个8信道,2x8),该接口完全兼容PCI-SIG(PCI 特别兴趣组) 的 PCI Express Base Specification, Revision 3.0 规范,参考该规范的官方站点:

第一代PCI Express*规范(PCI Express 1.0, Gen 1) 在数据针脚上的原始比特率为2.5 GT/s，这导致每一对实际带宽为 250 MB/s的 PCI Express

信道提供8b/10b编码，用于通过该接口传输数据，这并没有将数据包的固有开销，以及链路维护信息计算在内；

该接口在单方向上(发送或接收)的理论最大带宽为同时４ GB/s (250 MB * 16)，因此，16信道的第一代PCI Express规范 (x16 Gen 1)的总带宽为：

每信道单向传输带宽＊2(计算发送与接收的双向传输)＊信道数＝250 MB/s * 2 *16 = 8 GB/s

实际的发送或接收吞吐量各自均为４ GB/s

第二代PCI Express*规范(PCI Express 2.0, Gen 2) 在数据针脚上的原始比特率为5.0 GT/s，这导致每一对实际带宽为 500 MB/s 的 PCI Express

信道提供8b/10b编码，用于通过该接口传输数据，这并没有将数据包的固有开销，以及链路维护信息计算在内；

该接口在单方向上(发送或接收)的理论最大带宽为同时８ GB/s(500 MB * 16)，因此，16 信道的第二代 PCI Express规范 (x16 Gen ２)的总带宽为：

每信道单向传输带宽＊2(计算发送与接收的双向传输)＊信道数＝500 MB/s * 2 * 16 = 16 GB/s

实际的发送或接收吞吐量各自均为8 GB/s

第三代PCI Express*规范(PCI Express 3.0, Gen 3) 在数据针脚上的原始比特率为8.0 GT/s，这导致每一对实际带宽为 984 MB/s 的 PCI Express

信道提供128b/130b编码，用于通过该接口传输数据，这并没有将数据包的固有开销，以及链路维护信息计算在内；

该接口在单方向上(发送或接收)的理论最大带宽为同时16 GB/s (984 MB * 16)，因此，16 信道的第三代 PCI Express规范 (x16 Gen 3)的总带宽为：

每信道单向传输带宽＊2(计算发送与接收的双向传输)＊信道数＝ 984 MB/s * 2 * 16 = 32 GB/s

实际的发送或接收吞吐量各自均为16 GB/s

Gen 3 PCI Express* (的配置架构) 使用 128b/130b 编码，它比使用 8b/10b 编码的 Gen 1 与 Gen 2 高出约 23% 的效率;

Haswell CPU 内部的PCI Express* 接口,支持动态(增减)带宽功能,也就是说,配置成使用 16 信道与 CPU 通信的支持 Gen 3 的显卡，可以 2.5 GT/s, 5 GT/s, 或 8 GT/s 等速率运作(取决于显卡 GPU 的负载而定)

Haswell CPU 内部的PCI Express* 接口不支持 PCI Express* 设备的热插拔;

PCI Express* 的基准时钟为 100-MHz 的差分时钟;

用于直连独立显卡的PCI Express* 链路通过Haswell CPU内部的 PCI 到 PCI 桥接结构映射,参考下面这张图,它是处理器直接支持PCI Express* 独立显卡的原理:

下面这张图引用自网络上广泛流传的 Haswell 架构图,这是一个简化的示意图,它并没有描述 CPU 内部组件的详细结构(面向用户的宣传版本),注意它与第一张图之间的联系,可以相互比较,验证:

注意,Haswell 架构仅仅为独立显卡这个在桌面 PC 市场最重要的外围设备提供了直通 CPU 内部的通道,

至于其它一些外围设备,例如 SATA 接口磁盘/光驱,USB 存储设备,PCI Express 1.0/2.0 网卡...等等,需要通过各自的总线连接到 PCH (例如 Intel B85 芯片组),由 PCH 通过共享带宽的 DMI 2.0 系统总线或者 FDI 总线与 CPU 交换数据;

在极端的情况下,各种外围设备"挤"四条各自只有 500 MB/s 峰值带宽的DMI 2.0 信道与 CPU 通信,每个设备分到的可用带宽并不多;

(DMI 2.0 是同步,并行,全双工总线;

同步,并行指整个 DMI 2.0 总线由四条独立信道构成,可以同时并行传输数据;

每条信道又分为发送子信道与接收子信道,可以同时发送与接收数据,因此是全双工,每个子信道带宽为 500 MB/s,因此发送方向的总带宽为 500 MB * 4 = 2 GB/s ,接收方向总带宽也是 2 GB/s ,整个 DMI 2.0 总线的吞吐量理论值就是 4 GB/s )

你的计算机系统上安装的外围设备越多,数据在DMI 2.0 系统总线上的"流动速度"就越慢.(参考下面来自于 Intel 官网的

Intel B85 芯片组与处理器芯片构成双芯片平台的架构示意图)

可以看到,和传统的南北桥芯片组架构相比,最明显的改善是, CPU 与 DDR3 SDRAM (第三代双倍数据速率同步动态随机访问存储器)之间的专用通道;

以及 CPU 与 PCI Express 3.0 x16 独立显卡之间的专用通道;

为了切合本篇博文与显卡相关的内容,对于双芯片平台架构的其余部分,也就是 PCH

内部集成的其它类型总线控制器,例如管理通用串行总线(USB,包括最新的 USB 3.0 标准)的xHCI 主控制器;

管理串行 ATA 总线(SATA,包括最新的 SATA 3 标准,理论最大传输速率为 6.0 Gb/s ,SATA 2 标准的理论最大传输速率为 3.0 Gb/s ,SATA 1 ,通常是内置光驱使用的标准,理论最大传输速率为 1.5 Gb/s)的SATA 主控制器(以及用于 SATA 总线的高级主控制器接口,Advanced Host Controller Interface, AHCI 规范);

集成的千兆以太网卡控制器,支持10/100/1000 Mbps 的以太网标准,自动协商速率,支持通过 PCIExpress 2.0 x1 总线连接独立网卡;

上述这些总线控制器,以及其它重要的 PCH 组成部分,以后会开辟专门的章节来讨论,并再次引用这张图表.

***********************************************************************

比较项目:显存类型与制造商

项目含义:

只有独立显卡才有自己的显存,集成显卡(或核芯显卡)使用系统共享的内存,作为自己的显存;一般而言,在 BIOS 中可以调整给集成显卡使用的内存大小,多数上限为

1 GB ,例如,假设你的系统内存为 8 GB ,分配给集成显卡 1 GB ,那么在 windows

资源管理器中可以看到 "为硬件保留的内存",其中的 1GB 部分,就是系统预留给

集成显卡的,实际可用系统内存将为 7 GB ;

多数生产内存颗粒的厂商,也向显卡制造商供应显存颗粒.常见的内存/显存颗粒制造商有三星(Samsung),海力士(现代,Hynix)等.

GDDR5 显存是目前桌面 PC 市场主流,以三星生产的单颗GDDR5 显存颗粒为例,

其位宽为32 bits,容量为 512 MBytes ,时钟频率为 5GHz;