High Quality Graphic Effects using DX11@CGDC4
这个文章是让我感觉到nv诚意的一个文章,巨多的到中国来做presentation的都是把gdc上的文章再讲一遍,nv则讲了不少新的东西。
主力也都到场,也分享了很多知识。
-----------------------------------------------------------------------------------------------------------------------------------------------------
DirectCompute
direct compute是dx11相比之前版本的最根本性的变化。
- 以更加接近cpu的方式来做运算:需要改变思维了,天空可以说变得更宽了
- 做一些通用运算
- 可以运行在任意线程上(也就脱离了graphics pipeline的限制)
- 对d3d资源的访问也没有变少
- 访问buffer如同访问内存,不再像原来是sampling的方式,不过memory layout和访问地址的计算也要自己搞了
- atomic operation
- 支持,但是也是有额外消耗的
- 用来做thread之间的数据交互
- memory的一些东东
Memory Space
Speed
Visibility
Global Memory(Buffers, Textures, Constants)
Longest Latency
All Threads
Shared Memory(groupshared)
Fast
SingleGroup
Local Memory(Registers)
Very Fast
Single Thread
- 内存的效率上和cpu上类似,也要关注cache效率等
- 但是如果读取方式类似texture,那就用texture的方式读取内存是最好的
- 指令执行的时候遇到branch也会有mask,但不会像cpu做的那么好了
- 理论上thread是格子运行的,实际上硬件里是论组(叫warp)来执行的
- nv上warp size是32
- context switch&dependency
- 如果数据有dependency的话,会有一些stall来确保之前的数据有被完成写入,后面的会read到正确的数据。
- compute mode和graphci mode的切换会造成context switch的开销
1280x720 | CS | PS | CS/PS |
Full-res AO | 426 fps | 255 fps | 1.67x |
Half-res AO | 593 fps | 496 fps | 1.20x |
1600x900 | CS | PS | CS/PS |
Full-res AO | 311 fps | 168 fps | 1.85x |
Half-res AO | 461 fps | 368 fps | 1.25x |
可以说优势还是很明显的,这个就是一个典型例子,硬件在频率没有发生变化,但是在算法级别上有提升,仍旧会带来巨大的不同,这个也是pc的硬件能力要超越console很多才会打平手的原因所在。
这样的计算不用经过rasterizer,所以很适合compute shader来做的。
-----------------------------------------------------------------------------------------------------------------------------------------------------
OpacityMapping
这样一个效果,很多particle在里面。
常用技术就略过吧,里面几个做法和思路挺好的:
- low res buffer render
- 这个是一个最常用的做high fill rate feature优化的方法,但是大家都受low res depth和high res depth不匹配的困扰,在uncharted2这样的游戏甚至都存在
- nv的解决方法是:nearest depth up sampling,
- 把high res depth和low res depth做比较,几个点中肯定会有matching的点,就用这个
- 使用GatherRed可以很快的sample 2x2的low res depth

本文重点介绍了NV在CGDC4大会上的展示内容,聚焦DirectCompute技术的根本性变化,包括更接近CPU的运算方式、通用运算在任意线程上的执行、对D3D资源访问的优化、原子操作的支持及其性能优势。通过具体实例展示了DirectCompute在AO(Ambient Occlusion)计算中的高效表现,对比传统方法显著提升了渲染性能。同时,文章还探讨了Opacity Mapping效果的优化策略及Stochastic Transparency算法的创新之处,强调了NV在图形技术领域的前沿探索。
3967

被折叠的 条评论
为什么被折叠?



