您当前的位置:首页 >  商业资讯  > 正文
AI时代,不那么甜的中高端甜点卡:NVIDIA RTX 4070Ti
来源:哔哩哔哩     时间:2023-06-30 17:23:19

RTX4070ti自发布之日起便饱受关注,或者说饱受争议:


(资料图片)

● 一方面它的提升实实在在,性能可与上代旗舰3090ti掰手腕而功耗明显更低

● 一方面它的定价提升同样实在,堪称是有史以来最贵的70ti显卡

包括我在内的很多人怀揣着对RTX4070Ti便宜大碗的美好期待,艰难的挺过了一轮又一轮的矿潮,在RTX4080 12GB发布的那一刻,大家无疑是很失望的。

那么问题出在哪呢?

朋友们,时代变了。

在过去几年里发生的不只是矿潮和疫情,消费、科研和生产领域也在发生着巨大变化:

● 媒体:短视频和直播兴起,流媒体传播成为重要的信息传递方式

● AI:基于多层神经网络模型的深度学习兴起且有大量商业应用落地

● 科研:计算技术与大量学科交叉,机器学习广泛应用

有着成熟CUDA生态加持的NVIDIA游戏显卡,它的角色不再只是娱乐工具,它有了更多的生产力属性,换句话说,它能用来干活和赚钱!

● 内容创作者使用显卡对高规格视频剪辑和特效渲染进行加速,使用深度学习技术进行内容二次创作和生成

● 科研工作者使用显卡加速科学计算和机器学习算法

● 工业中基于视觉识别的技术和设备大量运用

这些变化直接体现在了Nvidia的财报中,据公开数据显示,NVIDIA在2023财年公司营收亿美元,其中游戏业务占比仅33%,数据中心业务占比56%。需要注意的是,很多小工作室、课题组和个人用户虽然采购Geforce游戏显卡但其实并不主要用于游戏。

这一变化也体现在Intel和AMD显卡价格上,有着ROCM框架支撑的AMD显卡同性能明显比之Intel显卡来的贵一些,而又比有着CUDA生态支撑的Nvidia显卡便宜些。

在吐槽之余我们必须要承认的是,在接下来的很长一段时间里,显卡的定价逻辑和以前不一样了。前些年的中高端显卡价格差距远大于性能差距,而今年及之后的一段时间里,价格和性能将近乎是线性关系。

冷静下来看,RTX4070Ti其实还不错

RTX4070Ti这张卡本身没什么毛病,性能、能效比之前代大幅提升,实际表现可以和3090Ti掰掰手腕,全新4070Ti价格和3090矿卡相近,比3090ti还便宜不少。

它既可以满足绝大多数人的娱乐需求,也可以为专业人士提供不错的生产力支撑。作为一个理科在读研究生和数码博主,我打算和大家聊聊RTX4070ti,特别是其在生产力应用和科研中的表现。我的测试结果和使用体验基于这一块技嘉魔鹰 RTX4070Ti Gaming OC显卡

它采用三风扇+7热管设计,采用均热板和复合式热管,具有造型强化金属背板、RGB幻彩光轮,外观漂亮,质感做工出色

供电接口位于中间部位,而且采用内收设计,有效避免线材弯折

原厂配送显卡支架,外观和谐而且可以提供很好的支撑,图中是固定螺丝接口

接口面板占用双PCIE槽,整张显卡占用空间约槽位,装进我的MATX主机后不遮挡第二个PCIE x16插槽

技嘉魔鹰RTX 4070Ti显卡的品牌logo和散热风扇有RGB灯,流光溢彩很是漂亮

游戏性能出色

RTX4070Ti的游戏性能与上代旗舰3090Ti相当,考虑DLSS3的加持的话,在很多游戏中可以获得更加流畅的游戏体验。

在基准测试中,3DMark Timespy图形分22089,Firestrike图形分51493。依据notebookcheck,RTX3090Ti的得分分别为21645和53110,两者可以说是五五开。

与RTX30系显卡不同的是,RTX4070Ti支持DLSS3技术,这使其应对大型游戏更为从容,官方宣称在多款游戏中相比RTX3090Ti提升显著

有人说RTX4070Ti的显存位宽和容量不足以畅玩4K游戏,我自己在4k屏上实测这块显卡运行赛博朋克2077,不开启DLSS、将特效开到【超级】时的平均帧为,最低帧为,最高为。

在开启DLSS时,预设方案调整为【光线追踪:超级】依然可以实现的平均帧,最低帧也有,最高帧有,足够畅玩了。

基于NVIDIA Ada Lovelace架构的RTX4070TI具有第四代Tensor Core,从而支持DLSS3,可以利用AI创造更多高质量帧。

体现在游戏中,它可以在赛博朋克2077内开启DLSS 所特有的【帧生成】技术,可以进一步提升画面流畅度,开启后即便是在【光线追踪:超级】预设下,依然可以实现的平均帧,最低帧也可高达,相比未开启【帧生成】时平均帧提升高达%,最低帧提升高达%,DLSS3比之DLSS2乃至未开启DLSS时的加速效果着实显著!

由此测试来看,DLSS3加持下的RTX4070Ti基本足够喂饱4k60显示器了。

值得一提的是,RTX4070Ti的功耗很低,TDP只有285W,NVIDIA官方宣称其游戏平均功耗仅226W,搭配7800x3d或i5-13600KF的话650W的电源就已足够,利好itx小主机玩家。

科学计算可堪一用

RTX4070Ti的一个优点是其算力强劲,官方宣称其算力可达,比之3090Ti的40TFLOPS还略高一点,非公版显卡的算力还可以更强一点。

在Aida64 GPGPU测试中,技嘉魔鹰RTX4070Ti 单精度FP32算力为42056GFLOPS,,作为对比,上代次旗舰RTX3080仅29212GFLOPS,RTX4070Ti比之强出近44%;消费级顶级处理器R9-7950x的算力仅为2677GFLOPS,RTX4070Ti比之强出近15倍;12代酷睿中坚12700KF仅1437GFLOPS,RTX4070Ti比之强出近29倍。

巨大的算力差距意味着在使用RTX4070Ti GPU进行计算时相比CPU有着巨大的速度优势,在matlab R2022a中,对随机生成的10,000维矩阵进行矩阵乘时,RTX 4070Ti相比R9-7950x快出近4,339倍!

AI应用和研究入门佳选

有着成熟CUDA生态的N卡是AI领域绝对的大哥,与科学计算不同的是,AI领域对双精度运算需求不大,而对单精度以及更低精度的运算有所需求,巧的是老黄刀法在Geforce上主要是双精度算力,对单精度没有下刀,因此很多人选购Geforce系列的显卡跑AI模型。

AI应用

RTX4070Ti的显存虽然只有12GB,但也足以运行包括GPT,GPT-2在内的大多数AI模型。毕竟模型体积爆炸主要是近几年的事,而且自Transformer后,模型基础架构其实没太多变化。

基于和GPT-4的chatgpt是近期的AI现象级应用,它在自然语言、图片识别相关的诸多领域达成了超越人类的表现,基于它的New Bing已经是我科研日常中不可或缺的一环。

但是公共大语言模型(LLMs)有其缺点,本地部署一个也是一时髦选择。在一众大模型不断取得新的成就时,如何将其轻量化成了一个热门话题。近期,阿卜杜拉国王科技大学的Vision-CAIR课题组推出了miniGPT-4,demo的显存消耗可以低至12GB。

用Stable diffusion画图也是一件很有趣的事,精细调整prompt后的图很漂亮(很多人甚至用它来画人),抽象风格的图则颇为有趣。我使用diffusers 包来进行本地绘图,显存占用约8GB。

生成一张512*512尺寸毕加索风格的小松鼠图片只需要6秒。

更为具体的行业应用对于模型规模的要求可以更低,上个世纪的LeNet即可很好的实现手写数字的识别,

AI研究

用于科研Idea验证时RTX4070ti是一个很好的选择:算力不错、价格门槛不高。如前文所述,RTX4070Ti与7950X相比进行矩阵乘法运算时加速可高达四千余倍,在进行高效数据科学算法开发和idea验证时,稍微一等就可看到结果,科研体验极佳。

进行AI以及与AI相关学科的研究时,有着成熟CUDA生态支撑的RTX4070Ti也是颇具性价比的选择。华盛顿大学在读博士Tim Dettmers绘制了16bit训练、16bit推理和8bit推理相对价格的相对表现,可见RTX4080高居榜首,随后便是RTX4090和RTX 4070Ti,再考虑电费的话RTX4070Ti的性价比更为突出。

Tim Dettmers认为,如果一个人不折腾Transformer以及基于它的大预言模型,RTX4070Ti用于训练神经网络模型也基本够用了。

对于学生而言,4070Ti比之4080和4090更为合适一些:学习Deep Learning和Reinforcement Learning的话足够用了。我入门Deep Learning时间的参考书是李沐的《动手学深度学习》,从MLP到CNN、RNN再到small Transformer,RTX4070Ti均可以胜任。

有的朋友会讲12GB显存还是小了点,跑不动很多领域的SOTA模型,但是面临这一问题应该想的其实不是显卡显存多大,而是没有丰富的数据和算力资源为什么要选择对此有需求的研究或应用方向。举个例子,探索网络结构需要在庞大的模型空间中进行搜索,顶会上层出不穷的此类文章耗费巨量的计算资源,几百块显卡运行几十天才能跑的出不错的网络架构。

SOTA级别的模型意味着海量的运算资源耗费,通用人工智能和大模型可以说是当前的国民热点,但是普通人、普通团队和院校根本无力从头搭建一个属于自己的大模型,从基础的Bert-Base,到GPT,再到GPT-4,运算成本越来越高,高质量语料的需求也越来越高,有志于此的朋友应该考虑加入业界公司而不是待在普通学校的课题组,更不应该考虑自己或小团队做一个出来。

我们需要清醒的认识到,学术界和工业界在AI领域分道扬镳、渐行渐远。AI相关领域有着大量的普通人、单张消费级显卡便能玩转的问题,比如:

● 强化学习:顶会的文章也不乏使用简单模型的优秀作品。

● 模型解释性:折腾MLP或CNN的解释性,只需要基础模型和少量数据。

● 细分领域+AI:相对小的模型和数据,我之前听过某年轻杰青的报告,转化复杂问题为自己专业框架内的问题而后以新模型进行分析和解答。

● 模型压缩和加速:考虑16bit乃至8bit量化、剪枝和蒸馏,比如colossal-AI的工作,使用CPU+GPU的异构内存,相比Stable Diffusion减少50%以上的显存占用。

Colossal-AI也对GPT-2和PaLM进行了加速,在小显存的显卡上也可以进行训练。

如果一定要追热点搞大模型刷榜,应该考虑的其实不是自己应该买个什么卡,而是应该说服老板(导师)买云服务器算力资源或申请(购买)运算集群。AI研究是个很大的领域,资源多有资源多的玩法,少有少的玩法,适合自己的才是最好的。

生产力应用效能出色

很多朋友买显卡是用来进行视频剪辑加速、渲染以及泛内容创作,有着成熟软件生态支撑的RTX4070Ti 表现出色。诚然,RTX 4070Ti并不像RTX 4090那么强,但也足以应对绝大多数人的内容创作需求。

视频编辑

视频编辑是当前内容创作向电脑搭建的常见需求,很多朋友通过视频内容创作来获得副业乃至主要收入、扩大自身的影响力。高规格的视频编辑对性能有着较高的要求,往往需要通过显卡进行加速,NVIDIA RTX4070Ti具有两个第 8 代 NVIDIA 编码器 (NVENC) ,支持 AV1 编码,不论是视频编辑还是直播,都能够以更高的分辨率展现惊艳的直播效果。

我使用Blackmagicdesign公司出品的Blackmagic RAW Speed Test软件对其进行了测试,测试结果表明,即便是8k BRAW视频其依然可以实现高达218帧的编辑能力,足以应对绝大多数业余视频编辑和个人up主/小工作室的视频编辑需求。

渲染

渲染是典型的重性能生产力工作,一块高性能显卡无疑可以极大提升渲染效率。我手上这块技嘉魔鹰RTX 4070Ti在V-Ray官方出品的Benchmark测试软件中,GPU RTX成绩为3105,GPU CUDA成绩为2317。

作为对比,RTX3080 10GB的GPU RTX得分仅2302,GPU CUDA得分仅1723,RTX 4070Ti比RTX 3080 10GB强出约35%。

重度办公

强劲的GPU用于重度办公也会带来体验的显著提升,动画特效、影像编辑等工作将更为顺手。在PCMARK10 现代办公场景中,安装技嘉魔鹰RTX 4070Ti后的主机得分高达9862,相比核显时提升近2500分!在Productivity和Digital Content Creation中得分显著提升。

RTX 4070Ti的低功耗、高能效带来了很好的散热体验,这块三风扇设计的技嘉魔鹰 RTX4070ti显卡在我的20L小机箱内满载仅224W,风扇仅2100多转,噪音远低于CPU散热风扇噪音,平时低负载时技嘉魔鹰RTX 4070Ti还会关闭风扇以进一步降低噪音。

总结:不那么甜,但也甜

RTX4070ti作为新一代中高端显卡,在现在这个AI变现普及的时代颇有可为,学生党完全可以基于它搭建主力机用于游戏娱乐、科研idea验证,它也完全可以应对小工作室和新人up主进行内容创作时对显卡的需求。

综合来看,RTX 4070Ti 依然是一款甜点卡,虽然它不像几年前的前辈们那么甜:

● 用于游戏时,它足以在运行赛博朋克2077这种游戏巨制时喂饱4k@60Hz显示器,192bit位宽和12GB的显存并不是不能玩4k。

● 有CUDA生产力需求的话,RTX4070ti在相近价位并没有什么竞品,矿卡实无必要,运算卡的算力又低的可怜;AMD显卡的ROCM框架限制很多而且不很成熟,Intel的技能点还没加在这上面。客观的说,RTX4070Ti是一个比选购3090Ti矿卡以及大显存计算卡更为靠谱的选择。

一段时间使用下来,我手上这块技嘉魔鹰RTX4070Ti的体验还挺不错,安静、漂亮、价格不高、性能出色,它可以很好的完成日常的神经网络模型学习、科研idea验证、游戏娱乐工作,是一块很均衡的显卡。

标签:

相关新闻

X 关闭

X 关闭

精彩推荐