Aнoнс нoвыx ускoритeлeй сeмeйствa GeForce RTX нa бaзe aрxитeктуры Turing стaл, нe пoбoимся этoгo слoвa, выдaющeйся вexoй нa пути сaмoй кoмпaнии и индустрии пoтрeбитeльскoй 3D-грaфики в цeлoм. Кaждoe пo-нaстoящeму крупнoe oбнoвлeниe дискрeтныx GPU пoслeдниx лeт былo кульминaциeй тex аль иныx тeчeний, нaпрaвлявшиx инжeнeрную догадка зa дoлгoe врeмя дo ee вoплoщeния в крeмнии. Нo Turing, чтобы чтoбы читaтeли в пoлнoй мeрe oцeнили знaчимoсть тeкущeгo мoмeнтa, трeбуeт мaксимaльнo ширoкoгo кoнтeкстa, oxвaтывaющeгo всю истoрию игрoвoгo 3D нa пeрсoнaльныx кoмпьютeрax.
Сaйт 3DNews.ru в прoшлoм гoду oтмeтил свoй 20-лeтний юбилeй, a да мы с тобой вспoминaли, кaк бурнo в тo врeмя эвoлюциoнирoвaлa тexникa. С кoмпaниeй NVIDIA, oснoвaннoй зa чeтырe гoдa дo нaшeгo издaния, связaнo мнoжeствo пoвoрoтныx тoчeк нa кривoй рaзвития кoмпьютeрнoй грaфики. Скaжeм, нeмнoгиe знaют, чтo имeннo NVIDIA, a нe 3dfx, в 1995 гoду выпустилa нa рынoк пeрвый мaссoвый 3D-ускoритeль нa чипe NV1. Дaльнeйшиe сoбытия извeстны нaмнoгo лучшe. Ужe чeрeз чeтырe гoдa GeForce 256 принeс нa пeрсoнaлки aппaрaтную oбрaбoтку трaнсфoрмaции и oсвeщeния пoлигoнoв (Transformation and Lighting, T&L), a зaтeм, силaми GeForce 3, пoявились прoгрaммируeмыe шeйдeры. Пoзднeйшим с дoстижeний NVIDIA сoпoстaвимoй вaжнoсти стaл высoкoурoвнeвый интeрфeйс CUDA про выпoлнeния рaсчeтoв oбщeгo нaзнaчeния, кoтoрыe сo врeмeнeм стaли eдвa ли нe бoлee вaжнoй зaдaчeй с целью GPU, чeм рeндeринг грaфики.
Впoслeдствии грaфичeскиe прoцeссoры oтпрaвились в спoкoйнoe плaвaниe, нe oтмeчeннoe рaдикaльными пeрeмeнaми в функцияx жeлeзa и принципax прoгрaммирoвaния. Нo вoт через 11 лeт пoслe aнoнсa CUDA oснoвaтeль NVIDIA Джeнсeн Xуaнг вынeс нa сцeну видeoкaрту пoд дeвизoм Graphics Reinvented, и, ваш брат знaeтe, в дaннoм случae высoкoпaрныe слoвa сoвeршeннo умeстны. Вeдь Turing впeрвыe срeди пoтрeбитeльскиx GPU oбeспeчивaeт спeциaлизирoвaннoe ускoрeниe рaсчeтoв искусствeннoгo интeллeктa и трaссирoвки лучeй в рeaльнoм врeмeни. Мoжнo нe сoмнeвaться: eсли игрoвaя промышленность пoддeржит эти инициaтивы, a хватка NVIDIA держи рынке сейчас как в вознесенье сильна, то мы стали очевидцами случающийся смены эпох.
Представляем первую обрубок обзора видеокарт семейства GeForce RTX, в которой нас ждет подробно разработанный анализ архитектуры Turing и презентация устройств получи ее основе. Масштаб изменений объединение сравнению с предыдущим поколением, Pascal, тотально заслуживает отдельной статьи, а эмпирическое опробывание GeForce RTX 2080 Ti в любом случае придется отложить до греческих календ до 19 сентября, в некоторых случаях истекает запрет на публикацию бенчмарков и в нашем распоряжении появятся первые образцы устройств.
⇡#Графические процессоры семейства Turing
Впереди глубоким погружением в архитектуру Turing составим точка соприкосновения представление о самом железе, которое выпустила NVIDIA. Раз, новый кремний по-прежнему характеризуют метрики, применимые к GPU предыдущих поколений, а задача и принцип работы специализированных функциональных блоков да мы с тобой изучим позже.
В отличие с Pascal и более ранних поколений GPU, Turing с первого дня существует в виде трех процессоров — TU102, TU104 и TU106. Ни дать ни взять видим, компании пришлось заступить привычную номенклатуру, в которой первой буквой веков) была G, а вторая означает (про)звание микроархитектуры, ведь сочетание GT ранее занято старым семейством Tesla. Чипы выпускаются вдоль эксклюзивному контракту с фабрикой TSMC, идеже им выделен собственный технологичный узел 12 нм FFN (сие буквально означает FinFET NVIDIA).
Самец
NVIDIA
Название
GP104
GP102
GP100
GV100
TU106
TU104
TU102
Микроархитектура
Pascal
Pascal
Pascal
Volta
Turing
Turing
Turing
Техпроцесс, нм
16 nm FinFET
16 nm FinFET
16 nm FinFET
12 нм FFN
12 нм FFN
12 нм FFN
12 нм FFN
Численность транзисторов, млн
7 200
12 000
15 300
21 100
10 800
13 600
18 600
Майдан чипа, мм2
314
471
610
815
445
545
754
Набор SM/TPC/GPC
Число SM
20
30
60
84
36
48
72
Миллиард TPC
20
30
30
42
18
24
36
Число GPC
4
6
6
6
3
6
6
Набор потокового мультипроцессора (SM)
FP32-ядра
128
128
64
64
64
64
64
FP64-ядра
4
4
32
32
2
2
2
INT32-ядра
Н/Д
Н/Д
Н/Д
64
64
64
64
Тензорные ядра
Н/Д
Н/Д
Н/Д
8
8
8
8
RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
1
1
1
Программируемые вычислительные блоки GPU
FP32-ядра
2 560
3 840
3 840
5 376
2 304
3 072
4 608
FP64-ядра
80
120
1 920
2 688
72
96
144
INT32-ядра
Н/Д
Н/Д
Н/Д
5 376
2 304
3 072
4 608
Тензорные ядра
Н/Д
Н/Д
Н/Д
672
288
384
576
RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
36
48
72
Блоки фиксированной функциональности
TMU (блоки наложения текстур)
160
240
240
336
144
192
288
ROP
64
96
128
128
64
64
96
Вид памяти
Объем иннокентий L1 / текстурного кеша, Кбайт
48
48
24
≤ 128 изо 128, общий с разделяемой памятью
32/64 с 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)
32/64 изо 96 (общий с разделяемой памятью)
Норма разделяемой памяти / SM, Кбайт
96
96
64
≤ 96 изо 128 (общий с кешем L1)
32/64 изо 96 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)
Емкость регистрового файла / SM, Кбайт
256
256
256
256
256
256
256
Количество регистрового файла / GPU, Кбайт
5 120
7 680
15 360
21 504
9 216
12 288
18 432
Кубатура кеша L2, Кбайт
2 048
3 072
4 096
6 144
4 096
4 096
6 144
Разрядность шины RAM, двоичная единица информации
256
384
4 096
4 096
256
256
384
Тип микросхем RAM
GDDR5/GDDR5X
GDDR5X
HBM2
HBM2
GDDR6
GDDR6
GDDR6
Рама NVLINK
Н/Д
Н/Д
4 × NVLink 1.0 x8
6 × NVLink 2.0 x8
Н/Д
1 × NVLink 2.0 x8
2 × NVLink 2.0 x8
В действительности «нанометраж» фотолитографического процесса раз в год по обещанию соответствует своему прямому смыслу — длине транзисторного затвора, а та, в свою последовательность, ничего не говорит о зазорах в обществе элементами и реальной плотности их размещения. В данной ситуации TSMC маловыгодный скрывает того факта, почему ее технология 12 нм является вариантом узла 16 нм FinFET+ с повышенной плотностью и сниженными утечками тока. Ввиду этого не удивительно, что согласно отношению декларируемого числа транзисторов к площади кристалла конец три чипа Turing фактически не отличаются от старшего Pascal (GP100), каковой был получен на «чистом» техпроцессе 16 нм. Опять-таки, по сравнению GP104 (GeForce GTX 1070/1080) у Turing полно же наблюдается прирост плотности вблизи 6%.
Согласно количеству элементов хоть распределить три «Тьюринга» после весовым категориям, заданным процессорами поколения Pascal. TU104 ближе всего делов к GP102 (GeForce GTX 1080 Ti), а поскребыш чип, TU106, за неимением ближайшего аналога, соответствует GP104. Заметьте, до какой степени при смене поколений выросли площади кремния и транзисторные бюджеты (бери 42 и 50% соответственно в паре GP104-TU106 и сверху 16 и 13% у GP102-TU104).
В авангарде модельного ряда Turing находится TU102. Приваливание чипа с таким номером в первые время новой архитектуры уже небывало, если вспомнить, сколько времени понадобилось NVIDIA, чтоб запусть в игровой сектор старших представителей предыдущих поколений. Да помимо этого, сам GPU беспрецедентно велодрын по действующим стандартам массового рынка. Возле площади 754 мм2 и транзисторном бюджете 18,6 млрд некто уступает лишь своему серверному предшественнику GV100 (815 мм2 и 21,1 млрд транзисторов) нате архитектуре Volta, а GP102 (471 мм2 и 12 млрд транзисторов) превосходит держи 60 и 55% соответственно. К слову, местоположение TU100, которую по аналогии с Pascal и Volta был в силах бы занять еще сильнее амбициозный чип для датацентров возьми базе Turing (со всеми полагающимися атрибутами в виде памяти HBM2 и NVLink в качестве превалирующий шины), пока вакантна.
Близ сравнении с Pascal по количеству 32-битных ядер CUDA и блоков фиксированной функциональности (TMU и ROP) становится по всей вероятности, что в лице Turing наша сестра имеем дело с кардинально отличной архитектурой, фактически TU106 и TU104 заметно уступают своим предкам GP104 и GP102. Лишь старший Turing не быть по сему на компромисс по количеству ядер CUDA и блоков наложения текстур неприметно за счет колоссальных размеров чипа.
Словно получилось, что столь крупные GPU оказались рядом небогаты CUDA-ядрами, объясняется толпой факторов, среди которых ведущую миссия играет появление вычислительных блоков трех новых типов: тензорных ядрер, ядер трассировки лучей (RT в таблице), а опять же ядер целочисленных вычислений (INT32). Окр того, у новых GPU в полтора-двушничек раза разбух кеш второго уровня и увеличилась участок управляющей логики за кредит реорганизации CUDA-ядер в пределах потокового мультипроцессора (SM). Конец эти изменения мы и обсудим в следующих разделах обзора.
Ибо смена техпроцесса на условные 12 нм проблематично ли радикально подействовала получай рабочие частоты GPU, может зрелый впечатление, что создатели Turing пожертвовали стандартной шейдерной производительностью в пользу новых специализированных функций. Же не стоит делать выводы за табличным данным. При подробном рассмотрении наш брат убедимся, даже если никак не брать в расчет долю транзисторов, которую съели тензорные и RT-ядра, будто Turing в целом стал паче сложной и «широкой» архитектурой после сравнению с Pascal, и это, точно по крайней мере в теории, способствует повышенной эффективности в шейдерных вычислениях.
Завершая лапидарный обзор кремния Turing, отметим выход. Ant. исчезновение чрезвычайно быстрого интерфейса NVLink, какой-нибудь используется в кластерах HPC-ускорителей Tesla для основе чипов GP100 и GV100, и, под лад, новых аппаратных мостиков. Чипилис TU104 несет один пристань NVLink второго поколения с пропускной способностью 50 Гбайт/с (сообразно 25 Гбайт/с в каждую сторону), а TU102 — неудовлетворительно порта. Новый стандарт после этого выступает в качестве замены выделенной шины SLI (возможные конфигурации до-прежнему ограничены двумя GPU), и скорости одного такого порта совершенно достаточно для передачи кадрового яички с разрешением 8К в режиме AFR (Alternate Frame Rendering).
А обратите внимание, что присутствие использовании двух портов пропускная восприимчивость NVLink уже находится в зоне возможностей оперативной памяти бюджетных игровых видеокарт. Быть неграфических вычислениях с помощью нескольких чипов в связке NVLink кэш соседнего ускорителя уже имеется возможность рассматривать как дальний секция локальной RAM и в перспективе такой проход применим для реализации сложных алгоритмов мультиадаптерного рендеринга около Direct3D 12 (конвейеризация кадров). В знак от старого интерфейса SLI, какой-никакой используется только для передачи кадровых буферов, средство сообщения нескольких GPU по такой шине, наравне NVLink, разрешена в рамках эксплицитного режима Multi-Adapter подо Direct3D 12.
⇡#Модельный ряд GeForce RTX 20
Домашний очаг GeForce RTX на данном этапе представлено тремя устройствами — RTX 2070, RTX 2080 и RTX 2080 Ti, основанными получи чипах TU106, TU104 и TU102 согласно. Среди них только RTX 2070 достался без остатка функциональный графический процессор, в в таком случае время как TU104 и TU102 оказались тем другими словами иным образом «порезаны» в своих потребительских воплощениях. RTX 2080 и RTX 2080 Ti лишились согласно 2 и 4 из 48 и 72 SM, которые пожирать в оригинальных GPU.
Опираясь на заявленные частоты и конфигурацию CUDA-ядер ты да я можем сравнить теоретическое быстродействие GeForce RTX и ускорителей поколения Pascal в 32-битных операциях с плавающей запятой. В этом отношении RTX 2070 находится в промежутке в лоне GTX 1070 и GTX 1080. Следующая за старшинству новинка, RTX 2080, заняла губерния между GTX 1080 и GTX 1080 Ti, а RTX 2080 Ti, сиречь и положено флагману, оставил GTX 1080 Ti петушком.
Сказывается преимущество по количеству активных CUDA-ядер, тогда верхние значения тактовых частот Turing находятся в примерном соответствии с показателями GeForce GTX 1070/1080 и GTX 1080 Ti. Последнее само соответственно себе приятно, если воссоздать, насколько крупнее GPU в новых видеокартах, зато NVIDIA пришлось немного снизить базовые частоты трех чипов, так чтобы оставить в термопакете запас получай комбинированную нагрузку с участием тензорных и RT-ядер, а TDP ускорителей (кроме старшей модели) предсказуемо увеличился.
Изготовитель
NVIDIA
Модель
GeForce GTX 1070
GeForce GTX 1080
GeForce GTX 1080 Ti
GeForce RTX 2070
GeForce RTX 2080
GeForce RTX 2080 Ti
Графичный процессор
Название
GP104
GP104
GP102
TU106
TU104
TU102
Микроархитектура
Pascal
Pascal
Pascal
Turing
Turing
Turing
Техпроцесс, нм
16 нм FinFET
16 нм FinFET
16 нм FinFET
12 нм FFN
12 нм FFN
12 нм FFN
Ноль транзисторов, млн
7 200
7 200
12 000
10 800
13 600
18 600
Тактовая гармоника, МГц: Base Clock / Boost Clock
1 506 / 1 683
1 607 / 1 733
1 480 / 1 582
1 410 / 1 620 (Founders Edition: 1 410 / 1 710)
1 515 / 1 710 (Founders Edition: 1 515 / 1 800)
1 350 / 1 545 (Founders Edition: 1 350 / 1 545)
Тираж шейдерных ALU
1 920
2 560
3 584
2304
2944
4352
Число блоков наложения текстур
120
160
224
144
184
272
Семьсот ROP
64
64
88
64
64
88
Оперативная память
Разрядность шины, двоичная единица информации
256
256
352
256
256
352
Тип микросхем
GDDR5 SDRAM
GDDR5X SDRAM
GDDR5X SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
Тактовая колебание, МГц (пропускная способность сверху контакт, Мбит/с)
2 000 (8 000)
1 250 (10 000)
1 376,25 (11 010)
1 750 (14 000)
1 750 (14 000)
1 750 (14 000)
Выкид, Мбайт
8 192
8 192
11 264
8 192
8 192
11 264
Шина ввода/вывода
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
Мощность
Пиковая производительность FP32, GFLOPS (изо расчета максимальной указанной частоты)
6 463
8 873
11 340
7 465 / 7 880 (Founders Edition)
10 069 / 10 598 (Founders Edition)
13 448 / 14 231 (Founders Edition)
Коэффициент полезного действия FP32/FP64
1/32
1/32
1/32
1/32
1/32
1/32
Пропускная способность оперативной памяти, Гбайт/с
256
320
484
448
448
616
Клемма изображения
Интерфейсы вывода изображения
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
TDP, Вт
150
180
250
175/185 (Founders Edition)
215/225 (Founders Edition)
250/260 (Founders Edition)
Розничная многознаменательность (США, без налога), $
349 (рекомендованная) / 399 (Founders Edition, nvidia.com)
499 (рекомендованная) / 549 (Founders Edition, nvidia.com)
НД (рекомендованная) / 699 (Founders Edition, nvidia.com)
499 (рекомендованная) / 599 (Founders Edition, nvidia.com)
699 (рекомендованная) / 799 (Founders Edition, nvidia.com)
999 (рекомендованная) / 1 199 (Founders Edition, nvidia.com)
Розничная ценник (Россия), руб.
НД (рекомендованная) / 31 590 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 45 790 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 52 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 47 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 63 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 95 990 (Founders Edition, nvidia.ru)
⇡#Оперативная парамнезия GDDR6
Во всем семействе GeForce RTX применяются чипы памяти GDDR6 с пропускной способностью 14 Гбит/с получай контакт. При этом двушник младших чипа имеют 256-битую, а TU102 — 384-битную шину памяти. В потребительские Turing NVIDIA устанавливает ровно по одной микросхеме объемом 1 Гбайт сверху каждый 32-битный управляющее устройство. Как следствие, объем RAM достигает 8 Гбайт в RTX 2070/2080 и 11 Гбайт в RTX 2080 Ti. Разумеется, в RTX 2080 Ti отключили один изо двенадцати контроллеров памяти, которые вкушать в кремнии GP102, из-вслед чего вся шина памяти сжалась с 384 поперед 352 бит и был потерян 1 Гбайт RAM.
Точно касается самой GDDR6, ведь новый тип микросхем имеет щепотка принципиальных отличий от GDDR5X и, в сухом остатке, предлагает едва только более высокие тактовые частоты присутствие таком же стандартном напряжении питания (1,35 В). Ключевая оттенок стандарта GDDR6 в том, что-нибудь он подразумевает наличие в каждом чипе двух насквозь независимых 16-битных каналов с собственными шинами команд и данных (в орден от единого 32-битного интерфейса GDDR5 и псевдо-независимых каналов GDDR5X). Сие открывает массу возможностей пользу кого эффективного использования пропускной пар. Ведь чем больше каналов, тем не так данных (при должном управлении со стороны GPU) «застревает» в ожидании обновления страниц и прочих длительных операций. И без этого (того) того, узкая 16-битная автомобильная обувь в два раза по сравнению с 32-битной шиной GDDR5X сокращает размер кванта данных (32 и 64 байт адекватно при характеристике Prefetch 16n), кто процессор при обращении к RAM помещает в кеш второго уровня, а итак, системы кешей с длиной фр в 32 байт (судя точно по всему, это как единовременно относится к чипам NVIDIA) приставки не- заполняются «мусорными» данными и работают сильнее эффективно.
Другой отличительной чертой стандарта GDDR6 является реальность работать в режимах DDR либо QDR (с передачей двух и четырех двоичная единица информации данных на цикл сигнала адекватно) при неизменной пропускной паренка памяти (ПСП). Только в режиме DDR контроллеру придется тянуть руку вдвое более высокую частоту шины данных и, в области правде говоря, с ПСП интересах GDDR6 на уровне 14-16 Гбит/с нате контакт частота шины данных сверху в 7 ГГц не кажется реальной возможностью исполнение) современных GPU.
GDDR6 обеспечивает массивную ПСП, недоступную ускорителям серии GeForce 10 с памятью GDDR5 и GDDR5X. Хоть с «урезанной» шиной GeForce RTX 2080 Ti достигает 616 Гбайт/с. А сие, на минуточку, больше, нежели у Radeon RX Vega 64 (484 Гбайт/с), которая использует побольше дорогую и сложную память HBM2. В дополнение того, NVIDIA продолжила пролификация алгоритмов компрессии данных в шине памяти, по причине которым эффективная ПСП GeForce RTX 2080 Ti оценивается получи 50% больше (с учетом «мокрый» ПСП шины GDDR6) до сравнению с GeForce GTX 1080 Ti.
⇡#Видеокарты Founders Edition, цены
Обратите подчеркнуть что, что для видеокарт по-под маркой Founders Edition в таблице указаны малограмотный только отдельные цены, только и собственные тактовые частоты и данные TDP. Еще в прошлом поколении карточная игра Founders Edition, которыми NVIDIA насытила первую волну поставок и там оставила в собственном интернет-магазине, для показухи не считались референсными моделями. Только в данном случае с первого дня в рынок поступит множество видеокарт оригинального дизайна, и Founders Edition хватит (за глаза) лишь одним из равноправных предложений с заводским разгоном и качественной системой охлаждения. По существу референсные характеристики станут ориентиром с целью упрощенных модификаций GeForce RTX ото сторонних производителей, не претендующих держи серьезный оверклокинг.
Старт розничных продаж GeForce RTX 2080 и RTX 2080 Ti назначен бери 20 сентября, а прибытие RTX 2070 предвидится в следующем месяце. Но едва-лишь ли не главная сенсация всего анонса Turing — сие возмутительные цены новинок. Когда сравнивать новые видеокарты со старыми в соответствии с их положением в модельном ряду, ведь 70-я модель стала милее на $150 (с $349 до самого $499), а 80-я — сверху $200 (с $499 до $699). Наценка нате Founders Edition тоже возросла, по $100 за соответствующие версии RTX 2070 и RTX 2080.
Ясно, GeForce RTX обладает заведомо паче высокой производительностью, не говоря о новых функциях рендеринга, а ведь в прошлые годы автор привыкли пожинать плоды прогресса «нашармачка» относительно цен уходящего поколения. Без дальних слов же получается, что GeForce RTX 2070 является денежным эквивалентом GTX 1080, а RTX 2080, в свою последовательность, GTX 1080 Ti. При всем этом в соответствии с теоретическому быстродействию без учета оптимизаций, а и тензорных и RT-вычислений, в пересчете для доллар Turing не ес ни шага вперед после сравнению с Pascal и даже уступает последнему. А, помня о значительной разнице в обществе архитектурами, все-таки оставим последнее дисфемизм в этом вопросе за бенчмарками.
Чисто касается GeForce RTX 2080 Ti, в таком случае по цене это ни наделить ни взять уровень серии TITAN, как ни говорите рекомендованная стоимость флагмана составляет $999, а Founders Edition — $1199. В России сие будет первый GeForce, каковой подошел к отметке в 100 тыс. рублей. Нате этой звонкой ноте ты да я прервем разговор о самих видеокартах впредь до публикации второй части статьи с результатами тестирования и приступим к анализу архитектурных особенностей чипов Turing. Закачаешься всяком случае, если GeForce RTX неожиданно не оправдает возложенных сверху него надежд, возможность приторговать ускоритель семейства GeForce 10 останется до сего времени, как минимум до конца текущего годы.
⇡#Архитектура Turing: потоковый мультипроцессор
Большая номер нововведений Turing сосредоточена в середке потокового мультипроцессора (Streaming Multiprocessor, SM). Же для начала рассмотрим архитектуру GPU, в среднем сказать, с высоты птичьего полета. Чисто и в Pascal, несколько потоковых мультипроцессоров находятся в недрах блока TPC (Texture Processing Cluster) дружно с PolyMorph Engine, выполняющим функции выдержка вершин и тесселяции. Turing обладает таким а соотношением между числом ядер CUDA и геометрических движков, точно Pascal, но сами PolyMorph Engine претерпели определенные изменения, о которых наш брат расскажем позже. В свою черед, несколько TPC входят в состав особенно крупной организационной единицы — GPC (Graphics Processing Cluster), дело (другое частью которой является прибор Raster Engine, который выполняет самые ранние стадии рендеринга: ампутирование невидимых пикселов и растеризацию полигонов.
Сообразно структуре SM новая архитектура у черта на куличках ушла от Pascal и закачаешься многом повторяет Volta, почто довольно неожиданно в свете стремления NVIDIA расплодить свои продукты по серверной и потребительской нишам. Часа) мы изучим изменения, которые относятся к исполнению операций по-над числами с плавающей запятой одинарной точности (FP32) и далеко не затрагивают вычислительных блоков нового вроде (тензорных и RT).
В потребительских GPU семейства Pascal потоковый мультипроцессор разделен бери четыре секции, каждая с которых содержит 32 ядра CUDA, снабженных собственным планировщиком и двумя портами диспетчера команд. Вслед один такт процессора откосопланировщик отправляет на исполнение одну инструкцию для того обработки ряда данных с группы 32 независимых потоков (последняя называется warp в терминологии NVIDIA) числом принципу SIMT (Single Instruction, Multiple Threads), а организация CUDA-ядер исполняет ее тоже за один такт. Хотя благодаря второму порту диспетчера в Pascal благопристойно одновременное исполнение следующей инструкции изо того же warp’а нате тех ядрах секции SM, которые малограмотный были заняты первой порцией данных. Таким образом, Pascal является суперскалярной архитектурой, которая на равных правах с потоковым параллелизмом (Thread Level Parallelism, TSP), неотъемлемым во (избежание GPU как массивно-параллельных процессоров, извлекает с нагрузки параллелизм команд (Instruction Level Parallelism, ILP).
В Volta и Turing до сих пор так же есть цифра секции на один SM, а одна секция содержит 16 ядер FP32 — взяв два раза меньше, чем в Pascal. Потому как warp в модели программирования NVIDIA точно по-прежнему состоит из 32 потоков, разработчикам пришлось вернуться к принципу, характерному к давнишней архитектуры Fermi: ассоциация из 16 CUDA-ядер исполняет одну инструкцию вслед за два такта процессора. Вслед за счет уменьшенного объема SM в Volta и Turing возросло пи планировщиков в пересчете на полный массив CUDA-ядер. В духе следствие, GPU может генерировать превыше потоков, что при благоприятном типе задач позволяет увеличить TLP, эффективно загружая вычислительные блоки.
Альтернативный особенностью, которую Turing получил в елдык от Volta, является по поводу независимая планировка потоков (Independent Thread Scheduling, ITS). В общем виде сие означает, что процессор отслеживает состояньице выполнения каждого потока, в так время как в Pascal такие принципы, как счетчик команд и стека вызовов, являются общими в целях всех потоков warp’a. Планировщики Volta и Turing позволяют соответственно отдельности завершать, приостанавливать и по-новому группировать выполнение потоков — в свою очередь для максимального насыщения CUDA-ядер.
Выравниватель внутри секции SM теперь имеет только один порт диспетчера. В результате убыль второго порта у Volta и Turing пострадала потенция извлекать из задачи ILP вслед счет отправки двух инструкций вслед один такт. Впрочем, конфигурация GPU по-прежнему является суперскалярной, т.к. блоку CUDA-ядер в секции SM нельзя не два такта, чтобы провести в жизнь инструкцию, которую за Водан такт отдает планировщик, а в стремнина следующего такта могут вестись отдана еще одна, которая догрузит простаивающие ядра. Злоба дня, какой тип параллелизма побольше выгоден для типичной работы GPU, малограмотный имеет простого ответа, только резонно предположить, что в свете общего усложнения структуры SM расходная статья транзисторного бюджета на логику дополнительного диспетчера инженеры NVIDIA неприметно сочли неоправданной инвестицией.
Наконец, архитектуры Volta и Turing роднит реальность одновременного исполнения операций с вещественными (FP) и целочисленными (INT) данными. Целочисленные расчеты используются в задачах применения вперед. Ant. после сформированных сетей машинного обучения (Inference), хотя также занимают большую долю операций типичной шейдерной нагрузки (по части оценке NVIDIA, на каждые 100 операций FP32 в современных приложениях надо 36 целочисленных операций). В предшествующих архитектурах целочисленные ALU и ALU в целях операций с плавающей запятой связаны в пределах одного CUDA-ядра и пользовались общими путями передачи данных, из-за этого весь блок ядер в секции SM может в рамках такта реализовывать либо операции с плавающей запятой, либо целочисленные. В Volta и Turing целочисленные ALU выделены в шкурный тип ядер, за дебет чего допустима смешанная дополнение с одновременной работой над данными двух разных форматов. Миллион INT- и FP-ядер в секции SM равно 16, благодаря) (этого однопортовый диспетчер инструкций, жертвующий за такт по одной инструкции угоду кому) обработки 32 чисел, может в направ двух тактов полностью занять блоки INT-и FP-ядер, каждому изо которых также требуется вдвоём такта, чтобы исполнить команды. Зримым результатом выделения целочисленных ядер в Volta и Turing является сниженная с 6 задолго. Ant. с 4 циклов латентность FMA (Fused Multiply Add) — по всем вероятиям, наиболее востребованной операции в современных GPU.
Взяв после основу шейдерный мультипроцессор Volta, разработчики Turing освободили имя им легион транзисторов, исключив большую опилки логики, выполняющей расчеты двойственный точности, хотя в Turing кончено еще есть символическое нажин ядер FP64 (два сверху каждый SM) для совместимости с соответствующим Соответственно. При этом сохранилась удвоенная пропускная жилка в расчетах FP16, свойственная Volta и GP100, да урезанная в прочих чипах Pascal. Сие в очередной раз говорит об уверенности NVIDIA в перспективах глубинного обучения, которое что оперирует данными половинной точности, сообразно к игровым продуктам. Но одновременно с тем, полная поддержка FP16 позволит разработчикам активнее воспользоваться этот формат данных в шейдерных программах.
В структуре набортной памяти графического процессора Turing опять повторяет Volta. Здесь главным изменением новых GPU объединение сравнению с Pascal стало срастание кеша L1 с разделяемой памятью (Shared Memory). Разность между этими типами памяти состоит в часть, что содержимое Shared Memory эксплицитно определяет шифр исполняемой на GPU программы, в ведь время как данные, попадающие в L1, вычислитель выбирает на свое благоразумие. Shared Memory в предыдущих архитектурах отличается больше высокой пропускной способностью и условно низкой латентностью по сравнению с L1, же Volta и Turing распространили сии преимущества на кеш первого уровня.
Кого хошь спроси, что Volta способна пластично регулировать соотношение объемов L1 и Shared Memory, вплоть после полного отсутствия последней. В документации NVIDIA мало-: неграмотный вполне очевидно, как сие работает в Turing, но складывается отклик, что допустимы только сам-друг варианта разбивки — 32 и 64 Кбайт с общих 96 Кбайт в пользу того другими словами иного типа памяти. В придачу того, кеш L1 в Volta может скрывать операции записи (store), хотя, опять таки, осталось подо вопросом, есть ли такая оказия в Turing.
Объем регистрового файла вот всех чипах Volta и Turing составляет 256 Кбайт нате SM — столько же, как долго в Pascal, но поскольку самовольно SM вдвое сократили по числу ядер CUDA, коллективный объем регистрового файла ощутительно вырос. Кроме того, NVIDIA внедрила в каждой секции SM порознь взятый кеш инструкций L0 вместо общего с целью SM буфера инструкций. И, наконец, кеши второго уровня выросли до самого 4 Мбайт в чипах TU104/TU106 и 6 Мбайт в TU102.
Хана оптимизации архитектуры, которые NVIDIA внедрила в Turing, после собственным тестам компании, повысили соэ выполнения шейдерной нагрузки получи и распишись 50% по сравнению с Pascal в пересчете сверху ядро CUDA при равной тактовой частоте.
Следующая фаза →