Aнoнс нoвыx ускoритeлeй сeмeйствa GeForce RTX нa бaзe aрxитeктуры Turing стaл, нe пoбoимся этoгo слoвa, выдaющeйся вexoй нa пути сaмoй кoмпaнии и индустрии пoтрeбитeльскoй 3D-грaфики в цeлoм. Кaждoe пo-нaстoящeму крупнoe oбнoвлeниe дискрeтныx GPU пoслeдниx лeт былo кульминaциeй тex либо иныx тeчeний, нaпрaвлявшиx инжeнeрную представление зa дoлгoe врeмя дo ee вoплoщeния в крeмнии. Нo Turing, пользу кого чтoбы читaтeли в пoлнoй мeрe oцeнили знaчимoсть тeкущeгo мoмeнтa, трeбуeт мaксимaльнo ширoкoгo кoнтeкстa, oxвaтывaющeгo всю истoрию игрoвoгo 3D нa пeрсoнaльныx кoмпьютeрax.
Сaйт 3DNews.ru в прoшлoм гoду oтмeтил свoй 20-лeтний юбилeй, a да мы с тобой вспoминaли, кaк бурнo в тo врeмя эвoлюциoнирoвaлa тexникa. С кoмпaниeй NVIDIA, oснoвaннoй зa чeтырe гoдa дo нaшeгo издaния, связaнo мнoжeствo пoвoрoтныx тoчeк нa кривoй рaзвития кoмпьютeрнoй грaфики. Скaжeм, нeмнoгиe знaют, чтo имeннo NVIDIA, a нe 3dfx, в 1995 гoду выпустилa нa рынoк пeрвый мaссoвый 3D-ускoритeль нa чипe NV1. Дaльнeйшиe сoбытия извeстны нaмнoгo лучшe. Ужe чeрeз чeтырe гoдa GeForce 256 принeс нa пeрсoнaлки aппaрaтную oбрaбoтку трaнсфoрмaции и oсвeщeния пoлигoнoв (Transformation and Lighting, T&L), a зaтeм, силaми GeForce 3, пoявились прoгрaммируeмыe шeйдeры. Пoзднeйшим с дoстижeний NVIDIA сoпoстaвимoй вaжнoсти стaл высoкoурoвнeвый интeрфeйс CUDA интересах выпoлнeния рaсчeтoв oбщeгo нaзнaчeния, кoтoрыe сo врeмeнeм стaли eдвa ли нe бoлee вaжнoй зaдaчeй интересах GPU, чeм рeндeринг грaфики.
Впoслeдствии грaфичeскиe прoцeссoры oтпрaвились в спoкoйнoe плaвaниe, нe oтмeчeннoe рaдикaльными пeрeмeнaми в функцияx жeлeзa и принципax прoгрaммирoвaния. Нo вoт после 11 лeт пoслe aнoнсa CUDA oснoвaтeль NVIDIA Джeнсeн Xуaнг вынeс нa сцeну видeoкaрту пoд дeвизoм Graphics Reinvented, и, ваша сестра знaeтe, в дaннoм случae высoкoпaрныe слoвa сoвeршeннo умeстны. Вeдь Turing впeрвыe срeди пoтрeбитeльскиx GPU oбeспeчивaeт спeциaлизирoвaннoe ускoрeниe рaсчeтoв искусствeннoгo интeллeктa и трaссирoвки лучeй в рeaльнoм врeмeни. Мoжнo нe сoмнeвaться: eсли игрoвaя промышленность пoддeржит эти инициaтивы, a xвaткa NVIDIA нa рынкe сeйчaс кaк никoгдa сильнa, тo наш брат стaли oчeвидцaми oчeрeднoй смeны эпox.
Прeдстaвляeм пeрвую чaсть oбзoрa видeoкaрт сeмeйствa GeForce RTX, в кoтoрoй нaс ждeт пoдрoбный aнaлиз aрxитeктуры Turing и прeзeнтaция устрoйств нa ee oснoвe. Мaсштaб измeнeний пo срaвнeнию с прeдыдущим пoкoлeниeм, Pascal, впoлнe зaслуживaeт oтдeльнoй стaтьи, a эмпиричeскoe тeстирoвaниe GeForce RTX 2080 Ti в любoм случae придeтся oтлoжить дo 19 сeнтября, кoгдa истeкaeт зaпрeт нa публикaцию бeнчмaркoв и в нaшeм рaспoряжeнии пoявятся пeрвыe oбрaзцы устрoйств.
⇡#Грaфичeскиe прoцeссoры сeмeйствa Turing
Пeрeд глубoким пoгружeниeм в aрxитeктуру Turing сoстaвим oбщee прeдстaвлeниe o сaмoм жeлeзe, кoтoрoe выпустилa NVIDIA. Блaгo, нoвый крeмний пo-прeжнeму xaрaктeризуют мeтрики, примeнимыe к GPU прeдыдущиx поколений, а перевод и принцип работы специализированных функциональных блоков автор изучим позже.
В отличие через Pascal и более ранних поколений GPU, Turing с первого дня существует в виде трех процессоров — TU102, TU104 и TU106. Во вкусе видим, компании пришлось променять привычную номенклатуру, в которой первой буквой спокон века была G, а вторая означает прозвание микроархитектуры, ведь сочетание GT сделано занято старым семейством Tesla. Чипы выпускаются до эксклюзивному контракту с фабрикой TSMC, идеже им выделен собственный технологичный узел 12 нм FFN (сие буквально означает FinFET NVIDIA).
Изготовщик
NVIDIA
Название
GP104
GP102
GP100
GV100
TU106
TU104
TU102
Микроархитектура
Pascal
Pascal
Pascal
Volta
Turing
Turing
Turing
Техпроцесс, нм
16 nm FinFET
16 nm FinFET
16 nm FinFET
12 нм FFN
12 нм FFN
12 нм FFN
12 нм FFN
Квадриллион транзисторов, млн
7 200
12 000
15 300
21 100
10 800
13 600
18 600
Место чипа, мм2
314
471
610
815
445
545
754
Структура SM/TPC/GPC
Число SM
20
30
60
84
36
48
72
Одиннадцать TPC
20
30
30
42
18
24
36
Число GPC
4
6
6
6
3
6
6
Вид потокового мультипроцессора (SM)
FP32-ядра
128
128
64
64
64
64
64
FP64-ядра
4
4
32
32
2
2
2
INT32-ядра
Н/Д
Н/Д
Н/Д
64
64
64
64
Тензорные ядра
Н/Д
Н/Д
Н/Д
8
8
8
8
RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
1
1
1
Программируемые вычислительные блоки GPU
FP32-ядра
2 560
3 840
3 840
5 376
2 304
3 072
4 608
FP64-ядра
80
120
1 920
2 688
72
96
144
INT32-ядра
Н/Д
Н/Д
Н/Д
5 376
2 304
3 072
4 608
Тензорные ядра
Н/Д
Н/Д
Н/Д
672
288
384
576
RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
36
48
72
Блоки фиксированной функциональности
TMU (блоки наложения текстур)
160
240
240
336
144
192
288
ROP
64
96
128
128
64
64
96
Взаиморасположение памяти
Объем иннокентий L1 / текстурного кеша, Кбайт
48
48
24
≤ 128 с 128, общий с разделяемой памятью
32/64 изо 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)
Норма разделяемой памяти / SM, Кбайт
96
96
64
≤ 96 изо 128 (общий с кешем L1)
32/64 изо 96 (общий с кешем L1)
32/64 изо 96 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)
Охват регистрового файла / SM, Кбайт
256
256
256
256
256
256
256
Фонд регистрового файла / GPU, Кбайт
5 120
7 680
15 360
21 504
9 216
12 288
18 432
Размер кеша L2, Кбайт
2 048
3 072
4 096
6 144
4 096
4 096
6 144
Разрядность шины RAM, двоичная единица информации
256
384
4 096
4 096
256
256
384
Тип микросхем RAM
GDDR5/GDDR5X
GDDR5X
HBM2
HBM2
GDDR6
GDDR6
GDDR6
Обувь для машины NVLINK
Н/Д
Н/Д
4 × NVLink 1.0 x8
6 × NVLink 2.0 x8
Н/Д
1 × NVLink 2.0 x8
2 × NVLink 2.0 x8
В действительности «нанометраж» фотолитографического процесса считанные разы соответствует своему прямому смыслу — длине транзисторного затвора, а та, в свою колонна, ничего не говорит о зазорах посередке элементами и реальной плотности их размещения. В данной ситуации TSMC безлюдный (=малолюдный) скрывает того факта, в чем дело? ее технология 12 нм является вариантом узла 16 нм FinFET+ с повышенной плотностью и сниженными утечками тока. Затем не удивительно, что числом отношению декларируемого числа транзисторов к площади кристалла до настоящего времени три чипа Turing можно сказ не отличаются от старшего Pascal (GP100), что был получен на «чистом» техпроцессе 16 нм. Опять-таки, по сравнению GP104 (GeForce GTX 1070/1080) у Turing по сей день же наблюдается прирост плотности практически 6%.
Согласно количеству элементов позволяется распределить три «Тьюринга» точно по весовым категориям, заданным процессорами поколения Pascal. TU104 ближе лишь к GP102 (GeForce GTX 1080 Ti), а последыш чип, TU106, за неимением ближайшего аналога, соответствует GP104. Заметьте, сколько при смене поколений выросли площади кремния и транзисторные бюджеты (получи и распишись 42 и 50% соответственно в паре GP104-TU106 и в 16 и 13% у GP102-TU104).
В авангарде модельного ряда Turing находится TU102. Пришествие чипа с таким номером в первые пора новой архитектуры уже чрезвычайно, если вспомнить, сколько времени понадобилось NVIDIA, так чтоб запусть в игровой сектор старших представителей предыдущих поколений. Однако помимо этого, сам GPU беспрецедентно велодрын по действующим стандартам массового рынка. Близ площади 754 мм2 и транзисторном бюджете 18,6 млрд спирт уступает лишь своему серверному предшественнику GV100 (815 мм2 и 21,1 млрд транзисторов) сверху архитектуре Volta, а GP102 (471 мм2 и 12 млрд транзисторов) превосходит бери 60 и 55% соответственно. К слову, должность TU100, которую по аналогии с Pascal и Volta был в силах бы занять еще сильнее амбициозный чип для датацентров держи базе Turing (со всеми полагающимися атрибутами в виде памяти HBM2 и NVLink в качестве первый шины), пока вакантна.
Подле сравнении с Pascal по количеству 32-битных ядер CUDA и блоков фиксированной функциональности (TMU и ROP) становится чай, что в лице Turing наш брат имеем дело с кардинально отличной архитектурой, так-таки TU106 и TU104 заметно уступают своим предкам GP104 и GP102. Просто-напросто старший Turing не пусть будет так на компромисс по количеству ядер CUDA и блоков наложения текстур неприметно за счет колоссальных размеров чипа.
Ни дать ни взять получилось, что столь крупные GPU оказались против небогаты CUDA-ядрами, объясняется толпой факторов, среди которых ведущую ипостась играет появление вычислительных блоков трех новых типов: тензорных ядрер, ядер трассировки лучей (RT в таблице), а как и ядер целочисленных вычислений (INT32). Минуя того, у новых GPU в полтора-двушник раза разбух кеш второго уровня и увеличилась метраж управляющей логики за итог реорганизации CUDA-ядер в пределах потокового мультипроцессора (SM). Трендец эти изменения мы и обсудим в следующих разделах обзора.
Потому что смена техпроцесса на условные 12 нм гадательно ли радикально подействовала получи и распишись рабочие частоты GPU, может выработаться впечатление, что создатели Turing пожертвовали стандартной шейдерной производительностью в пользу новых специализированных функций. Хотя не стоит делать выводы за табличным данным. При подробном рассмотрении автор убедимся, даже если безлюдный (=малолюдный) брать в расчет долю транзисторов, которую съели тензорные и RT-ядра, отчего Turing в целом стал побольше сложной и «широкой» архитектурой числом сравнению с Pascal, и это, объединение крайней мере в теории, способствует повышенной эффективности в шейдерных вычислениях.
Завершая короткий обзор кремния Turing, отметим прибытие чрезвычайно быстрого интерфейса NVLink, тот или другой используется в кластерах HPC-ускорителей Tesla в основе чипов GP100 и GV100, и, уместно, новых аппаратных мостиков. Сифилис TU104 несет один морские ворота NVLink второго поколения с пропускной способностью 50 Гбайт/с (после 25 Гбайт/с в каждую сторону), а TU102 — две порта. Новый стандарт после этого выступает в качестве замены выделенной шины SLI (возможные конфигурации числом-прежнему ограничены двумя GPU), и скорости одного такого порта в полном смысле слова достаточно для передачи кадрового сиськи с разрешением 8К в режиме AFR (Alternate Frame Rendering).
Только обратите внимание, что возле использовании двух портов пропускная переимчивость NVLink уже находится в зоне возможностей оперативной памяти бюджетных игровых видеокарт. Возле неграфических вычислениях с помощью нескольких чипов в связке NVLink эйдетизм соседнего ускорителя уже позволительно рассматривать как дальний участок локальной RAM и в перспективе такой ход применим для реализации сложных алгоритмов мультиадаптерного рендеринга лещадь Direct3D 12 (конвейеризация кадров). В несходство от старого интерфейса SLI, тот или иной используется только для передачи кадровых буферов, связь нескольких GPU по такой шине, как бы NVLink, разрешена в рамках эксплицитного режима Multi-Adapter перед Direct3D 12.
⇡#Модельный ряд GeForce RTX 20
Род GeForce RTX на данном этапе представлено тремя устройствами — RTX 2070, RTX 2080 и RTX 2080 Ti, основанными в чипах TU106, TU104 и TU102 пропорционально. Среди них только RTX 2070 достался в полном смысле слова функциональный графический процессор, в ведь время как TU104 и TU102 оказались тем неужели иным образом «порезаны» в своих потребительских воплощениях. RTX 2080 и RTX 2080 Ti лишились созвучно 2 и 4 из 48 и 72 SM, которые вкушать в оригинальных GPU.
Опираясь на заявленные частоты и конфигурацию CUDA-ядер наша сестра можем сравнить теоретическое быстродействие GeForce RTX и ускорителей поколения Pascal в 32-битных операциях с плавающей запятой. В этом отношении RTX 2070 находится в промежутке средь GTX 1070 и GTX 1080. Следующая по мнению старшинству новинка, RTX 2080, заняла территория между GTX 1080 и GTX 1080 Ti, а RTX 2080 Ti, якобы и положено флагману, оставил GTX 1080 Ti петушком.
Сказывается преимущество по количеству активных CUDA-ядер, как ни говорите верхние значения тактовых частот Turing находятся в примерном соответствии с показателями GeForce GTX 1070/1080 и GTX 1080 Ti. Последнее само по части себе приятно, если упомнить, насколько крупнее GPU в новых видеокартах, что ни говори NVIDIA пришлось немного убавить базовые частоты трех чипов, пусть оставить в термопакете запас возьми комбинированную нагрузку с участием тензорных и RT-ядер, а TDP ускорителей (без старшей модели) предсказуемо увеличился.
Самец
NVIDIA
Модель
GeForce GTX 1070
GeForce GTX 1080
GeForce GTX 1080 Ti
GeForce RTX 2070
GeForce RTX 2080
GeForce RTX 2080 Ti
Графичный процессор
Название
GP104
GP104
GP102
TU106
TU104
TU102
Микроархитектура
Pascal
Pascal
Pascal
Turing
Turing
Turing
Техпроцесс, нм
16 нм FinFET
16 нм FinFET
16 нм FinFET
12 нм FFN
12 нм FFN
12 нм FFN
Квадриллион транзисторов, млн
7 200
7 200
12 000
10 800
13 600
18 600
Тактовая гармоника, МГц: Base Clock / Boost Clock
1 506 / 1 683
1 607 / 1 733
1 480 / 1 582
1 410 / 1 620 (Founders Edition: 1 410 / 1 710)
1 515 / 1 710 (Founders Edition: 1 515 / 1 800)
1 350 / 1 545 (Founders Edition: 1 350 / 1 545)
Одиннадцать шейдерных ALU
1 920
2 560
3 584
2304
2944
4352
Число блоков наложения текстур
120
160
224
144
184
272
Квадриллион ROP
64
64
88
64
64
88
Оперативная память
Разрядность шины, двоичный знак
256
256
352
256
256
352
Тип микросхем
GDDR5 SDRAM
GDDR5X SDRAM
GDDR5X SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
Тактовая гармоника, МГц (пропускная способность бери контакт, Мбит/с)
2 000 (8 000)
1 250 (10 000)
1 376,25 (11 010)
1 750 (14 000)
1 750 (14 000)
1 750 (14 000)
Листаж, Мбайт
8 192
8 192
11 264
8 192
8 192
11 264
Шина ввода/вывода
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
Коэффициент полезного действия
Пиковая производительность FP32, GFLOPS (изо расчета максимальной указанной частоты)
6 463
8 873
11 340
7 465 / 7 880 (Founders Edition)
10 069 / 10 598 (Founders Edition)
13 448 / 14 231 (Founders Edition)
Отдача FP32/FP64
1/32
1/32
1/32
1/32
1/32
1/32
Пропускная способность оперативной памяти, Гбайт/с
256
320
484
448
448
616
Совет изображения
Интерфейсы вывода изображения
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
TDP, Вт
150
180
250
175/185 (Founders Edition)
215/225 (Founders Edition)
250/260 (Founders Edition)
Розничная ценник (США, без налога), $
349 (рекомендованная) / 399 (Founders Edition, nvidia.com)
499 (рекомендованная) / 549 (Founders Edition, nvidia.com)
НД (рекомендованная) / 699 (Founders Edition, nvidia.com)
499 (рекомендованная) / 599 (Founders Edition, nvidia.com)
699 (рекомендованная) / 799 (Founders Edition, nvidia.com)
999 (рекомендованная) / 1 199 (Founders Edition, nvidia.com)
Розничная банко (Россия), руб.
НД (рекомендованная) / 31 590 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 45 790 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 52 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 47 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 63 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 95 990 (Founders Edition, nvidia.ru)
⇡#Оперативная реминисценция GDDR6
Во всем семействе GeForce RTX применяются чипы памяти GDDR6 с пропускной способностью 14 Гбит/с сверху контакт. При этом неудовлетворительно младших чипа имеют 256-битую, а TU102 — 384-битную шину памяти. В потребительские Turing NVIDIA устанавливает по части одной микросхеме объемом 1 Гбайт возьми каждый 32-битный управляющее устройство. Как следствие, объем RAM достигает 8 Гбайт в RTX 2070/2080 и 11 Гбайт в RTX 2080 Ti. То правда, в RTX 2080 Ti отключили один изо двенадцати контроллеров памяти, которые (у)потреблять в кремнии GP102, из-после чего вся шина памяти сжалась с 384 перед 352 бит и был потерян 1 Гбайт RAM.
Кое-что касается самой GDDR6, в таком случае новый тип микросхем имеет мало(сть) принципиальных отличий от GDDR5X и, в сухом остатке, предлагает не более более высокие тактовые частоты близ таком же стандартном напряжении питания (1,35 В). Ключевая своеобычие стандарта GDDR6 в том, чего он подразумевает наличие в каждом чипе двух в полном смысле слова независимых 16-битных каналов с собственными шинами команд и данных (в разнообразие от единого 32-битного интерфейса GDDR5 и псевдо-независимых каналов GDDR5X). Сие открывает массу возможностей про эффективного использования пропускной талантливость. Ведь чем больше каналов, тем в меньшей мере данных (при должном управлении со стороны GPU) «застревает» в ожидании обновления страниц и прочих длительных операций. Вдобавок того, узкая 16-битная автомобильная обувь в два раза по сравнению с 32-битной шиной GDDR5X сокращает размер кванта данных (32 и 64 байт уместно при характеристике Prefetch 16n), какой-никакой процессор при обращении к RAM помещает в кеш второго уровня, а получается, системы кешей с длиной словоблудие в 32 байт (судя согласно всему, это как раз как-то относится к чипам NVIDIA) безграмотный заполняются «мусорными» данными и работают побольше эффективно.
Другой отличительной чертой стандарта GDDR6 является удобный случай работать в режимах DDR либо QDR (с передачей двух и четырех двоичная единица информации данных на цикл сигнала пропорционально) при неизменной пропускной данные памяти (ПСП). Только в режиме DDR контроллеру придется содействовать вдвое более высокую частоту шины данных и, в области правде говоря, с ПСП во (избежание GDDR6 на уровне 14-16 Гбит/с возьми контакт частота шины данных в в 7 ГГц не кажется реальной возможностью пользу кого современных GPU.
GDDR6 обеспечивает массивную ПСП, недоступную ускорителям серии GeForce 10 с памятью GDDR5 и GDDR5X. Аж с «урезанной» шиной GeForce RTX 2080 Ti достигает 616 Гбайт/с. А сие, на минуточку, больше, нежели у Radeon RX Vega 64 (484 Гбайт/с), которая использует больше дорогую и сложную память HBM2. Ещё того, NVIDIA продолжила подвижка алгоритмов компрессии данных в шине памяти, по причине которым эффективная ПСП GeForce RTX 2080 Ti оценивается нате 50% больше (с учетом «недоваренный» ПСП шины GDDR6) по части сравнению с GeForce GTX 1080 Ti.
⇡#Видеокарты Founders Edition, цены
Обратите рачительность, что для видеокарт подо маркой Founders Edition в таблице указаны невыгодный только отдельные цены, а и собственные тактовые частоты и цифры TDP. Еще в прошлом поколении игра в карты Founders Edition, которыми NVIDIA насытила первую волну поставок и с течением времени оставила в собственном интернет-магазине, для вида не считались референсными моделями. Хотя в данном случае с первого дня возьми рынок поступит множество видеокарт оригинального дизайна, и Founders Edition горазд лишь одним из равноправных предложений с заводским разгоном и качественной системой охлаждения. Практически референсные характеристики станут ориентиром на упрощенных модификаций GeForce RTX ото сторонних производителей, не претендующих получи и распишись серьезный оверклокинг.
Старт розничных продаж GeForce RTX 2080 и RTX 2080 Ti назначен держи 20 сентября, а прибытие RTX 2070 предвидится в следующем месяце. Но чуть (было) ли не главная обновка всего анонса Turing — сие возмутительные цены новинок. Кабы сравнивать новые видеокарты со старыми в соответствии с их положением в модельном ряду, ведь 70-я модель стала милее на $150 (с $349 накануне $499), а 80-я — возьми $200 (с $499 до $699). Наценка для Founders Edition тоже возросла, раньше $100 за соответствующие версии RTX 2070 и RTX 2080.
Ясно, GeForce RTX обладает заведомо больше высокой производительностью, не говоря о новых функциях рендеринга, хотя ведь в прошлые годы пишущий эти строки привыкли пожинать плоды прогресса «на дармовщинку» относительно цен уходящего поколения. Незамедлительно же получается, что GeForce RTX 2070 является денежным эквивалентом GTX 1080, а RTX 2080, в свою черед, GTX 1080 Ti. При всем этом числом теоретическому быстродействию без учета оптимизаций, а опять же тензорных и RT-вычислений, в пересчете получай доллар Turing не есть ни шага вперед объединение сравнению с Pascal и даже уступает последнему. Да, помня о значительной разнице в обществе архитектурами, все-таки оставим последнее старославянизм в этом вопросе за бенчмарками.
Подобно как касается GeForce RTX 2080 Ti, ведь по цене это ни отблагодарить ни взять уровень серии TITAN, тогда рекомендованная стоимость флагмана составляет $999, а Founders Edition — $1199. В России сие будет первый GeForce, каковой подошел к отметке в 100 тыс. рублей. Держи этой звонкой ноте пишущий эти строки прервем разговор о самих видеокартах вплоть до публикации второй части статьи с результатами тестирования и приступим к анализу архитектурных особенностей чипов Turing. Изумительный всяком случае, если GeForce RTX скоро(постижно) не оправдает возложенных для него надежд, возможность прикупить ускоритель семейства GeForce 10 останется до сего часа, как минимум до конца текущего лета.
⇡#Архитектура Turing: потоковый мультипроцессор
Большая глава нововведений Turing сосредоточена среди потокового мультипроцессора (Streaming Multiprocessor, SM). Однако для начала рассмотрим архитектуру GPU, си сказать, с высоты птичьего полета. Т. е. и в Pascal, несколько потоковых мультипроцессоров находятся в середине блока TPC (Texture Processing Cluster) скопом с PolyMorph Engine, выполняющим функции выпись вершин и тесселяции. Turing обладает таким но соотношением между числом ядер CUDA и геометрических движков, словно Pascal, но сами PolyMorph Engine претерпели определенные изменения, о которых наша сестра расскажем позже. В свою очередность, несколько TPC входят в состав особливо крупной организационной единицы — GPC (Graphics Processing Cluster), супротивный частью которой является организация Raster Engine, который выполняет самые ранние стадии рендеринга: отнятие невидимых пикселов и растеризацию полигонов.
Объединение структуре SM новая архитектура за тридевять земель ушла от Pascal и изумительный многом повторяет Volta, который довольно неожиданно в свете стремления NVIDIA завести свои продукты по серверной и потребительской нишам. В (то мы изучим изменения, которые относятся к исполнению операций надо числами с плавающей запятой одинарной точности (FP32) и далеко не затрагивают вычислительных блоков нового вроде (тензорных и RT).
В потребительских GPU семейства Pascal потоковый мультипроцессор разделен получи четыре секции, каждая с которых содержит 32 ядра CUDA, снабженных собственным планировщиком и двумя портами диспетчера команд. После один такт процессора выравниватель отправляет на исполнение одну инструкцию на обработки ряда данных с группы 32 независимых потоков (последняя называется warp в терминологии NVIDIA) сообразно принципу SIMT (Single Instruction, Multiple Threads), а узел CUDA-ядер исполняет ее как и за один такт. Однако благодаря второму порту диспетчера в Pascal цензурно одновременное исполнение следующей инструкции с того же warp’а нате тех ядрах секции SM, которые отнюдь не были заняты первой порцией данных. Таким образом, Pascal является суперскалярной архитектурой, которая на равных правах с потоковым параллелизмом (Thread Level Parallelism, TSP), неотъемлемым чтобы GPU как массивно-параллельных процессоров, извлекает с нагрузки параллелизм команд (Instruction Level Parallelism, ILP).
В Volta и Turing совершенно так же есть четверик секции на один SM, же одна секция содержит 16 ядер FP32 — в два раза меньше, чем в Pascal. Потому что warp в модели программирования NVIDIA согласно-прежнему состоит из 32 потоков, разработчикам пришлось вернуться к принципу, характерному пользу кого давнишней архитектуры Fermi: коалиция из 16 CUDA-ядер исполняет одну инструкцию следовать два такта процессора. Вслед за счет уменьшенного объема SM в Volta и Turing возросло цифра планировщиков в пересчете на обыкновенный массив CUDA-ядер. Чисто следствие, GPU может генерировать похлеще потоков, что при благоприятном типе задач позволяет увеличить TLP, эффективно загружая вычислительные блоки.
Дело (другое особенностью, которую Turing получил в детородный орган от Volta, является по поводу независимая планировка потоков (Independent Thread Scheduling, ITS). В общем виде сие означает, что процессор отслеживает счастье выполнения каждого потока, в в таком случае время как в Pascal такие убеждения, как счетчик команд и магазин вызовов, являются общими для того всех потоков warp’a. Планировщики Volta и Turing позволяют согласно отдельности завершать, приостанавливать и снова группировать выполнение потоков — да для максимального насыщения CUDA-ядер.
Откосопланировщик внутри секции SM теперь имеет не долее чем один порт диспетчера. В результате разор второго порта у Volta и Turing пострадала мочь извлекать из задачи ILP после счет отправки двух инструкций ради один такт. Впрочем, конфигурация GPU по-прежнему является суперскалярной, т.к. блоку CUDA-ядер в секции SM нельзя не два такта, чтобы свершить инструкцию, которую за Вотан такт отдает планировщик, а в перемещение следующего такта могут взяться отдана еще одна, которая догрузит простаивающие ядра. Задание, какой тип параллелизма побольше выгоден для типичной работы GPU, отнюдь не имеет простого ответа, только резонно предположить, что в свете общего усложнения структуры SM убыток транзисторного бюджета на логику дополнительного диспетчера инженеры NVIDIA невзыскательно сочли неоправданной инвестицией.
Наконец, архитектуры Volta и Turing роднит шанс одновременного исполнения операций с вещественными (FP) и целочисленными (INT) данными. Целочисленные подсчеты используются в задачах применения заблаговременно сформированных сетей машинного обучения (Inference), же также занимают большую долю операций типичной шейдерной нагрузки (соответственно оценке NVIDIA, на каждые 100 операций FP32 в современных приложениях нужно 36 целочисленных операций). В предшествующих архитектурах целочисленные ALU и ALU про операций с плавающей запятой связаны в пределах одного CUDA-ядра и пользовались общими путями передачи данных, вследствие того весь блок ядер в секции SM может в рамках такта производить либо операции с плавающей запятой, либо целочисленные. В Volta и Turing целочисленные ALU выделены в шкурный тип ядер, за рекамбио чего допустима смешанная производительность с одновременной работой над данными двух разных форматов. Семьсот INT- и FP-ядер в секции SM равно 16, в рассуждении сего однопортовый диспетчер инструкций, посвящающий за такт по одной инструкции интересах обработки 32 чисел, может в линия двух тактов полностью найти работу блоки INT-и FP-ядер, каждому с которых также требуется банан такта, чтобы исполнить команды. Зримым результатом выделения целочисленных ядер в Volta и Turing является сниженная с 6 предварительно 4 циклов латентность FMA (Fused Multiply Add) — может статься, наиболее востребованной операции в современных GPU.
Взяв вслед основу шейдерный мультипроцессор Volta, разработчики Turing освободили сколько душе угодно транзисторов, исключив большую отделение логики, выполняющей расчеты сугубый точности, хотя в Turing до сих пор еще есть символическое нажин ядер FP64 (два бери каждый SM) для совместимости с соответствующим До. При этом сохранилась удвоенная пропускная восприимчивость в расчетах FP16, свойственная Volta и GP100, хотя урезанная в прочих чипах Pascal. Сие в очередной раз говорит об уверенности NVIDIA в перспективах глубинного обучения, которое только и знает оперирует данными половинной точности, сообразно к игровым продуктам. Но коллективно с тем, полная поддержка FP16 позволит разработчикам активнее пустить в дело этот формат данных в шейдерных программах.
В структуре набортной памяти графического процессора Turing в другой) раз повторяет Volta. Здесь главным изменением новых GPU объединение сравнению с Pascal стало интеграция кеша L1 с разделяемой памятью (Shared Memory). Отличка между этими типами памяти состоит в часть, что содержимое Shared Memory эксплицитно определяет адрес исполняемой на GPU программы, в ведь время как данные, попадающие в L1, сердце компьютера выбирает на свое мнение. Shared Memory в предыдущих архитектурах отличается сильнее высокой пропускной способностью и насчет низкой латентностью по сравнению с L1, а Volta и Turing распространили сии преимущества на кеш первого уровня.
Общеизвестно, что Volta способна податливо регулировать соотношение объемов L1 и Shared Memory, вплоть впредь до полного отсутствия последней. В документации NVIDIA маловыгодный вполне очевидно, как сие работает в Turing, но складывается отзыв, что допустимы только неуд варианта разбивки — 32 и 64 Кбайт с общих 96 Кбайт в пользу того не то — не то иного типа памяти. Не принимая во внимание того, кеш L1 в Volta может не давать пропасть операции записи (store), же, опять таки, осталось подина вопросом, есть ли такая способ в Turing.
Объем регистрового файла в всех чипах Volta и Turing составляет 256 Кбайт бери SM — столько же, почем в Pascal, но поскольку самопроизвольно SM вдвое сократили по числу ядер CUDA, соединенный объем регистрового файла намного вырос. Кроме того, NVIDIA внедрила в каждой секции SM один кеш инструкций L0 вместо общего исполнение) SM буфера инструкций. И, наконец, кеши второго уровня выросли накануне 4 Мбайт в чипах TU104/TU106 и 6 Мбайт в TU102.
И старый и малый оптимизации архитектуры, которые NVIDIA внедрила в Turing, соответственно собственным тестам компании, повысили обороты выполнения шейдерной нагрузки бери 50% по сравнению с Pascal в пересчете возьми ядро CUDA при равной тактовой частоте.
Следующая страничка →