Материалы по тегу: tensorrt
21.07.2021 [14:43], Алексей Степин
NVIDIA анонсировала восьмое поколение ПО TensorRTСовременные диалоговые комплексы часто строятся на глубоком машинном обучении. Обучение такого рода систем требует существенных вычислительных ресурсов, а главное — эффективного программного обеспечения. Восьмое поколение TensorRT должно ещё больше ускорить и облегчить процесс разработки. Компания активно продвигает свои решения в мире инференс-систем и за последние несколько месяцев объявила о существенном увеличении контрактов на построение «умных» рекомендательных систем. Количество голосовых помощников год от года увеличивается ударными темпами, но от них также требуется и качество — вряд ли кому-то понравится бот или сервис рекомендаций, не способный справляться со своими обязанностями. Разработки NVIDIA, от компактных плат Jetson до сверхмощных ускорителей A100, позволяют создавать действительно мощные инференс-системы для такого рода задач, но без сопутствующих средств разработки они бесполезны. ![]() Уже предыдущее, седьмое поколение инференс-платформы TensorRT, позволило достичь десятикратного ускорения в диалоговых приложениях по сравнению с их запуском на классических процессорах. В новой, анонсированной только что восьмой версии, NVIDIA продолжила дальнейшую оптимизацию TensorRT. ![]() NVIDIA TensorRT подразумевает высокую степень интеграции Изменения в новом пакете присутствуют как количественные — производительность выросла вдвое в сравнении с TensorRT 7, — так и качественные — появилась поддержка особенностей архитектуры Ampere и новой технологии Quantization Aware Training (QAT). Помимо чистой производительности также снизилась латентность, теперь минимальное её значение составляет всего 1,2 мс. ![]() Новая версия TensorRT позволит сделать машинный интеллект ещё умнее Из качественных нововведений первым пунктом следует отметить оптимизацию для работы в режиме Sparsity, в котором редуцируются незначащие параметры, практически не влияющие на результат. TensorRT 8 позволяет не затрачивать существенные ресурсы в таких случаях, экономя как вычислительные такты, так и сохраняя память для более важных данных. Технология QAT же позволяет существенно поднять точность вычислений в режиме INT8 на ускорителях NVIDIA с архитектурой Ampere.
12.10.2017 [13:03], Валерий Косихин
GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решениемNVIDIA представила третью версию пакета TensorRT, который представляет собой набор высокопроизводительных библиотек, выполняющих операции вывода (inference) на основе сетей глубинного обучения, и инструмент оптимизации сетей. В число функций TensorRT входит модификация параметров узлов нейросети (веса, пороги активации), объединение слоев, настройка и многопоточное исполнение вычислительных ядер (kernels). ![]() TensorRT 3 находится в статусе релиз-кандидата и доступен для скачивания на сайте NVIDIA. Программа совместима с ускорителями вычислений на основе архитектур Pascal и Volta и встраиваемыми компьютерами семейства Jetson. Использование TensorRT 3 обеспечивает 3,7-кратный прирост пропускной способности на платформе Tesla V100 (Volta) по сравнению с Tesla P100 (Pascal). Кроме того, решение NVIDIA обладает в 18 раз более высокой производительностью, нежели универсальная библиотека TensorFlow, запущенная на оборудовании NVIDIA. ![]() По сравнению с центральными процессорами Tesla V100 под управлением TensorRT 3 в 40–140 раз ускоряет задачу опознания изображений и вдвое снижает латентность операций. Сервер NVIDIA HGX, оснащенный восемью ускорителями Tesla V100, обеспечивает быстродействие, сопоставимое со 160 центральными процессорами (NVIDIA не уточняет количество ядер CPU), потребляя 1/20 долю электроэнергии. Общая стоимость владения с учетом цены оборудования и электрической мощности отдает 10-кратное преимущество решению NVIDIA. |
|