Компьютерное моделирование поведения сыпучих сред методом дискретных элементов (Discrete Element Method - DEM) в горно-металлургической, строительной, пищевой и фармацевтической промышленности стало доступным инструментом инженера. Широкое распространение практического применения DEM тесно связано с развитием вычислительной техники за последние 15 лет, в том числе с появлением доступных рабочих станций построенных на базе многоядерных центральных процессоров и применением гибридных вычислении на базе технологии NVIDIA CUDA.
Количество научных публикаций по направлению DEM в год (результаты поиска по ключевым словам “Discrete element modeling” и “DEM” на портале sciencedirect.com, март 2017)
Расчет технологических процессов при помощи метода DEM подразумевает моделирование большого количества частиц, часто от миллиона и более, что безусловно требует соответствующей производительности вычислительных ресурсов.
Программное обеспечение Rocky DEM от компании Rocky DEM, Inc. позволяет рассчитать поведение потока частиц различных форм и размеров при его движении по конвейерным линиям, на вибрационных грохотах, в мельницах, дробилках и других видах перерабатывающего и транспортного оборудования. Rocky DEM поддерживает распараллеливание вычислений в системах с общей памятью (Shared Memory Parallel, SMP) и использование графических процессоров (GPU) NVIDIA. Основные вычисления могут производится на GPU, в то время как управление и передача данных осуществляется при помощи центрального процессора (CPU).
Задача
Компания CADFEM CIS совместно с FORSITE провели исследование увеличения производительности вычислительных алгоритмов программы Rocky DEM при переносе распараллеленного расчетного механизма с CPU на GPU.
С целью анализа времени вычислений было проведено несколько сравнительных расчетов на тестовом стенде FORSITE 750D (Intel Xeon E5-2667v3 3.2ГГц 8Cx2, 128 Гб оперативной памяти DDR4, SSD INTEL 240GB S3500 Series x2, Windows 8.1 Professional).
Расчет выполнялся для 1 миллиона частиц, движущихся по конвейерной линии в течение 10 секунд. Набор частиц включал как сферические, так и полигональные формы со скруглением – с тремя, пятью и семью углами.
Решение
Время расчета задачи на CPU c 4-мя ядрами для набора сферических частиц составило примерно 11 час 40 минут и 48 часов 50 минут для набора с несферическими частицами. Максимальный прирост скорости счета составил 11 раз для набора сферических частиц и 23 раз для набора с несферическими частицами. В обоих случаях лучшие результаты были получены на профессиональной видеокарте NVIDIA Quadro P6000.
Результаты расчета для набора сферических частиц
Результаты расчета для набора с несферическими частицами
Эффективность GPU при разных постановках задачи
Дальнейшее повышение эффективности расчета было обеспечено с использованием технологии мульти-GPU. Для тестирования этой функции использовалась альфа-версия готовящейся к выходу Rocky версии 4.х.
Сравнительный прирост эффективности вычислений для одной и двух видеокарт QUADRO P5000 использующихся одновременно составил для сферических частиц 2,2 раза и 1,4 для несферических.
С другой стороны, две видеокарты QUADRO P5000 в режиме мульти-GPU дают лучшие результаты, но не более чем на 5% относительно QUADRO P6000.
Эффективность вычислений с использованием технологии мульти-GPU
Основные выводы
- Использование GPU хорошо подходит для проведения вычислений методом DEM: в задачах, в которых используется большое количество частиц.
- Больший прирост производительности вычислений на GPU обеспечивается в расчетах с несферическими частицами
- Вычислительные алгоритмы, заложенные в Rocky DEM получают значительный прирост производительности от GPU NVIDIA:
- 11 – 23 раза по сравнению с 4-х ядерными рабочими станциями
- 4 – 10 раз по сравнению в 16-ти ядерными серверами
- На текущий момент Rocky поддерживает вычисления на одном чипе GPU. В следующей версии Rocky 4.0 это ограничение будет снято
- Следует обращать внимание на объем памяти GPU особенно для задач с несферическими частицами.
Применяемая в ROCKY технология выполнения расчётов на ядрах графической карты (GPU) повышает скорость решения задач и обеспечивает экономию средств на аппаратное обеспечение
РЕКОМЕНДОВАННЫЕ КОНФИГУРАЦИИ
Оптимальным решением является рабочая станция/сервер с мощным графическим процессором NVIDIA. Форм-фактор решателя определяет выбор GPU:
Серверы
- 4 CPU с 6-8 ядрами каждый
- Общий объем памяти от 128 до 192 ГБ
- Жесткий диск с минимум 2 ТБ
- Профессиональная GPU типа Tesla P100
Пример конфигурации: http://forsite-company.ru/configurator/73034/
Рабочие станции
- 2 CPU с 6-8 ядрами каждый
- Общий объем памяти 48 ГБ
- Минимальный объем твердотельной памяти 1 ТБ
- GPU:
- QUADRO P2000 (визуализация)
- QUADRO P5000 (вычисления)
Пример конфигурации: http://forsite-company.ru/configurator/73035/