Необходимо умножить матрицу A на матрицу B, порядок вычислений и ограничения можно посмотреть например тут: http://www.mathprofi.ru/deistviya_s_matricami.html
Работать будем с типом данных DBL. На сайте BLAS, смотрим описание функций, нам подходит функция DGEMM - matrix matrix multiply. В GPU Analysis Toolkit ей соответствует функция xGEMM: http://zone.ni.com/reference/en-XX/help ... gpu_xgemm/ , функция подстраивается под предопределенный тип данных.
Ну и не забываем, что для корректного умножения, необходимо соблюдать правило: количество строк первой матрицы = количеству столбцов второй.
Сразу не пугайтесь, кубиков много на BD, но все понятно

1. Инициализация GPU.
2. Инициализация библиотеки cuBLAS.
3, 4. Резервирование области памяти GPU и загрузка в нее значений переменных A и B.
5. Резервирование области памяти GPU под результат расчетов, туда будет сохранены значения C.
6. Собственно, передаем команду на вычисление. Функция xGEMM выполняет вычисления по формуле aAB+bC. По этому для перемножения задаем значения a=1, b=0. Так же передаются значения m, n, k - размерность матриц.
7. Выгрузка результатов вычислений из GPU -матрица C.
8, 9, 10. Очистка памяти GPU.
11, 12. Отключение библиотеки и GPU.
Все логично и понятно.
Все что не вошло в квадраты, нацелено на вычисление размерности матриц и инициализации матрицы C.