<?xml version="1.0"?>
<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Vestnik of Don State Technical University</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Vestnik of Don State Technical University</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Вестник Донского государственного технического университета</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="print">1992-5980</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">11891</article-id>
   <article-id pub-id-type="doi">10.12737/19687</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>Информатика, вычислительная техника и управление</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>INFORMATION TECHNOLOGY, COMPUTER SCIENCE AND MANAGEMENT</subject>
    </subj-group>
    <subj-group>
     <subject>Информатика, вычислительная техника и управление</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Исследование влияния шаблона доступа к глобальной памяти графического процессора на производительность</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Исследование влияния шаблона доступа к глобальной памяти графического процессора на производительность</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Сухинов</surname>
       <given-names>Александр Иванович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Sukhinov</surname>
       <given-names>Aleksandr Иванович</given-names>
      </name>
     </name-alternatives>
     <email>sukhinov@gmail.com</email>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Арзуманян</surname>
       <given-names>Роман Вадимович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Arzumanyan</surname>
       <given-names>Roman Вадимович</given-names>
      </name>
     </name-alternatives>
    </contrib>
   </contrib-group>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2016-05-18T00:00:00+03:00">
    <day>18</day>
    <month>05</month>
    <year>2016</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2016-05-18T00:00:00+03:00">
    <day>18</day>
    <month>05</month>
    <year>2016</year>
   </pub-date>
   <volume>16</volume>
   <issue>2</issue>
   <fpage>105</fpage>
   <lpage>110</lpage>
   <self-uri xlink:href="https://zh-szf.ru/en/nauka/article/11891/view">https://zh-szf.ru/en/nauka/article/11891/view</self-uri>
   <abstract xml:lang="ru">
    <p>Целью данной работы является изучение влияния загруженности вычислительных ядер графического процессора и шаблона обращения к памяти на пропускную способность шины памяти и ускорение масштабирования. Предмет исследования — задача масштабируемости производительности параллельных вычислений и их ускорение. В ходе работы была проверена следующая гипотеза: при обработке изображений для многоядерных систем с общей памятью закон Густафсона — Барсиса более важен, нежели шаблон обращения к памяти при недостаточной загруженности вычислительных ядер графического процессора. Методология проведения исследования — вычислительный эксперимент с последующим анализом по-лученных данных. В ходе исследования подтверждена выдвинутая гипотеза. Для этого был проведен ряд экспериментов на различных гетерогенных вычислительных системах с поддержкой стандарта OpenCL. Анализ результатов позволяет сделать следующие выводы. Шаблон доступа к памяти начинает накладывать ограничения на производительность алгоритма только при достаточной загруженности вычислительных ядер. Видеокарты, оснащенные собственной памятью, показывают более стабильные результаты работы по сравнению с теми, что используют память, общую с центральным процессором. Область применения полученных данных — разработка алгоритмов и программного обеспечения для высокопараллельных вычислительных систем.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>The work objective is to study the effect of the graphical processor unit computational cores load level and memory access pattern on the memory bus bandwidth and scaling acceleration. The research subject is the problem of scalability of the parallel computing performance and acceleration. The following hypothesis is checked: while processing images for multi-core shared-memory systems, Gustafson – Barsis’s law is more crucial than the memory access template at the underloading of the GPU cores. The research methodology is a computational experiment with further analysis of the obtained results. The conclusions are as follows. The suggested hypothesis is proved. For that, a series of experiments on various heterogeneous computational systems with OpenCL standard support is conducted. The application field of the results obtained includes the development of algorithms and software for the highly parallel computer systems. The memory access template starts to place certain restrictions on the algorithm efficiency only when the load level of the computa-tional cores is sufficient. Video cards with the private memory show more stable results in comparison to those which share memory with the central processing unit.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>GPGPU</kwd>
    <kwd>доступ к памяти</kwd>
    <kwd>OpenCL.</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>GPGPU</kwd>
    <kwd>memory access pattern</kwd>
    <kwd>OpenCL.</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p>В настоящее время признано, что графические процессоры (graphical processing unit — GPU) явля-ются мощным инструментом решения задач, хорошо поддающихся распараллеливанию (General-purpose computing for graphics processing units, GPGPU — неспециализированные вычисления на графических процессорах). Однако лишь малая часть существующего программного обеспечения эффективно использует мощности графических процессоров. В качестве причин могут быть названы относительная новизна (широкое распространение технологии GPGPU получили в 2008–2010 гг.) и существенное архитектурное отличие от процессоров приложений (большее количество ядер,малый суммарный объем кэш-памяти). </p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">OpenCL Programming Guide for the CUDA Architecture / NVIDIA corporation. - Santa Clara : NVIDIA, 2009. - 60 p.</mixed-citation>
     <mixed-citation xml:lang="en">OpenCL Programming Guide for the CUDA Architecture. NVIDIA corporation. Santa Clara: NVIDIA, 200, 60 p.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">AMD Accelerated Parallel Processing OpenCL Programming Guide / Advanced Micro Devices. - Sunnyvale : ADM, 2013. - 294 p.</mixed-citation>
     <mixed-citation xml:lang="en">AMD Accelerated Parallel Processing OpenCL Programming Guide. Advanced Micro Devices. Sunnyvale: ADM, 2013, 294 p.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Mali T600 Series OpenCL GPU Developer Guide [Электронный ресурс] / ARM. - Режим доступа: http://infocenter.arm.com/help/topic/com.arm.doc.dui0538e/DUI0538E_mali_t600_opencl_dg.pdf (дата обращения: 16.04.16).</mixed-citation>
     <mixed-citation xml:lang="en">Mali T600 Series OpenCL GPU Developer Guide. ARM. Available at: http://infocenter.arm.com/help/topic/com.arm.doc.dui0538e/DUI0538E_mali_t600_opencl_dg.pdf (accessed: 16.04.16).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Сухинов, А. И. Двумерные схемы расщепления и некоторые их приложения / А. И. Сухинов // Москва : МАКС Пресс, 2005. - 408 с.</mixed-citation>
     <mixed-citation xml:lang="en">Sukhinov, А.I. Dvumernye skhemy rasshchepleniya i nekotorye ikh prilozheniya. [Two-dimensional splitting schemes and some of their applications.] Moscow: MAKS Press, 2005, 408 p. (in Russian).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Николаев, И. A. О распараллеливании треугольных итерационных методов на специализированной много-процессорной системе / И. A. Николаев, А. И. Сухинов, О. Д. Харина // Автоматика и телемеханика. - 1986. - Вып. 5. - С. 135-142. 6. Сухинов, А. И. Локально-двумерные схемы для решения многомерных параболических уравнений на вы-числительных системах матричного типа / А. И. Сухинов // Известия вузов. Математика. - 1984. - № 11. - С. 45-53.</mixed-citation>
     <mixed-citation xml:lang="en">Nikolayev, I.A., Sukhinov, А.I., Kharina, O.D. O rasparallelivanii treugol&amp;#180;nykh iteratsionnykh metodov na spetsi-alizirovannoy mnogoprotsessornoy sisteme. [On parallel application of triangular iterative methods in a special-purpose multi-processor system.] Avtomatika i Telemekhanika, 1986, iss. 5, pp. 135-142 (in Russian). 6. Sukhinov, А.I. Lokal&amp;#180;no-dvumernye skhemy dlya resheniya mnogomernykh parabolicheskikh uravneniy na vychislitel&amp;#180;nykh sistemakh matrichnogo tipa. [Locally two-dimensional schemes for solving multidimensional parabolic equa-tions in computer systems of matrix type.] Izvestiya VUZ. Matematika, 1984, no. 11, pp. 45-53 (in Russian).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Encyclopedia of Parallel Computing / Ed. D. Padua. - New York : Springer, 2011. - 2176 p.</mixed-citation>
     <mixed-citation xml:lang="en">Padua, D., ed. Encyclopedia of Parallel Computing. New York: Springer, 2011, 2176 p.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Quinn, M.-J. Parallel Programming in C with MPI and OpenMP / M.-J. Quinn. - New York : McGraw-Hill, 2003. - 516 p.</mixed-citation>
     <mixed-citation xml:lang="en">Quinn, M.-J. Parallel Programming in C with MPI and OpenMP. New York: McGraw-Hill, 2003, 516 p.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B8">
    <label>8.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">AMD Graphic Core Next [Электронный ресурс] / Advanced Micro Devices // AMD Fusion Developer Summit 2013. - Режим доступа: http://developer.amd.com/wordpress/media/2013/06/2620_final.pdf (дата обращения: 16.04.16).</mixed-citation>
     <mixed-citation xml:lang="en">AMD Graphic Core Next. Advanced Micro Devices. AMD Fusion Developer Summit 2013. Available at: http://developer.amd.com/wordpress/media/2013/06/2620_final.pdf (accessed 16.04.16).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B9">
    <label>9.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Global Internet Phenomena Report [Электронный ресурс] / Sandvine. - Режим доступа : https://www.sandvine.com/trends/global-internet-phenomena/ (дата обращения: 16.04.16).</mixed-citation>
     <mixed-citation xml:lang="en">Global Internet Phenomena Report. Sandvine. Available at: https://www.sandvine.com/trends/global-internet-phenomena/ (accessed: 16.04.16).</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
