<?xml version="1.0"?>
<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Clusters. Research and Development</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Clusters. Research and Development</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Кластеры. Исследования и разработки</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="print">2414-9047</issn>
   <issn publication-format="online">2414-9047</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">15155</article-id>
   <article-id pub-id-type="doi">10.12737/24250</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>Специальный выпуск с материалами проекта «Компетентностная Платформа» в рамках социально-значимого проекта «Компетентностная тяга» по Договору о предоставлении гранта от 13.08.2015 г. № Г-282-1/15 с Фондом ИСЭПИ</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>Special edition with the project materials &amp;#34;Competence Platform&amp;#34; in the socially significant Project &amp;#34;Competence Rod&amp;#34; under the Treaty grant from 13.08.2015, the number D-282-1 / 15 with Foundation ISEP</subject>
    </subj-group>
    <subj-group>
     <subject>Специальный выпуск с материалами проекта «Компетентностная Платформа» в рамках социально-значимого проекта «Компетентностная тяга» по Договору о предоставлении гранта от 13.08.2015 г. № Г-282-1/15 с Фондом ИСЭПИ</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Data Science: needed competences and applications</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Наука о данных: требуемые компетенции и их применение</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Валенсия</surname>
       <given-names>Джордж М</given-names>
      </name>
      <name xml:lang="en">
       <surname>Valensiya</surname>
       <given-names>Dzhordzh М</given-names>
      </name>
     </name-alternatives>
     <email>info@galacticabiotech.com</email>
    </contrib>
   </contrib-group>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2016-11-01T00:00:00+03:00">
    <day>01</day>
    <month>11</month>
    <year>2016</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2016-11-01T00:00:00+03:00">
    <day>01</day>
    <month>11</month>
    <year>2016</year>
   </pub-date>
   <volume>2</volume>
   <issue>3</issue>
   <fpage>45</fpage>
   <lpage>49</lpage>
   <self-uri xlink:href="https://zh-szf.ru/en/nauka/article/15155/view">https://zh-szf.ru/en/nauka/article/15155/view</self-uri>
   <abstract xml:lang="ru">
    <p>Наука о данных - это междисциплинарная область, призванная извлекать, визуализировать и&#13;
генерировать знания из данных. Профессионалы, работающие в этой области, должны обладать&#13;
комбинацией компетенций в сфере математики, статистики, информационных технологий с целью&#13;
успешного внедрения проектов по анализу данных, в которых постоянно растет запрос на профессионалов,&#13;
обладающих способностью успешно применять эти знания различных областях от бизнеса до государства,&#13;
Стр.&#13;
45-49&#13;
46&#13;
академических и некоммерческих организациях.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>Data science is an interdisciplinary area used to extract, visualize, analyze and generate knowledge from&#13;
data. The professionals in this area require a combination of mathematic, statistics, IT-competences in order to&#13;
successfully develop data analysis projects where there is a growing demand of data professionals to apply their&#13;
knowledge effectively to diverse areas from business to government, academia and non-profit organizations.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>наука о данных</kwd>
    <kwd>компетенции</kwd>
    <kwd>машинное обучение</kwd>
    <kwd>профессионализм</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>data science</kwd>
    <kwd>competences</kwd>
    <kwd>machine learning</kwd>
    <kwd>professionalism</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p>Наука о данных это междисциплинарная область, призванная извлекать,визуализировать и генерировать знания из данных. Она включает в себяприменение  компетенций  в  области  статистки,  высшей  математики,информационных технологий. И, если ранее наука о данных могла бытьпредставлена в качестве одной из комплексных технологий, используемых толькокомпаниями или исследовательскими центрами, то в наше время эту науку трудноне применять (вытеснить или не заметить) в повседневной жизни [4].Рассмотрим деятельность специалиста в области науки о данных дляпоступательного изучения необходимых знаний и навыков в рамках содержанияпрофессиональной активности. В данной статье мы разделим компетенции,требуемые профессионалу в данной области на специфические и общие(междисциплинарные).Для выявления специфических компетенций специалистов в областибольших данных необходимо подробно рассмотреть состав профессиональнойдеятельности и операций, выполняемых данными специалистами в процессе еереализации. Наука о данных требует множества шагов, один из которых -получение данных; этот шаг требует объединения всех данных, которые подлежатанализу. Они могут поступать из баз данных или из различных источников, кпримеру, извлечение цен или поиск одного из множества образцов с различныхинтернет-сайтов («web scarping»), извлечение текста из статей или сбор данныхдля различных баз данных. Данные могут быть представлены в различныхформатах, не только в виде текста или цифр, но также в виде изображений, видеои звуков.Очистка данных относится к воспроизводству последовательных форматовданных, без пропуска значений, однако, когда это не представляется возможным,пропущенные значения должны быть соответственным образом отмечены илиудалены (перед оценкой влияния этих действий на структуру данных). Основнойвариант представления данных - это соответствие каждого ряда набора данныхсоответствующим  переменным  и  каждой  строки  -  соответствующемунаблюдению [2].Трансформация данных может подразумевать генерацию подмножестваданных (например, выбор покупателей специфического возраста), генерациюновых переменных (например, вычисление индекса массы тела списка людей,используя данные о их весе тела и росте) и генерация статистических генерациястатистических величин, к примеру таких, как средние значения.Визуализация данных помогает получить представление об основныхтрендах и тенденциях в данных, которые могут быть использованы длясоставления гипотез или вопросов. Для старта работы в этом направлении несуществует каких-либо специфических методов. Диаграммы, гистограммы,диаграммы рассеяния (2D/3D), наборы структурированных данных («tree map»,«heat map» и другие являются типичными методами, однако, данные следует47представлять  используя  множество  методов,  комбинируя  различныеподмножества данных и нормализуя их в случае необходимости [3].Моделирование данных позволяет дать ответ на ранее сформулированныйвопрос,  этот  шаг требует нескольких итераций  в последовательности,направленной на усовершенствование модели. В целом данные разделяют на 2части, определяя 80% данных к генерированию модели и 20% данных - ктестированию данной модели.Системная последовательность данных операций (рисунок 1).Рис. 1 Общая схема системной последовательности операций специалиста вобласти науки о данныхВ итоге, представление результатов обобщает проделанную работу. Оченьчасто в бизнесе целевая аудитория, осуществляющая запрос на работуспециалиста в области науки о данных - это люди, не специализирующиеся вобласти науки о данных (к примеру, менеджеры или директора), которые требуютбыстрого и четкого ответа на свой запрос для того, чтобы принять решение,основывающееся на запрошенной информации [1]. Наука о данных требуетиспользование множества дисциплин с целью создания нового знания. Это вбольшинстве случаев следует из использования разнообразных методовмашинного обучения («machine learning methods»). Машинное обучение - это видискусственного интеллекта, в котором компьютеры применяют сгенерированныепрограммы с целью изучения анализа данных, таким образом, что данныепрограммы могут расти и эволюционировать при возникновении новых данных.Если используемые данные превышают емкость запоминающего устройствамашины (на жестком диске или в памяти), то они могут быть рассмотрены вкачестве больших объемов данных (например, больше, чем один терабайт). Этотребует использования нескольких компьютеров и дополнительных методов дляразделения данных на более мелкие части для обработки и интеграциирезультатов.  «Hadoop»  является  общим  программным  обеспечением,используемым в данном случае [7].Специфические знания из области науки о данных в процессе овладенияими и применения их специалистами, работающими в реальном секторе48экономики, переходят в область каждодневных показателей, отражающих жизньлюдей. В качестве примера здесь может служить анализ уровня зарядкимобильных телефонов, представленный специалистами в области большихданных по запросу услуг такси Убер («Uber») - так, исследование помоглоустановить, что клиенты с низким уровнем зарядки телефонов с гораздо большейвероятностью соглашались на более высокую стоимость услуг такси [6]. Кпримерам применения науки о данных в реальной жизни можно также отнестипрогноз погоды, анализ настроения и чувств людей на основе их постов всоциальных сетях или вычисление возможности встретить определенногочеловека в определенном месте, основанной на данных, полученных из егомобильного устройства.Рисунок ниже демонстрирует базовую диаграмму Венна, позволяющуювыявить сферы, используемые в науке о данных. Выделенные области являютсябазовыми областями знаний и компетенций специалистов, работающих в сференауки о данных: Data Science - наука о данных, Data Mining - сбор данных,Artificial Intelligence - искусственный интеллект, Machine Learning - машинноеобучение, Big Data - большие данные. Все эти направления формируютспецифический профиль знаний специалиста и направления его специфическогопрофессионального развития и постоянного обновления знаний. Рисунок 2. Сферы научногознания,  включающие  полекомпетенций специалиста вобласти науки о данных.Специалисты в областиданных  должны  обладатьшироким  профилемкомпетенций,  высокимуровнем знания математики истатистики  (статистическоемоделирование,  Байесовскийвывод, алгебра). Одним изважных  аспектов  являетсязнание  языкаструктурированных  запросов(SQL), а также управлениебазами  данныхнеструктурированных запросов(noSQL).Такие языки программирования, как «R» и «Python» являются оченьпопулярными среди языков программирования, используемых в области науки оданных, они являются бесплатными и расположены в открытых источниках,таким образом их наиболее легко можно подстроить под специфическиетребования. Также оба из них включают в себя широкое разнообразие библиотекDataArtificial Intelligence DataMiningMachineLearningBig Data49для различных целей, включающих машинное обучение, анализ временных рядов,анализ текста, анализ изображений, количественный финансов.Современные условия предоставляют широкий спектр возможностейобучения и самообучения для молодых людей, желающих выстроить карьеру внаправлении науки о данных, а также постоянного развития для ужесостоявшихся специалистов, реализующих себя в данной сфере.Таким  образом,  мы  можем  составить  определенный  конструкторспецифических  знаний  и  компетенций,  требующийся  для  развитияпрофессионализма в данной области. С учетом особенностей компетентностногоподхода мы можем утверждать, что любые специфические компетенциинапрямую  связанные  с  междисциплинарными,  общими  компетенциями,требуемые специалистам, работающим в данной области. К примере, мы можемотметить, что представленная на рисунке 1 последовательность операций, нарядусо специфическими данными требует от специалиста наличия таких качеств икомпетенций, как аналитический склад ума, умение работать с большимколичеством  информации,  внимательность,  системность  мышления.Профессионалы в области данных также должны понимать основы бизнес-мышления и взаимодействия с клиентом, так как применение используемых имиметодов в результате находит отражение в практической деятельности компанийв реальном секторе экономики. Среди важных факторов также можно отметитькоммуникационные  и  презентационные  навыки  [2],  необходимые  длявыстраивания успешной карьеры, налаживания профессиональных связей,эффективного взаимодействия с работодателем и клиентами.Ежедневно растет количество данных, генерируемое в интернете, спомощью различных инструментов и транзакций, мобильных устройств. Этоттренд будет только усиливаться, количество данных будет постоянно расти, чтоповлечет увеличение спроса на профессионалов в области данных и примененияих компетенций в различных областях от бизнеса до государства, вакадемических и некоммерческих организациях. Вместе с тем, это увеличит итребования к качеству знаний и компетенций специалистов в данной области,будет требовать от них неустанного развития компетенций и совершенствованияв качестве профессионалов.</p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Foster Provost, Tom Fawcett (2013) Data Science for Business: What you need to know about data mining and data-analytic thinking</mixed-citation>
     <mixed-citation xml:lang="en">Foster Provost, Tom Fawcett (2013) Data Science for Business: What you need to know about data mining and data-analytic thinking</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Hadley Wickham, Garrett Grolemund (2016) R for Data Science.</mixed-citation>
     <mixed-citation xml:lang="en">Hadley Wickham, Garrett Grolemund (2016) R for Data Science.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Joe Larson (2015) Data Science in the Cloud with Microsoft Azure Machine Learning and R</mixed-citation>
     <mixed-citation xml:lang="en">Joe Larson (2015) Data Science in the Cloud with Microsoft Azure Machine Learning and R</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Lillian Pierson (2015) Data Science For Dummies, 1st Edition</mixed-citation>
     <mixed-citation xml:lang="en">Lillian Pierson (2015) Data Science For Dummies, 1st Edition</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Probably Overthinking It [Электронный ресурс] URL: http://allendowney.blogspot.com/2015/03/bayesian-survival-analysis-for-game-of.html</mixed-citation>
     <mixed-citation xml:lang="en">Probably Overthinking It [Elektronnyy resurs] URL: http://allendowney.blogspot.com/2015/03/bayesian-survival-analysis-for-game-of.html</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">The Telegraph. Business [Электронный ресурс] URL: http://www.telegraph.co.uk/business/2016/05/22/uber-app-can-detect-when-a-users-phone-is-about-to-die/</mixed-citation>
     <mixed-citation xml:lang="en">The Telegraph. Business [Elektronnyy resurs] URL: http://www.telegraph.co.uk/business/2016/05/22/uber-app-can-detect-when-a-users-phone-is-about-to-die/</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Vignesh Prajapati (2013) Big Data Analytics with R and Hadoop Ebook</mixed-citation>
     <mixed-citation xml:lang="en">Vignesh Prajapati (2013) Big Data Analytics with R and Hadoop Ebook</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
