<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Scientific Research and Development. Modern Communication Studies</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Scientific Research and Development. Modern Communication Studies</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Научные исследования и разработки. Современная коммуникативистика</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="online">2587-9103</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">1303</article-id>
   <article-id pub-id-type="doi">10.12737/2451</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>Коммуникативный текст</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>Communicative text</subject>
    </subj-group>
    <subj-group>
     <subject>Коммуникативный текст</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Indistinct Comparison of Texts by Modified Method of q-grams</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Нечеткое сравнение текстов модифицированным методом N-грамм</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Ельцова</surname>
       <given-names>М. Н.</given-names>
      </name>
      <name xml:lang="en">
       <surname>Eltsova</surname>
       <given-names>M. N.</given-names>
      </name>
     </name-alternatives>
     <email>maria_eltsova@mail.ru</email>
     <bio xml:lang="ru">
      <p>кандидат филологических наук;</p>
     </bio>
     <bio xml:lang="en">
      <p>candidate of philological sciences;</p>
     </bio>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Гашков</surname>
       <given-names>Александр Владимирович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Gashkov</surname>
       <given-names>Alexander Владимирович</given-names>
      </name>
     </name-alternatives>
     <email>gashkov@dom.raid.ru</email>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">Пермский национальный исследовательский политехнический университет</institution>
     <city>Пермь</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Perm National Research Politechnical University</institution>
     <city>Perm</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2014-02-10T00:00:00+04:00">
    <day>10</day>
    <month>02</month>
    <year>2014</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2014-02-10T00:00:00+04:00">
    <day>10</day>
    <month>02</month>
    <year>2014</year>
   </pub-date>
   <volume>3</volume>
   <issue>1</issue>
   <fpage>47</fpage>
   <lpage>49</lpage>
   <self-uri xlink:href="https://zh-szf.ru/en/nauka/article/1303/view">https://zh-szf.ru/en/nauka/article/1303/view</self-uri>
   <abstract xml:lang="ru">
    <p>Статья посвящена нечеткому сравнению текстов с помощью N-грамм&#13;
и фильтра Блума на материале официально-деловых, художественных и научных текстов на русском языке. Предлагаемый метод позволяет приблизительно оценить схожесть текстов.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>The paper is devoted to indistinct comparison of texts by means of q-grams&#13;
and Bloom’s-filter on a material of official, art and scientific texts in Russian.&#13;
The suggested method allows assess texts’ similarity approximately.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>компьютерная лингвистика</kwd>
    <kwd>нечеткое сравнение</kwd>
    <kwd>N-граммы</kwd>
    <kwd>фильтр Блума</kwd>
    <kwd>схожесть текстов.</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>computer linguistics; indistinct comparison; N-grams; Bloom’sfilter;&#13;
text similarity.</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p>Проблема нечеткого сравнения текстов является одной из актуальных прикладных задач не только для современной лингвистики, но и прикладной биологии, теории информации, текстологии и др. Существует несколько распространенных методов нечеткого сравнения, среди которых можно упомянуть:суффиксные деревья;вычисление расстояния редактирования;суффиксные массивы;N граммы [3].В нашей работе мы рассматриваем модифицированный метод N-грамм, сочетая сам метод с фильтром Блума. В широком смысле N-граммы (также называемые q-grams в англоязычной литературе) — это последовательность из N объектов одинаковой природы. Мы рассматриваем последовательности символов в печатном тексте. Так, для слова фрейлина можно выделить следующие 5-граммы (N = 5): фрейл, рейли, ейлин, йлина и 6-граммы: фрейли, рейлин, ейлина. Аналогично выделяются 2-, 3-, 4-, 7- и 8-граммы. Изменения, касающиеся самого метода, были произведены с целью минимизации объема дополнительных данных и максимизации скорости сравнения. Объем дополнительных данных может достигать значительных величин, в зависимости от N. Так, для произведения «Анна Каренина» Л.Н. Толстого количество 6 грамм превышает 70 тыс., занимая более полумегабайта памяти, что достаточно сильно замедляет автоматическую обработку текста.N-граммы уже достаточно широко используются в обработке естественного языка, в том числе для нечеткого поиска и сравнения (см., например, [1, 2, 5]).Фильтр Блума используется в прикладной лингвистике, например, в вероятностной модели перевода [4, с. 468–476]. Фильтр Блума работает следующим образом: для множества объектов A мощностью M задается функция (или несколько разных функций) отображения на множество натуральных чисел 1 … m, такое, что m &lt; M, при этом распределение отображения должно быть равномерным. Для каждого объекта, который нужно запомнить, вычисляется  функция отображения, и в таблице B размером m делается отметка в соответствующей ячейке. Так как m &lt; M, то неизбежно появление коллизий, т.е. разные объекты множества A будут обозначатся одним и тем же способом в таблице B. Этот эффект снижает точность метода, однако количество коллизий предсказуемо и регулируемо за счет изменения размера таблицы B. </p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Бойцов Л.М. Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска // Труды RCDL 2004. URL: http://rcdl.ru/doc/2004/paper27.pdf/</mixed-citation>
     <mixed-citation xml:lang="en">Boytsov L.M. Klassifikatsiya i eksperimental’noe issledovanie sovremennykh algoritmov nechetkogo slovarnogo poiska [Classification and experimental study of the vocabulary of modern algorithms for fuzzy search], 2004. Available at: http://rcdl.ru/doc/2004/paper27.pdf/</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Соловьев В.Д. Частотность как объект корпусных исследований // Труды международной конференции «Корпусная лингвистика - 2011». СПб.: С. Петербургский гос. ун-т, 2011. С. 328-332.</mixed-citation>
     <mixed-citation xml:lang="en">Solov’ev V.D. Chastotnost’ kak ob’ekt korpusnykh issledovaniy [Frequency as the object of case studies]. Trudy mezhdunarodnoy konferentsii «Korpusnaya lingvistika - 2011» [Proc. Int. Konf. «Corpus linguistics - 2011»]. St. Petersburg, S. Peterburgskiy gos. un-t Publ., 2011, pp. 328-332.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Navarro G., Baeza-Yates R., Sutinen E., Tarhio J. Indexing Methods for Approximate String Matching // IEEE Data Engineering Bulletin. 2001. № 24(4). P. 19-27. URL: http://www.dcc.uchile.cl/~gnavarro/ps/deb01.pdf/</mixed-citation>
     <mixed-citation xml:lang="en">Navarro G., Baeza-Yates R., Sutinen E., Tarhio J. Indexing Methods for Approximate String Matching // IEEE Data Engineering Bulletin. 2001. № 24(4). P. 19-27. URL: http:// www.dcc.uchile.cl/~gnavarro/ps/deb01.pdf/</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, 2007. June.</mixed-citation>
     <mixed-citation xml:lang="en">Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, 2007. June.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Ukkonen E. Approximate string-matching with q-grams and maximal matches // Theoretical Computer Science. 1992. Р. 191-211.</mixed-citation>
     <mixed-citation xml:lang="en">Ukkonen E. Approximate string-matching with q-grams and maximal matches // Theoretical Computer Science. 1992, pp. 191-211.</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
