APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS

Abstract

The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.

Authors and Affiliations

V. G. Penko, I. H. Gafar Abdula

Keywords

Related Articles

СИНТЕЗ И МОДЕЛИРОВАНИЕ РЕГУЛЯТОРА ДЛЯ ОБЪЕКТА С ИЗМЕНЯЮЩИМИСЯ ПАРАМЕТРАМИ SYNTHESIS AND MODELING OF THE REGULATOR FOR THE OBJECT WITH CHANGING PARAMETERS

Проведен синтез регулятора для объекта, параметры которого – коэффициент усиления и постоянная времени, могут изменяться в широких пределах. Заданная часть системы включает в себя исполнительный механизм (звено первого п...

АЛГОРИТМИЗАЦИЯ МЕТОДОВ ТОЧНОСТНОЙ ПАРАМЕТРИЧЕСКОЙ РЕДУКЦИИ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ALGORITHMIZATION OF THE METHODS OF THE ACCURATE PARAMETRIC REDUCTION OF MATHEMATICAL MODELS

На основе излагаемого принципа параметрической редукции предложены подходы к алгоритмизации процессов упрощения математических моделей, а также группа операций, обеспечивающих конструирование и эффективную реализацию соо...

ПАРАЛЕЛЬНІ АЛГОРИТМИ РОЗВ’ЯЗАННЯ ПРОСТОРОВОЇ ЗАДАЧІ ЦИФРОВОЇ ФІЛЬТРАЦІЇ ДАНИХ PARALLEL ALGORITHMS FOR SOLVING THE SPATIAL PROBLEM OF DATA DIGITAL FILTERING

У роботі запропоновано паралельні алгоритми з автономними гілками для розв’язання просто¬ро¬вої задачі цифрової фільтрації. Наведено оцінки прискорення, які підтвер¬джу¬ють високу ефе¬ктивність цих алгоритмів. Запропонов...

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕХНИЧЕСКОГО ОБСЛУЖИВАНИЯ СЛОЖНОГО ВОССТАНАВЛИВАЕМОГО ОБЪЕКТА БЕЗ УЧЕТА ЕГО СТРУКТУРЫ MATHEMATICAL MODEL OF TECHNICAL MAINTENANCE OF DIFFICULT REFURBISHABLE OBJECT WITHOUT ACCOUNT OF HIS STRUCTURE

В статье приведен анализ особенности технического обслуживания сложного восстанавливаемого объекта без учета его структуры и разработана соответствующая математическая модель. To the article the analysis of feature of te...

CONSTRUCTING OF MINIMAX CLASS OF PERFECT BINARY ARRAYS OF ORDER N = 6 FOR MULTI-CHANNEL CRYPTOGRAPHIC INFORMATION TRANSFER SYSTEM

This paper presents a method for constructing of the minimax class of perfect binary arrays with order N = 6. Maximum peak level of the two-dimensional periodic cross-correlation function between perfect binary arrays of...

Download PDF file
  • EP ID EP341622
  • DOI -
  • Views 124
  • Downloads 0

How To Cite

V. G. Penko, I. H. Gafar Abdula (2018). APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS. Інформатика та математичні методи в моделюванні, 8(2), 121-128. https://www.europub.co.uk/articles/-A-341622