Исследование крупного архива перед печатью намекает на географию плагиата

Новые исследования сотен тысяч технических рукописей, представленных arXiv, репозиторию цифровых статей перед печатью, предлагают некоторое интригующее понимание последствий — и географии — научного плагиата. Кажется, что копирование текста из других бумаг более распространено в некоторых странах, чем другие, но результатом обычно является то же для авторов, копирующих экстенсивно: Их бумаги не становятся процитированными очень.

Начиная с его основания в 1991, arXiv стал самым большим местом проведения в мире разделения результатов в физике, математике и других математических областях. Это ежедневно публикует сотни работ и быстро приближается к его миллионному подчинению. Любой может послать в газете, и подчинение не получает полную экспертную оценку. Однако бумаги действительно проходят процесс контроля качества.

Последняя проверка является компьютерной программой, сравнивающей текст газеты с текстом любой работы, уже опубликованной на arXiv. Цель состоит в том, чтобы сигнализировать бумаги, имеющие высокую вероятность того, что незаконно заимствовали изданную работу.

«Текстовое наложение» является техническим термином, и иногда это, оказывается, невинно. Например, статья обзора могла бы указать великодушно из газеты, которую цитирует автор, или автор мог бы переработать и немного обновить предложения от их собственной предыдущей работы. arXiv датчик плагиата дает таким бумагам проход. «Это – довольно современная машина, изучая логистический классификатор», говорит arXiv основатель Пол Джинспарг, физик в Корнелльском университете. «Это имеет специальные способы обнаружить кавычки блока, выделенный курсивом текст, текст в кавычках, также заявления математических теорем, для предотвращения ложных положительных сторон».

Только то, когда нет никакой очевидной причины автора скопировать значительные куски текста от уже изданной работы — особенно, если та предыдущая работа не цитируется и не имеет никакого наложения в авторстве — делает аффикс программного обеспечения «флаг» к статье, включая ссылки на бумаги, из которых это имеет текстовое наложение. Тот стандарт “намного более снисходителен», чем используемые большинством научных журналов, Джинспарг говорят.

Для исследования некоторых последствий «текстового повторного использования» Джинспарг и аспирант физики Корнелла Дэниел Ситрон сравнили текст от каждой из этих 757 000 статей, представленных arXiv между 1991 и 2012. Заголовок от того исследования, изданного в понедельник в Продолжениях Национальной академии наук (PNAS), то, что, чем больше текста газета занимается браконьерством от уже изданной работы, тем менее часто, что бумага склонна быть процитированной. (Полная бумага также доступна бесплатно на arXiv.) Это также нашло, что текстовое повторное использование удивительно распространено. После отфильтровывания статей обзора и законного цитирования, приблизительно каждый 16-й arXiv автор, как находили, скопировал длинные фразы и предложения от их собственной ранее изданной работы, составляющие в целом о той же сумме текста как эта вся статья. Более беспокойно, об одном из каждых 1000 из подчиняющихся авторов скопировал эквивалент ценности параграфа текста из бумаг других людей, не цитируя их.

Таким образом, где в мире все это текстовое повторное использование происходит? Заметно отсутствование из бумаги PNAS является глобальной картой потенциального плагиата. Каждый раз, когда автор представляет статью к arXiv, автор объявляет его или ее страну проживания.

Таким образом, должно быть возможно показать, какие страны имеют самую высокую пропорцию плагиаторов. Причина никакая карта не была включена, Джинспарг, сказала ScienceInsider, то, что все текстовое наложение, обнаруженное в их исследовании, является не обязательно плагиатом.Ginsparg действительно соглашался, однако, разделить ослабевающие данные arXiv с ScienceInsider. С 1 августа 2011, когда arXiv систематически начинал ослабевать для текстового наложения, 106 262 автора из 151 страны представили в общей сложности 301 759 статей. (Каждая бумага может иметь еще много соавторов.) В целом, 3,2% (9591) из бумаг сигнализировались.

Это не просто статьи, представленные в массе несколькими плохими яблоками, также. Те сигнализируемые бумаги произошли из 6% (6737) из подчиняющихся авторов. Другими словами, один из каждых 16 исследователей, представивших статью к arXiv с августа 2011, сигнализировался датчиком плагиата, по крайней мере, однажды.

Карта выше, подготовленный ScienceInsider, проявляет консервативный подход. Это показывает только уровень сигнализируемых авторов для этих 57 стран по крайней мере с 100 представленными статьями, для уменьшения искажения от размеров небольшой выборки. (В Эфиопии, например, существует только три подчиняющихся автора, и два из них сигнализировались.)

Исследователи из стран, представляющих львиную долю arXiv бумаг — США, Канады, и небольшого количества промышленно развитых стран в Европе и Азии — склонны заниматься плагиатом менее часто, чем исследователи в другом месте. Например, больше чем 20% (38 из 186) авторов, представивших статьи из Болгарии, сигнализировались, больше чем восемь раз пропорция из Новой Зеландии (пять из 207). В Японии приблизительно 6% (269 из 4 759) подчиняющихся авторов сигнализировались, по сравнению с более чем 15% (164 из 1 054) из Ирана.

Такие различия могут быть должны частично к различным академическим культурам, заявляют Ginsparg и Citron в их исследовании PNAS. Они записывают научный плагиат на свой счет к «различиям в академической инфраструктуре и менторстве или стимулах, подчеркивающих количество публикации по качеству».

*Исправление, 11 декабря, 16:57: карта была исправлена для отражения текущих национальных границ.


Блог Александрии