Национальный корпус русского языка 2.0: новые возможности и перспективы развития

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

В статье подводятся итоги проекта фундаментальной реконструкции и модернизации платформы Национального корпуса русского языка, осуществленного в 2020–2023 гг. В фокусе статьи новые возможности, которые открываются для лингвистов и более широкой аудитории, в частности, улучшение репрезентативности имеющихся корпусов, создание новых корпусов, новая разметка, полученная с помощью применения нейросетевых моделей, новые интерфейсные решения. Более детально рассматриваются три ярких новых компонента: ресурсный — новый корпус «Социальные сети», поисковый — Панхронический корпус, объединяющий поиск по корпусам разных периодов, и аналитический — функциональный комплекс статистики и визуализации данных.

Полный текст

Доступ закрыт

Об авторах

Светлана Олеговна Савчук

Институт русского языка им. В. В. Виноградова РАН

Автор, ответственный за переписку.
Email: savsvetlana@mail.ru
Россия, Москва

Тимофей Александрович Архангельский

Университет Гамбурга

Email: timarkh@gmail.com
Германия, Гамбург

Анастасия Александровна Бонч-Осмоловская

Национальный исследовательский университет «Высшая школа экономики»; Институт проблем передачи информации им. А. А. Харкевича РАН

Email: abonch@gmail.com
Россия, Москва; Москва

Ольга Валерьевна Донина

Воронежский государственный университет

Email: olga-donina@mail.ru
Россия, Воронеж

Юлия Николаевна Кузнецова

Московский государственный университет имени М. В. Ломоносова; Институт проблем передачи информации им. А. А. Харкевича РАН

Email: kuznetsova.yn@gmail.com
Россия, Москва; Москва

Ольга Николаевна Ляшевская

Национальный исследовательский университет «Высшая школа экономики»; Институт русского языка им. В. В. Виноградова РАН

Email: olesar@yandex.ru
Россия, Москва; Москва

Борис Валерьевич Орехов

Национальный исследовательский университет «Высшая школа экономики»

Email: nevmenandr@gmail.com
Россия, Москва

Мария Владимировна Подрядчикова

Email: mpodr2015@gmail.com
Россия

Список литературы

  1. Бергельсон 2002 — Бергельсон М. Б. Языковые аспекты виртуальной коммуникации (Языковое поведение в сети Интернет). Вестник МГУ. Сер. 19. Лингвистика и межкультурная коммуникация, 2002, 1: 55–67. [Bergel’son M. B. Linguistic aspects of virtual communication (Linguistic behavior on the Internet). Vestnik MGU. Ser. 19. Lingvistika i mezhkul’turnaya kommunikatsiya, 2002, 1: 55–67.]
  2. Гаврилова и др. 2016 — Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. Вестник ПСТГУ. Серия III: Филология, 2016, 2(47): 7–25. [Gavrilova T. S., Shalganova T. A., Lyashevskaya O. N. On the problem of automatic lexical and grammatical markup in the Old Russian corpus of the XV–XVII centuries. Vestnik PSTGU. Seriya III: Filologiya, 2016, 2(47): 7–25.]
  3. Гладилин, Козеренко 2022 — Гладилин С., Козеренко А. Новый интерфейс поиска для НКРЯ: системное описание и реализация. Информационные технологии и системы 2022 (ИТС 2022): материалы конференций. Шилин Л. Ю. и др. (ред.). Минск: БГУИР, 2022, 113–121. [Gladilin S., Kozerenko A. The new search interface for the RNC: System description and implementation. Informatsionnye tekhnologii i sistemy 2022 (ITS 2022). Conf. proc. Shilin L. Yu. et al. (eds.). Minsk: Belarusian State Univ. of Informatics and Radioelectronics, 2022, 113–121.]
  4. Горошко 2007 — Горошко Е. И. Теоретический анализ Интернет-жанров: к описанию проблемной области. Жанры речи: Сб. науч. ст. Вып. 5. Жанр и культура. Дементьев В. В. (ред.). Саратов: Наука, 2007, 119–127. [Goroshko E. I. Theoretical analysis of Internet genres: Towards a description of the problem area. Zhanry rechi. Coll. of papers. No. 5. Zhanr i kul’tura. Dement’ev V. V. (ed.). Saratov: Nauka, 2007, 119–127.]
  5. Горошко, Землякова 2017 — Горошко Е. И., Землякова Е. А. Полиформатный мессенджер как жанр 2.0 (на примере мессенджера мгновенных сообщений Telegram). Жанры речи, 2017, 1(15): 92–100. [Goroshko E. I., Zemlyakova E. A. A multi-format messenger as a genre 2.0 (on the example of the Telegram instant messenger). Zhanry rechi, 2017, 1(15): 92–100.]
  6. Дементьев 2016 — Дементьев В. В., Степанова Н. Б. Корпусная генристика: проблема ключевых фраз. Жанры речи, 2016, 1(13): 24–41. [Dement’ev V. V., Stepanova N. B. Corpus genristics: The problem of key phrases. Zhanry rechi, 2016, 1(13): 24–41.]
  7. Донина и др. 2024 (в печати) — Донина О. В., Фурсина Д. А., Горбунов Н. С. Создание регионального подкорпуса: от идеи до воплощения. Труды международной конференции «Корпусная лингвистика-2023» (в печати). [Donina O. V., Fursina D. A., Gorbunov N. S. Creation of a regional subcorpus: From idea to implementation. Trudy mezhdunarodnoi konferentsii «Korpusnaya lingvistika-2023» (in print).]
  8. Егорова 2021 — Егорова В. И. Социальные сети и их речевые жанры. Russian Linguistic Bulletin, 2021, 3(27): 123–128. [Egorova V. I. Social networks and their speech genres. Russian Linguistic Bulletin, 2021, 3(27): 123–128.]
  9. Зализняк 2004 — Зализняк А. А. Древненовгородский диалект. М.: Языки славянской культуры, 2004. [Zaliznyak A. A. Drevnenovgorodskii dialekt [Old Novgorod dialect]. Moscow: Yazyki slavyanskoi kul’tury, 2004.]
  10. Зализняк 2024 — Зализняк А. А. Слово о полку Игореве: взгляд лингвиста. 4-е изд. М.: Альпина, 2024. [Zaliznyak A. A. Slovo o polku Igoreve: vzglyad lingvista [The Tale of Igor’s Campaign: A linguist’s view]. Moscow: Al’pina, 2024.]
  11. Иванов 2000 — Иванов Л. Ю. Язык интернета: заметки лингвиста. Словарь и культура русской речи. М.: Азбуковник, 2000, 131–147. [Ivanov L. Yu. The language of the Internet: Notes of a linguist. Slovar’ i kul’tura russkoi rechi. Moscow: Azbukovnik, 2000, 131–147.] http://faq-www.ru/lingv.htm.
  12. Какорина 2008 — Какорина Е. В. СМИ и интернет-коммуникация (интернет-форум как новый коммуникативно-речевой жанр). Современный русский язык: активные процессы на рубеже XX–XXI веков. Крысин Л. П. (отв. ред.). М.: Языки славянских культур, 2008, 549–578. [Kakorina E. V. Mass media and Internet communication (Internet forum as a new communicative and speech genre). Sovremennyi russkii yazyk: aktivnye protsessy na rubezhe XX–XXI vekov. Krysin L. P. (ed.). Moscow: Yazyki slavyanskikh kul’tur, 2008, 549–578.]
  13. Капанадзе 2005 — Капанадзе Л. А. На границе письменного и устного текста: структура и тенденции развития электронных жанров. Голоса и смыслы. Избранные работы по русскому языку. М.: ИРЯ РАН, 2005, 305–320. [Kapanadze L. A. On the border of written and oral text: The structure and trends in the development of electronic genres. Golosa i smysly. Izbrannye raboty po russkomu yazyku. Moscow: Vinogradov Russian Language Institute, 2005, 305–320.]
  14. Карасик 2019 — Карасик В. И. Жанры сетевого дискурса. Жанры речи, 2019, 1(21): 49–55. [Karasik V. I. Genres of online discourse. Zhanry rechi, 2019, 1(21): 49–55.]
  15. Кириллов 2017 — Кириллов А. Г. Трансформация жанра блога в программах обмена мгновенными сообщениями. Жанры речи, 2017, 2(16): 260–267. [Kirillov A. G. The transformation of the blog genre in instant messaging programs. Zhanry rechi, 2017, 2(16): 260–267.]
  16. Кузнецова, Ефремова 1986 — Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. М.: Русский язык, 1986. [Kuznetsova A. I., Efremova T. F. Slovar’ morfem russkogo yazyka [Dictionary of morphemes of the Russian language]. Moscow: Russkii yazyk, 1986.]
  17. Кузьмина 2003 — Кузьмина М. В. Компьютерный вид общения «чат» как жанр естественной письменной речи: основные характеристики. Естественная письменная русская речь: исследовательский и образовательный аспекты: материалы конф. Ч. II: Теория и практика современной письменной речи. Голев Н. Д. (ред.). Барнаул: Изд-во Алтайского ун-та, 2003, 86–91. [Kuz’mina M. V. Computer speech style “chat” as a genre of natural written speech: Basic features. Estestvennaya pis’mennaya russkaya rech’: issledovatel’skii i obrazovatel’nyi aspekty. Conf. proc. P. II: Teoriya i praktika sovremennoi pis’mennoi rechi. Golev N. D. (ed.). Barnaul: Altai State Univ. Press, 2003, 86–91.]
  18. Литвиненко 2016 — Литвиненко Ж. М. Современная русистика о жанрах интернет-коммуникации: форум, блог, чат. Вестник ТГПУ, 2016, 3(168): 48–52. [Litvinenko Zh. M. Modern Russian studies on the genres of Internet communication: forum, blog, chat. TSPU Bulletin, 2016, 3 (168): 48–52.]
  19. Ляшевская и др. 2009 — Ляшевская О., Гришина Е., Тагабилева М., Иткин И. О задачах и методах словообразовательной разметки в корпусе текста. Полярный вестник, 2009, 12: 5–25. [Lyashevskaya O., Grishina E., Tagabileva M., Itkin I. On the tasks and methods of word-formation markup in a text corpus. Polyarnyi vestnik, 2009, 12: 5–25.]
  20. Ляшевская, Шаров 2009 — Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. [Lyashevskaya O. N., Sharov S. A. Chastotnyi slovar’ sovremennogo russkogo yazyka (na materialakh Natsional’nogo korpusa russkogo yazyka) [Frequency dictionary of contemporary Russian based on the Russian National Corpus data]. Moscow: Azbukovnik, 2009.]
  21. Мишина, Пичхадзе 2015 — Мишина Е. А., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка. Труды Института русского языка им. В. В. Виноградова, 2015, 6: 99–115. [Mishina E. A., Pichkhadze A. A. The Old Russian subcorpus of the Russian National Corpus. Proceedings of the V. V. Vinogradov Russian Language Institute, 2015, 6: 99–115.]
  22. Рахилина и др. 2009 — Рахилина Е. В., Кустова Г. И., Ляшевская О. Н., Резникова Т. И., Шеманаева О. Ю. Задачи и принципы семантической разметки лексики в НКРЯ. Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. Плунгян В. А. (отв. ред.). СПб.: Нестор-История, 2009, 215–239. [Rakhilina E. V., Kustova G. I., Lyashevskaya O. N., Reznikova T. I., Shemanaeva O. Yu. Tasks and principles of semantic markup of lexicon in the RNC. Natsional’nyi korpus russkogo yazyka: 2006–2008. Novye rezul’taty i perspektivy. Plungian V. A. (ed.). St. Petersburg: Nestor-Istoriya, 2009, 215–239.]
  23. Сичинава 2005 — Сичинава Д. В. Национальный корпус русского языка: очерк предыстории. Национальный корпус русского языка: 2003–2005. Плунгян В. А. (отв. ред.). М.: Индрик, 2005, 21–30. [Sitchinava D. V. Russian National Corpus: An outline of the prehistory. Natsional’nyi korpus russkogo yazyka: 2003–2005. Plungian V. A. (ed.). Moscow: Indrik, 2005, 21–30.]
  24. Сичинава 2016 — Сичинава Д. В. Старорусские/среднерусские тексты в НКРЯ: от экстенсивной коллекции к корпусу. Rašytinis palikimas ir skaitmeninė technologijos: VI tarptautinė mokslinė konferencija, Vilnius, 2016 m. rugpjūčio 22–28 d. Vilnius: Lietuvos mokslo taryba, 2016, 208–210. [Sitchinava D. V. Old/Middle Russian texts in the RNC: from an extensive collection to a corpus. Rašytinis palikimas ir skaitmeninė technologijos: VI tarptautinė mokslinė konferencija, Vilnius, 2016 m. rugpjūčio 22–28 d. Vilnius: Lietuvos mokslo taryba, 2016, 208–210.]
  25. Сичинава 2022 — Сичинава Д. В. Корпус берестяных грамот как параллельный. Труды Института русского языка им. В. В. Виноградова, 2022, 2: 92–106. [Sitchinava D. V. The corpus of birch bark letters as a parallel corpus. Proceedings of the V. V. Vinogradov Russian Language Institute, 2022, 2: 92–106.]
  26. Сичинава 2024 — Сичинава Д. В. Панхронический корпус: интеграция исторических и современных корпусных ресурсов. Труды Института русского языка им. В. В. Виноградова, 2: 336–353. [Sitchinava D. V. A panchronic corpus: Integration of historical and contemporary corpus resources. Proceedings of the V. V. Vinogradov Russian Language Institute, 2: 336–353.]
  27. Тихонов 2002 — Тихонов А. Н. Морфемно-орфографический словарь: около 100 000 слов. М.: АСТ, 2002. [Tikhonov A. N. Morfemno-orfograficheskii slovar’: okolo 100 000 slov [Morphemic and spelling dictionary: about 100,000 words]. Moscow: AST, 2002.]
  28. Трофимова 2004 — Трофимова Г. Н. Функционирование русского языка в Интернете: концептуально-сущностные доминанты. Автореф. дис. … докт. филол. наук. М.: РУДН, 2004. [Trofimova G. N. Funktsionirovanie russkogo yazyka v Internete: kontseptual’no-sushchnostnye dominanty [The functioning of the Russian language on the Internet: conceptual and essential dominants]. Abstract of cand. diss. Moscow: RUDN Univ., 2004.]
  29. Шилихина 2018 — Шилихина К. М. Лексические маркеры жанров интернет-коммуникации. Жанры речи, 2018, 3(19): 218–225. [Shilikhina K. M. Lexical markers of Internet communication genres. Zhanry rechi, 2018, 3(19): 218–225.]
  30. Шмелева 2012 — Шмелева Т. В. Жанр в современной медиасфере. Жанры речи: сб. науч. ст. Вып. 8. Жанр и творчество. Дементьев В. В. (ред.). Саратов; М.: Лабиринт, 2012, 26–37. [Shmeleva T. V. Genre in the modern media sphere. Zhanry rechi. Coll. of papers. No. 8. Zhanr i tvorchestvo. Dement’ev V. V. (ed.). Saratov; Moscow: Labirint, 2012, 26–37.]
  31. Щипицина 2009 — Щипицина Л. Ю. Жанры компьютерно-опосредованной коммуникации. Архангельск: Поморский ун-т, 2009. [Shchipitsina L. Yu. Zhanry komp’yuterno-oposredovannoi kommunikatsii [Genres of computer-mediated communication]. Arkhangelsk: Pomor State Univ., 2009.]
  32. Adams, Vincent (eds.) 2016 — Adams J. N., Vincent N. (eds.). Early and Late Latin continuity or change Cambridge: Cambridge Univ. Press, 2016.
  33. Davies 2010 — Davies M. The Corpus of Historical American English (COHA). Electronic resource, 2010. https://www.english-corpora.org/coha/.
  34. Evert, Krenn 2003 — Evert S., Krenn B. Computational approaches to collocations. Introductory course at the European Summer School on Logic, Language, and Information (ESSLLI 2003), Vienna. 2003. www.collocations.de.
  35. Lyashevskaya et al. 2020 — Lyashevskaya O. N., Shavrina T. O., Trofimov I. V., Vlasova N. A. GRAMEVAL 2020 shared task: Russian full morphology and universal dependencies parsing. Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог», 2020, 19: 553–569. [Lyashevskaya O. N., Shavrina T. O., Trofimov I. V., Vlasova N. A. GRAMEVAL 2020 shared task: Russian full morphology and universal dependencies parsing. Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conf. “Dialogue”, 2020, 19: 553–569.]
  36. Lyashevskaya et al. 2023 — Lyashevskaya O., Afanasev I., Rebrikov S, Shishkina Y., Suleymanova E., Trofimov I., Vlasova N. Disambiguation in context in the Russian National Corpus: 20 years later. Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог», 2023, 2: 307–318. [Lyashevskaya O., Afanasev I., Rebrikov S, Shishkina Y., Suleymanova E., Trofimov I., Vlasova N. Disambiguation in context in the Russian National Corpus: 20 years later. Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conf. “Dialogue”, 2023, 22: 307–318.]
  37. Morozov et al. 2022 — Morozov D. A., Glazkova A. V., Iomdin B. L. Text complexity and linguistic features: their correlation in English and Russian. Russian Journal of Linguistics, 2022, 2(26): 425–447.
  38. Roelli 2014 — Roelli Ph. The Corpus Corporum, a new open Latin text repository and tool. Archivum Latinitatis Medii Aevi: Bulletin Du Cange, 2014, 72: 289–304.
  39. Sitchinava, Dyshkant 2021 — Sitchinava D., Dyshkant A. Integration of the Old East Slavic epigraphical databases, corpora and indices. Scripta & e-Scripta: The Journal of Interdisciplinary Medieval Studies, 2021, 21: 93–106.
  40. Sitchinava 2023 — Sitchinava D. Multiple interpretation and fragmented texts within a historical corpus: the case of Old East Slavic vernacular writing. Jazykovedný časopis, 2023, 74(1): 266–274.
  41. Sorokin, Kravtsova 2018 — Sorokin A., Kravtsova A. Deep convolutional networks for supervised morpheme segmentation of Russian language. Artificial Intelligence and Natural Language. AINL 2018. Communications in Computer and Information Science. Ustalov D., Filchenkov A., Pivovarova L., Žižka J. (eds.). Springer: Cham, 2018, 3–10.
  42. Straka et al. 2016 — Straka M., Hajič J., Straková J. UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, pos tagging and parsing. Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC’16). 4290–4297.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Распределение частотностей существительных, которые встречаются в конструкции с предлогом с в родительном падеже на –у

Скачать (143KB)
3. Рис. 2. Хронологический нормализованный график частотности леммы кофий. Тепловая шкала отражает количество найденных текстов по запросу за каждый год

Скачать (62KB)
4. Рис. 3. Сравнение словарей Основного корпуса и подкорпуса, ограниченного официально-деловой сферой функционирования

Скачать (232KB)
5. Рис. 4. Распределение текстов по тематике в Основном корпусе

Скачать (69KB)
6. Рис. 5. Скетчи для слова душа по основным синтаксическим связям существительных: определения к душе, глаголы-сказуемые, глаголы, которые управляют существительным душа как прямым дополнением

Скачать (129KB)
7. Рис. 6. Автоматически предсказанный морфемный разбор слова кроссовки

Скачать (18KB)
8. Рис. 7. Однокоренные слова к слову гарантировать, сгенерированные с помощью алгоритма НейроКРЯ

Скачать (29KB)
9. Рис. 8. Таблица распределения форм слова плен в корпусе

Скачать (57KB)
10. Рис. 9. «Похожие слова» для слова звезда в Основном корпусе (слева) и в корпусе Региональных СМИ (справа)

Скачать (35KB)

© Российская академия наук, 2024