
Викислова́рь (англ. Wiktionary) — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Изначально появился на английском языке 12 декабря 2002 года.
Викисловарь | |
---|---|
англ. Wiktionary | |
![]() | |
![]() | |
URL | wiktionary.org |
Коммерческий | Нет |
Тип сайта | Сетевой словарь |
Регистрация | Необязательная |
Язык (-и) | 170 |
Расположение сервера | Майами |
Владелец | Фонд Викимедиа |
Создатель | Джимми Уэйлс |
Начало работы | 12 декабря 2002 |
![]() |
В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продукте , толковый, этимологический и многоязычный словари, а также тезаурус.
Данные Викисловаря активно используются при решении различных задач, связанных с машинной обработкой текста и речи.
Лексикографическая концепция
Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах лексической единицы, её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.[источник не указан 1492 дня]
В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы на русский язык.
При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложенной А. А. Зализняком.
Для пополнения Викисловаря создан обширный список литературы, в Английском Викисловаре выработаны правила по включению термина в словарь (см. Criteria for inclusion). В отличие от русской Википедии, где приоритет при подборе материала отдаётся авторитетным источникам, в русском Викисловаре превалирует проведённый редактором статьи анализ словоупотребления.
Тезаурус
Викисловарь содержит следующие семантические отношения: синонимы, антонимы, гиперонимы, гипонимы, , холонимы, меронимы, паронимы.
Википедия и Викисловарь
Викисловарь не включает подробного описания фактов и энциклопедической информации. Тем не менее Викисловарь предоставляет уникальную информацию, отсутствующую в Википедии: словосочетания, поговорки, аббревиатуры, акронимы, описание ошибок правописания, упрощённые/искажённые варианты написания / произнесения слов, спорные случаи употребления, протологизмы, ономатопею, разные стили (напр., разговорный) и предметные области. Таким образом, Википедия и Викисловарь дополняют друг друга.
Викисловарь сходен с Википедией:
- есть внутренние ссылки на статьи о словах внутри Викисловаря;
- есть категории;
- есть интервики, ссылающиеся на статьи о том же слове в иноязычном словаре.
Русскоязычный раздел
![]() | |
---|---|
![]() | Силонов А. Ф. «Викисловарь: цели, методы формирования и структура» // Семинар «Компьютерная лингвистика», 2015 |
Динамика развития русского Викисловаря
В разделе не хватает ссылок на источники (см. рекомендации по поиску). |
Русский раздел Wiktionary был создан весной 2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце 2005 — начале 2006 годов.[источник не указан 1492 дня]
В 2006 году был назначен первый администратор русского Викисловаря Schwallex, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.
К осени 2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей. 7 ноября 2006 года Викисловарь преодолел отметку 80 000, а 10 декабря 2006 года был взят рубеж в 100 000 статей. 17 декабря 2018 года количество статей превысило 1 000 000. Число активных участников составило порядка 230.
В отличие от ситуации с традиционными словарями, полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счётчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковой и межъязыковой омонимии. К примеру, словарный вход бор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей[источник не указан 1492 дня].
Большинство исследователей признаёт лексикографическую значимость Русского Викисловаря, однако отмечает его неакадемический характер, говорит о нём как о форме народной лексикографии.
Сравнение с другими Викисловарями

Начиная с августа 2008 года, русский Викисловарь вышел на первое место по размеру базы данных среди всех Викисловарей. В то же время количество статей в русском Викисловаре не самое большое. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистики.
Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё является болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела)[источник не указан 1492 дня].
Авторами было подсчитано число словарных статей о русских словах, число статей с толкованиями и без них — в двух Викисловарях (на иллюстрации). Политика редакторов Английского Викисловаря (не создавать статей-заготовок) подтвердилась: словарных статей о русских словах без толкований всего 5,57 %. В Русском Викисловаре таких статей — 60,39 %. Однако в Русском Викисловаре (по данным на 2011 год) почти в 3,4 раза больше словарных статей с толкованиями для русских слов, чем в Английском Викисловаре: 53,6 тысячи против 15,7 тысячи.
Применение в NLP задачах
Для использования лексикографических данных Викисловарей при решении задач автоматической обработки текста и речинеобходимо преобразовать тексты словарных статей (слабоструктурированные данные) в машиночитаемый формат.
Извлечение данных из Викисловарей является непростой задачей. Можно выделить следующие трудности:
- регулярное и частое изменение как данных, так и самой структуры статей;
- разные Викисловари имеют различную структуру и формат статей;
- технология вики изначально ориентирована на удобство работы человека, а не на машинную обработку.
Существует несколько парсеров для разных Викисловарей:
- DBpedia Wiktionary — одно из расширений проекта DBpedia, данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи, регулярные выражения и FST-разновидность конечного автомата.
- JWKTL (Java Wiktionary Library) — API к данным Английского и Немецкого Викисловарей. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
- wikokit — парсер Английского и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, цитаты (только для Русского Викисловаря), семантические отношения и переводы. Исходный код программы доступен на условиях открытой мультилицензии.
С помощью Викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи:
- машинный перевод на основе правил между нидерландским и языком африкаанс; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системы Apertium;
- создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь, WordNet и VerbNet. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методика Screen scraping;
- распознавание и синтез речи, где Викисловарь выступает в роли источника данных для автоматического построения словаря произношений. Извлекаются пары слово-произношение (транскрипция в системе МФА) из Чешского, Английского, Французского, Немецкого, Польского и Испанского Викисловарей. При проверке самое большое число ошибок оказалось в транскрипциях, извлечённых из Английского Викисловаря;
- построение онтологий и баз знаний;
- отображение онтологий;
- упрощение текста. В работе выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
- частеречная разметка. В работе (Ли и др., 2012) на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованием скрытых марковских моделей.
- анализ тональности текста.
См. также
- Татоэба
Примечания
Комментарии
- Википедия:Авторитетные источники
Статьи в Википедии должны основываться на опубликованных авторитетных источниках.
- Викисловарь: Лексикографическая концепция
При наличии разногласий относительно каких-либо описываемых свойств какой-либо языковой единицы приоритет (с точки зрения доказательности) отдаётся корпусным источникам.
- Сравните, например, структуру и правила оформления статей в Английском Викисловаре и Русском Викисловаре.
- Если в словарной статье несколько транскрипций, то берётся первая.
- Исходный код программы и результаты частеречной разметки доступны онлайн: https://code.google.com/p/wikily-supervised-pos-tagger Архивная копия от 14 апреля 2013 на Wayback Machine
Источники
- Использование словаря Зализняка
- Правила оформления статей
- Zesch et al, 2008, p. 2.
- Смирнов и др., 2012.
- Статистика викисловарей: Размер базы данных . Дата обращения: 28 октября 2010. Архивировано 10 августа 2011 года.
- Статистика викисловарей . Дата обращения: 14 февраля 2010. Архивировано 5 января 2009 года.
- Статистика викисловарей: Байтов на статью . Дата обращения: 14 февраля 2010. Архивировано 10 августа 2011 года.
- Meyer and Gurevych, 2012, p. 140.
- Zesch et al, 2008, Figure 1, p. 4.
- Meyer and Gurevych, 2010, p. 40.
- Крижановский, Преобразование, 2010, с. 1.
- Hellmann and Auer, 2013, стр. 16 в PDF, p. 302.
- Hellmann et al, 2012, Table 1, p. 3.
- Hellmann et al, 2012, pp. 8—9.
- Hellmann et al, 2012, p. 10.
- Hellmann et al, 2012, p. 11.
- Zesch et al, 2008.
- Крижановский, Преобразование, 2010.
- Крижановский, 2011.
- Крижановский, Сравнение, 2010.
- Смирнов и др., 2012, pp. 233—234.
- Otte and Tyers, 2011.
- McFate and Forbus, 2011.
- Schlippe et al., 2012.
- Schlippe et al., 2012, p. 4804.
- Meyer and Gurevych, 2012.
- ConceptNet 5 . Дата обращения: 17 апреля 2013. Архивировано 19 апреля 2013 года.
- Lin and Krizhanovsky, 2011.
- Medero and Ostendorf, 2009.
- Li et al, 2012.
- Chesley et al, 2006.
Литература
- Крижановский А. Преобразование структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных : препринт. — 2010.
- Крижановский А. Сравнение тезаурусов Русского и Английского Викисловарей, преобразованных в машиночитаемый формат : препринт. — 2010.
- Крижановский А. Оценка использования корпусов и электронных библиотек в Русском Викисловаре // Труды международной конференции «Корпусная лингвистика–2011». — СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011. — С. 217—222. — 348 с. — ISBN 978-5-8465-0005-5.
- Мейстер Г. И. Русский Викисловарь как лексикографический проект // Nová rusistika. — 2022. — Т. 15, № 2. — С. 21-38.
- Смирнов А. В., Круглов В. М., Крижановский А. А., Луговая Н. Б., Карпов А. А., Кипяткова И. С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. — СПб., 2012. — Т. 23. — С. 231–253.
- Chesley P., Vincent B., Li Xu, Srihari R. K. Using verbs and adjectives to automatically classify blog sentiment // Training. — 2006. — Т. 580. — С. 233—235.
- Hellmann S., Brekle J., Auer S. Leveraging the Crowdsourcing of Lexical Resources for Bootstrapping a Linguistic Data Cloud : Proc. Joint Int. Semantic Technology Conference (JIST), Dec 2-4. — Nara, Japan, 2012.
- Hellmann S., Auer S. Towards Web-Scale Collaborative Knowledge Extraction // The People’s Web Meets NLP / Gurevych, Iryna; Kim, Jungi. — Springer, 2013. — С. 287—313. — 378 с. — (Theory and Applications of Natural Language Processing). — ISBN 978-3-642-35084-9.
- Li S., Graça J. V., Taskar B. Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. — С. 1389—1398. Архивировано 22 мая 2013 года.
- Lin F., Krizhanovsky A. Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint // Proc. of the 13th Russian Conference on Digital Libraries RCDL’2011. October 19-22, Voronezh, Russia. — 2011. — С. 19—26.
- McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363—367. — ISBN 978-1-932432-88-6.
- Medero J. and Ostendorf M. Analysis of vocabulary difficulty using wiktionary // Proc. SLaTE Workshop. — 2009.
- Meyer C. M. and Gurevych I. Worth its Weight in Gold or Yet Another Resource - A Comparative Study of Wiktionary, OpenThesaurus and GermaNet : Proc. 11th International Conference on Intelligent Text Processing and Computational Linguistics,. — Iasi, Romania, 2010. — С. 38—49. Архивировано 1 декабря 2017 года.
- Meyer C. M. and Gurevych I. OntoWiktionary – Constructing an Ontology from the Collaborative Online Dictionary Wiktionary // Semi-Automatic Ontology Development: Processes and Resources / M. T. Pazienza and A. Stellato. — IGI Global, 2012. — С. 131—161. — ISBN 978-1-4666-0188-8.
- Otte P., Tyers F. M. Rapid rule-based machine translation between Dutch and Afrikaans // EAMT 2011: proc. of the 15th conference of the European Association for Machine Translation / Mikel L. Forcada, Heidi Depraetere, Vincent Vandeghinste. — Leuven, Belgium, 2011. — С. 153—160.
- Schlippe T., Ochs S., Schultz T. Grapheme-to-phoneme model generation for Indo-European languages // In Proceedings of The 37th International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2012), Kyoto, Japan, 25-30 March. — 2012. — С. 4801—4804.
- Zesch T., Müller C., Gurevych I. Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary. : Proc. of the 6th International Conference on Language Resources and Evaluation. — Marrakech, Morocco, 2008.
Ссылки
- Wiktionary
- Русский Викисловарь
В статье есть список источников, но не хватает сносок. |
Эту статью нужно проверить на соответствие критериям взвешенности изложения. |
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер
Vikislova r angl Wiktionary svobodno popolnyaemyj mnogofunkcionalnyj mnogoyazychnyj slovar i tezaurus osnovannyj na viki dvizhke Odin iz proektov fonda Vikimedia Iznachalno poyavilsya na anglijskom yazyke 12 dekabrya 2002 goda Vikislovarangl Wiktionary URL wiktionary org Kommercheskij Net Tip sajta Setevoj slovar Registraciya Neobyazatelnaya Yazyk i 170 Raspolozhenie servera Majami Vladelec Fond Vikimedia Sozdatel Dzhimmi Uejls Nachalo raboty 12 dekabrya 2002 Mediafajly na Vikisklade V slovare soderzhatsya grammaticheskie opisaniya tolkovaniya i perevody slov Krome togo v statyah mozhet otrazhatsya informaciya ob etimologii foneticheskih svojstvah i semanticheskih svyazyah slov Takim obrazom Vikislovar popytka obedinit v odnom produkte tolkovyj etimologicheskij i mnogoyazychnyj slovari a takzhe tezaurus Dannye Vikislovarya aktivno ispolzuyutsya pri reshenii razlichnyh zadach svyazannyh s mashinnoj obrabotkoj teksta i rechi Leksikograficheskaya koncepciyaBlagodarya vzaimosvyazi mezhdu raznymi yazykovymi razdelami Wiktionary a takzhe mezhdu uchastnikami slovarnogo i drugih proektov Fonda Vikimedia uchastniki kazhdogo iz nih mogut ispolzovat koncepcii instrumenty i leksikograficheskie materialy sozdannye ih kollegami nositelyami drugih yazykov V hode raboty nad razlichnymi yazykovymi razdelami slovarya slozhilas kompleksnaya koncepciya universalnogo leksikograficheskogo resursa stavshaya vpervye vozmozhnoj blagodarya elektronnym tehnologiyam Koncepciya predpolagaet v konechnom itoge polnoe vsestoronnee opisanie vseh leksicheskih edinic vseh estestvennyh i osnovnyh iskusstvennyh yazykov imeyushih pismennost Polnota opisaniya oznachaet nalichie svedenij o fonetike morfologii sintaksicheskih i semanticheskih svojstvah leksicheskoj edinicy eyo etimologii sochetaemosti i frazeologii Polnota i stepen posledovatelnosti realizacii etoj koncepcii mozhet varirovatsya v raznyh yazykovyh razdelah proekta istochnik ne ukazan 1492 dnya V kazhdom yazykovom razdele titulnyj yazyk yavlyaetsya centralnym vse stati pishutsya isklyuchitelno na nyom krome togo stavitsya cel dat perevody slov i drugih edinic etogo yazyka na maksimalno vozmozhnoe chislo drugih yazykov Slova drugih yazykov perevodyatsya kak pravilo tolko na etot titulnyj yazyk Tak v russkom Vikislovare dlya russkih slov dayutsya tolkovaniya i perevody na inostrannye yazyki dlya inostrannyh slov vmesto tolkovanij dayutsya perevody na russkij yazyk Pri opisanii morfologii delaetsya popytka dat maksimalno polnuyu kartinu slovoizmeneniya vklyuchaya ukazanie klassa slovoizmeneniya V chastnosti morfologicheskie svedeniya po russkim leksemam dayutsya v sootvetstvii s klassifikaciej predlozhennoj A A Zaliznyakom Dlya popolneniya Vikislovarya sozdan obshirnyj spisok literatury v Anglijskom Vikislovare vyrabotany pravila po vklyucheniyu termina v slovar sm Criteria for inclusion V otlichie ot russkoj Vikipedii gde prioritet pri podbore materiala otdayotsya avtoritetnym istochnikam v russkom Vikislovare prevaliruet provedyonnyj redaktorom stati analiz slovoupotrebleniya Tezaurus Vikislovar soderzhit sleduyushie semanticheskie otnosheniya sinonimy antonimy giperonimy giponimy holonimy meronimy paronimy Vikipediya i VikislovarVikislovar ne vklyuchaet podrobnogo opisaniya faktov i enciklopedicheskoj informacii Tem ne menee Vikislovar predostavlyaet unikalnuyu informaciyu otsutstvuyushuyu v Vikipedii slovosochetaniya pogovorki abbreviatury akronimy opisanie oshibok pravopisaniya uproshyonnye iskazhyonnye varianty napisaniya proizneseniya slov spornye sluchai upotrebleniya protologizmy onomatopeyu raznye stili napr razgovornyj i predmetnye oblasti Takim obrazom Vikipediya i Vikislovar dopolnyayut drug druga Vikislovar shoden s Vikipediej est vnutrennie ssylki na stati o slovah vnutri Vikislovarya est kategorii est interviki ssylayushiesya na stati o tom zhe slove v inoyazychnom slovare Russkoyazychnyj razdelVneshnie videofajly Silonov A F Vikislovar celi metody formirovaniya i struktura Seminar Kompyuternaya lingvistika 2015 Dinamika razvitiya russkogo Vikislovarya V razdele ne hvataet ssylok na istochniki sm rekomendacii po poisku Informaciya dolzhna byt proveryaema inache ona mozhet byt udalena Vy mozhete otredaktirovat statyu dobaviv ssylki na avtoritetnye istochniki v vide snosok 28 fevralya 2021 Russkij razdel Wiktionary byl sozdan vesnoj 2004 goda Na protyazhenii polutora let on prakticheski ne razvivalsya popolnyayas bessistemno preimushestvenno nedobrokachestvennym materialom Situaciya nachala menyatsya v konce 2005 nachale 2006 godov istochnik ne ukazan 1492 dnya V 2006 godu byl naznachen pervyj administrator russkogo Vikislovarya Schwallex obyom statej uvelichilsya pochti v chetyre raza po sravneniyu s predydushim godom sozdan moshnyj instrumentarij dlya opisaniya morfologii nachala formirovatsya razvitaya sistema semanticheskih kategorij K oseni 2006 goda chislo statej v russkom Vikislovare dostiglo 10 000 zatem blagodarya sozdaniyu bota ispolzuyushego slovniki drugih razdelov Wiktionary dlya generacii statej bolvanok v russkom razdele za poltora mesyaca bylo dobavleno eshyo okolo 70 000 statej 7 noyabrya 2006 goda Vikislovar preodolel otmetku 80 000 a 10 dekabrya 2006 goda byl vzyat rubezh v 100 000 statej 17 dekabrya 2018 goda kolichestvo statej prevysilo 1 000 000 Chislo aktivnyh uchastnikov sostavilo poryadka 230 V otlichie ot situacii s tradicionnymi slovaryami polnota Vikislovarya ne mozhet byt adekvatno ocenena po formalnomu pokazatelyu kolichestva statej Avtomaticheskij schyotchik ne delaet razlichij mezhdu polupustymi bolvankami i po nastoyashemu informativnymi statyami krome togo on ne uchityvaet vnutriyazykovoj i mezhyazykovoj omonimii K primeru slovarnyj vhod bor chislitsya kak odna statya mezhdu tem v etoj state opisano neskolko omonimichnyh leksem russkogo yazyka a takzhe odnoimennye leksemy drugih yazykov bolgarskogo tatarskogo v tradicionnyh slovaryah etot material byl by oformlen i uchtyon v vide neskolkih statej istochnik ne ukazan 1492 dnya Bolshinstvo issledovatelej priznayot leksikograficheskuyu znachimost Russkogo Vikislovarya odnako otmechaet ego neakademicheskij harakter govorit o nyom kak o forme narodnoj leksikografii Sravnenie s drugimi Vikislovaryami Chislo russkih slov v Russkom Vikislovare sleva i v Anglijskom Vikislovare sprava dannye na 2011 god Nachinaya s avgusta 2008 goda russkij Vikislovar vyshel na pervoe mesto po razmeru bazy dannyh sredi vseh Vikislovarej V to zhe vremya kolichestvo statej v russkom Vikislovare ne samoe bolshoe Eto otchasti obyasnyaetsya tem chto u proektov v kotoryh statej bolshe chem v russkom Vikislovare stati mogut imet v srednem menshij razmer v chyom mozhno ubeditsya na sajte statistiki Krome togo russkij Vikislovar po sravneniyu s drugimi razdelami Wiktionary soderzhit bolshee kolichestvo vspomogatelnoj informacii vklyuchaya spravochnye tablicy spiski chastotnyh slov i t p v otlichie ot slovarnyh statej sostavlyayushih tak nazyvaemoe osnovnoe prostranstvo imyon takaya informaciya razmeshaetsya v razdelah Prilozheniya Indeksy i t p Znachitelnoe kolichestvo statej v russkom Vikislovare vsyo eshyo yavlyaetsya bolvankami sgenerirovannymi botami Hotya inogda i mozhno vstretit kritiku bolshogo kolichestva statej bolvanok takaya predvaritelnaya razmetka dayot mnogo preimushestv Vo pervyh ona pomogaet bystree sozdavat stati za schyot predvaritelnogo vklyucheniya nekotoroj informacii tipa chasti rechi opisyvaemogo slova Vo vtoryh struktura statej standartiziruetsya Za schyot povsemestnogo primeneniya shablonov kotorye obychno srazu prostavlyayutsya botami pri avtomaticheskom sozdanii statej voznikaet vozmozhnost centralizovanno menyat vneshnij vid srazu mnogih statej Nalichie bolshogo kolichestva shablonov takzhe pomogaet provodit dalnejshee avtomatizirovannoe redaktirovanie uzhe sozdannyh statej naprimer avtomaticheski prostavlyat perevod po zaranee podgotovlennym slovaryam tak kak botam legche orientirovatsya v strukture stati uzhe razmechennoj specializirovannymi konstrukciyami a ne chelovecheskim yazykom Otlichitelnoj osobennostyu russkogo Vikislovarya yavlyaetsya prorabotannaya koncepciya razvitiya kotoruyu mozhno najti na glavnoj stranice Iz za prorabotannoj koncepcii i shirokogo primeneniya shablonov stati v russkom Vikislovare vyglyadyat bolee odnotipno chem vo mnogih drugih proektah v osnovnom odinakovy kolichestvo razdelov poryadok ih sledovaniya oformlenie kazhdogo razdela istochnik ne ukazan 1492 dnya Avtorami bylo podschitano chislo slovarnyh statej o russkih slovah chislo statej s tolkovaniyami i bez nih v dvuh Vikislovaryah na illyustracii Politika redaktorov Anglijskogo Vikislovarya ne sozdavat statej zagotovok podtverdilas slovarnyh statej o russkih slovah bez tolkovanij vsego 5 57 V Russkom Vikislovare takih statej 60 39 Odnako v Russkom Vikislovare po dannym na 2011 god pochti v 3 4 raza bolshe slovarnyh statej s tolkovaniyami dlya russkih slov chem v Anglijskom Vikislovare 53 6 tysyachi protiv 15 7 tysyachi Primenenie v NLP zadachahDlya ispolzovaniya leksikograficheskih dannyh Vikislovarej pri reshenii zadach avtomaticheskoj obrabotki teksta i rechineobhodimo preobrazovat teksty slovarnyh statej slabostrukturirovannye dannye v mashinochitaemyj format Izvlechenie dannyh iz Vikislovarej yavlyaetsya neprostoj zadachej Mozhno vydelit sleduyushie trudnosti regulyarnoe i chastoe izmenenie kak dannyh tak i samoj struktury statej raznye Vikislovari imeyut razlichnuyu strukturu i format statej tehnologiya viki iznachalno orientirovana na udobstvo raboty cheloveka a ne na mashinnuyu obrabotku Sushestvuet neskolko parserov dlya raznyh Vikislovarej DBpedia Wiktionary odno iz rasshirenij proekta DBpedia dannye izvlekayutsya iz Anglijskogo Francuzskogo Nemeckogo i Russkogo Vikislovarej Izvlekayutsya yazyk chast rechi tolkovanie semanticheskie otnosheniya perevody Dlya izvlecheniya dannyh ispolzuyutsya deklarativnoe opisanie struktury slovarnoj stati regulyarnye vyrazheniya i FST raznovidnost konechnogo avtomata JWKTL Java Wiktionary Library API k dannym Anglijskogo i Nemeckogo Vikislovarej Izvlekayutsya yazyk chast rechi tolkovanie citaty semanticheskie otnosheniya etimologiya i perevody Programma dostupna dlya nekommercheskogo ispolzovaniya wikokit parser Anglijskogo i Russkogo Vikislovarej Izvlekayutsya yazyk chast rechi tolkovanie citaty tolko dlya Russkogo Vikislovarya semanticheskie otnosheniya i perevody Ishodnyj kod programmy dostupen na usloviyah otkrytoj multilicenzii S pomoshyu Vikislovarej reshayutsya raznoobraznye zadachi svyazannye s obrabotkoj teksta i rechi mashinnyj perevod na osnove pravil mezhdu niderlandskim i yazykom afrikaans ispolzuyutsya dannye Anglijskogo i Niderlandskogo Vikislovarej i dvuh vikipedij v ramkah sistemy Apertium sozdanie mashinochitaemogo slovarya parserom NULEX integriruyushego otkrytye lingvisticheskie resursy Anglijskij Vikislovar WordNet i VerbNet Dlya sushestvitelnogo iz Anglijskogo Vikislovarya izvlekalis chast rechi i forma mnozhestvennogo chisla dlya glagolov vremya Dlya izvlecheniya dannyh iz Vikislovarya ispolzovalas metodika Screen scraping raspoznavanie i sintez rechi gde Vikislovar vystupaet v roli istochnika dannyh dlya avtomaticheskogo postroeniya slovarya proiznoshenij Izvlekayutsya pary slovo proiznoshenie transkripciya v sisteme MFA iz Cheshskogo Anglijskogo Francuzskogo Nemeckogo Polskogo i Ispanskogo Vikislovarej Pri proverke samoe bolshoe chislo oshibok okazalos v transkripciyah izvlechyonnyh iz Anglijskogo Vikislovarya postroenie ontologij i baz znanij otobrazhenie ontologij uproshenie teksta V rabote vypolnyaetsya ocenka slozhnosti slov na osnove dannyh Vikislovarya Dlya slova iz Anglijskogo Vikislovarya izvlekayutsya razmer slovarnoj stati chislo chastej rechi chislo znachenij i chislo perevodov Avtory predpolozhili chto bolee prostymi bazovymi upotrebimymi budut te slova u kotoryh bolshe znachenij to est razmer stati budet bolshe bolshe chastej rechi i bolshe perevodov Dalee najdennye v tekste slozhnye slova neobhodimo perefrazirovat najti bolee prostye ekvivalenty chto privedyot k uprosheniyu adaptacii teksta chasterechnaya razmetka V rabote Li i dr 2012 na osnove dannyh Anglijskogo Vikislovarya postroeny POS tagger y dlya vosmi yazykov imeyushih bednye lingvisticheskie resursy s ispolzovaniem skrytyh markovskih modelej analiz tonalnosti teksta Sm takzheTatoebaPrimechaniyaKommentarii Vikipediya Avtoritetnye istochnikiStati v Vikipedii dolzhny osnovyvatsya na opublikovannyh avtoritetnyh istochnikah Vikislovar Leksikograficheskaya koncepciyaPri nalichii raznoglasij otnositelno kakih libo opisyvaemyh svojstv kakoj libo yazykovoj edinicy prioritet s tochki zreniya dokazatelnosti otdayotsya korpusnym istochnikam Sravnite naprimer strukturu i pravila oformleniya statej v Anglijskom Vikislovare i Russkom Vikislovare Esli v slovarnoj state neskolko transkripcij to beryotsya pervaya Ishodnyj kod programmy i rezultaty chasterechnoj razmetki dostupny onlajn https code google com p wikily supervised pos tagger Arhivnaya kopiya ot 14 aprelya 2013 na Wayback Machine Istochniki Ispolzovanie slovarya Zaliznyaka Pravila oformleniya statej Zesch et al 2008 p 2 Smirnov i dr 2012 Statistika vikislovarej Razmer bazy dannyh neopr Data obrasheniya 28 oktyabrya 2010 Arhivirovano 10 avgusta 2011 goda Statistika vikislovarej neopr Data obrasheniya 14 fevralya 2010 Arhivirovano 5 yanvarya 2009 goda Statistika vikislovarej Bajtov na statyu neopr Data obrasheniya 14 fevralya 2010 Arhivirovano 10 avgusta 2011 goda Meyer and Gurevych 2012 p 140 Zesch et al 2008 Figure 1 p 4 Meyer and Gurevych 2010 p 40 Krizhanovskij Preobrazovanie 2010 s 1 Hellmann and Auer 2013 str 16 v PDF p 302 Hellmann et al 2012 Table 1 p 3 Hellmann et al 2012 pp 8 9 Hellmann et al 2012 p 10 Hellmann et al 2012 p 11 Zesch et al 2008 Krizhanovskij Preobrazovanie 2010 Krizhanovskij 2011 Krizhanovskij Sravnenie 2010 Smirnov i dr 2012 pp 233 234 Otte and Tyers 2011 McFate and Forbus 2011 Schlippe et al 2012 Schlippe et al 2012 p 4804 Meyer and Gurevych 2012 ConceptNet 5 neopr Data obrasheniya 17 aprelya 2013 Arhivirovano 19 aprelya 2013 goda Lin and Krizhanovsky 2011 Medero and Ostendorf 2009 Li et al 2012 Chesley et al 2006 LiteraturaKrizhanovskij A Preobrazovanie struktury slovarnoj stati Vikislovarya v tablicy i otnosheniya relyacionnoj bazy dannyh preprint 2010 Krizhanovskij A Sravnenie tezaurusov Russkogo i Anglijskogo Vikislovarej preobrazovannyh v mashinochitaemyj format preprint 2010 Krizhanovskij A Ocenka ispolzovaniya korpusov i elektronnyh bibliotek v Russkom Vikislovare Trudy mezhdunarodnoj konferencii Korpusnaya lingvistika 2011 SPb S Peterburgskij gos universitet Filologicheskij fakultet 2011 S 217 222 348 s ISBN 978 5 8465 0005 5 Mejster G I Russkij Vikislovar kak leksikograficheskij proekt Nova rusistika 2022 T 15 2 S 21 38 Smirnov A V Kruglov V M Krizhanovskij A A Lugovaya N B Karpov A A Kipyatkova I S Kolichestvennyj analiz leksiki russkogo WordNet i vikislovarej Trudy SPIIRAN SPb 2012 T 23 S 231 253 Chesley P Vincent B Li Xu Srihari R K Using verbs and adjectives to automatically classify blog sentiment Training 2006 T 580 S 233 235 Hellmann S Brekle J Auer S Leveraging the Crowdsourcing of Lexical Resources for Bootstrapping a Linguistic Data Cloud Proc Joint Int Semantic Technology Conference JIST Dec 2 4 Nara Japan 2012 Hellmann S Auer S Towards Web Scale Collaborative Knowledge Extraction The People s Web Meets NLP Gurevych Iryna Kim Jungi Springer 2013 S 287 313 378 s Theory and Applications of Natural Language Processing ISBN 978 3 642 35084 9 Li S Graca J V Taskar B Wiki ly supervised part of speech tagging Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning Jeju Island Korea Association for Computational Linguistics 2012 S 1389 1398 Arhivirovano 22 maya 2013 goda Lin F Krizhanovsky A Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint Proc of the 13th Russian Conference on Digital Libraries RCDL 2011 October 19 22 Voronezh Russia 2011 S 19 26 McFate C Forbus K NULEX An Open License Broad Coverage Lexicon The 49th Annual Meeting of the Association for Computational Linguistics Human Language Technologies Proceedings of the Conference 19 24 June 2011 Portland Oregon USA Short Papers The Association for Computer Linguistics 2011 S 363 367 ISBN 978 1 932432 88 6 Medero J and Ostendorf M Analysis of vocabulary difficulty using wiktionary Proc SLaTE Workshop 2009 Meyer C M and Gurevych I Worth its Weight in Gold or Yet Another Resource A Comparative Study of Wiktionary OpenThesaurus and GermaNet Proc 11th International Conference on Intelligent Text Processing and Computational Linguistics Iasi Romania 2010 S 38 49 Arhivirovano 1 dekabrya 2017 goda Meyer C M and Gurevych I OntoWiktionary Constructing an Ontology from the Collaborative Online Dictionary Wiktionary Semi Automatic Ontology Development Processes and Resources M T Pazienza and A Stellato IGI Global 2012 S 131 161 ISBN 978 1 4666 0188 8 Otte P Tyers F M Rapid rule based machine translation between Dutch and Afrikaans EAMT 2011 proc of the 15th conference of the European Association for Machine Translation Mikel L Forcada Heidi Depraetere Vincent Vandeghinste Leuven Belgium 2011 S 153 160 Schlippe T Ochs S Schultz T Grapheme to phoneme model generation for Indo European languages In Proceedings of The 37th International Conference on Acoustics Speech and Signal Processing ICASSP 2012 Kyoto Japan 25 30 March 2012 S 4801 4804 Zesch T Muller C Gurevych I Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary Proc of the 6th International Conference on Language Resources and Evaluation Marrakech Morocco 2008 SsylkiWiktionary Russkij Vikislovar V state est spisok istochnikov no ne hvataet snosok Bez snosok slozhno opredelit iz kakogo istochnika vzyato kazhdoe otdelnoe utverzhdenie Vy mozhete uluchshit statyu prostaviv snoski na istochniki podtverzhdayushie informaciyu Svedeniya bez snosok mogut byt udaleny 28 fevralya 2021 Etu statyu nuzhno proverit na sootvetstvie kriteriyam vzveshennosti izlozheniya Vozmozhno soderzhanie stati narushaet princip vzveshennogo izlozheniya predstavlyaya maloznachimye mneniya i fakty tak zhe kak i bolee vazhnye libo udelyaet slishkom mnogo mesta opisaniyu kakogo to odnogo aspekta temy v usherb drugim ne menee sushestvennym Pozhalujsta uluchshite eyo v sootvetstvii s pravilami napisaniya statej 28 fevralya 2021