Связанные понятия
В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.
Подробнее: Корпус текстов
Амперса́нд (иногда — амперсе́нд; англ. ampersand) — знак &. Он является логограммой, заменяющей союз «и», и возник как лигатура букв et (с лат. — «и»).
Автоматизи́рованный перево́д (АП, англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.
Сте́мминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
Машинный перевод на основе примеров (англ. Example-based machine translation, EBMT) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. По сути, это перевод по аналогии, который может рассматриваться как применение метода рассуждений на основе прецедентов к машинному обучению.
Панграмма (c греч. «все буквы») или разнобуквица — короткий текст, использующий все или почти все буквы алфавита, по возможности не повторяя их.
Переводческая скоропись (тж. переводческая запись, универсальная переводческая скоропись (УПС), переводческая нотация, переводческая семантография) — свод правил и рекомендаций, а также сама система фиксирования переводчиком содержания переводимого выступления с целью дальнейшего его воспроизведения на языке перевода.
Станда́рт оформле́ния ко́да (станда́рт коди́рования, стиль программи́рования) (англ. coding standards, coding convention или programming style) — набор правил и соглашений, используемых при написании исходного кода на некотором языке программирования. Наличие общего стиля программирования облегчает понимание и поддержание исходного кода, написанного более чем одним программистом, а также упрощает взаимодействие нескольких человек при разработке программного обеспечения.
Корефере́нтность или референциональное тождество — отношение между именами — компонентами высказывания, в котором имена ссылаются на один и тот же объект (ситуацию) внеязыковой действительности (референт).
Удобочитаемость («читабельность») — свойство текстового материала, характеризующее лёгкость восприятия его человеком.
Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям.
Расширенная форма Бэкуса — Наура (расширенная Бэкус — Наурова форма (РБНФ)) (англ. Extended Backus–Naur Form (EBNF)) — формальная система определения синтаксиса, в которой одни синтаксические категории последовательно определяются через другие. Используется для описания контекстно-свободных формальных грамматик. Предложена Никлаусом Виртом. Является расширенной переработкой форм Бэкуса — Наура, отличается от БНФ более «ёмкими» конструкциями, позволяющими при той же выразительной способности упростить...
Перено́с в типографике — разрыв части текста (слова, формулы и т. п.), при котором её начало оказывается на одной строке, а конец — на другой.
Синхронный автоматический перевод (Speech-to-Speech Real-Time Translation) — «моментальный» машинный перевод речи, с одного естественного языка на другой, с помощью специальных программных и технических средств. Так же называется направление научных исследований, связанных с построением подобных систем.
Многопроходный компилятор (англ. Multi-pass compiler) — тип компилятора, который обрабатывает исходный код или абстрактное синтаксическое дерево программы несколько раз (в отличие от однопроходного компилятора, который проходит программу только один раз). Между проходами генерируется промежуточный код, который принимается следующим проходом в качестве входа. Таким образом, многопроходный компилятор обрабатывает код по частям, проход за проходом, а последний проход выдает финальный результат программы...
Ифку́иль (ифк. Iţkuîl), также Ыфкуил или Илакш — искусственный язык философского направления. Обладает крайней сложностью грамматики и огромным набором фонем, что делает язык весьма трудным для изучения.
В информатике
лексический анализ («токенизация», от англ. tokenizing) — процесс аналитического разбора входной последовательности символов на распознанные группы — лексемы, с целью получения на выходе идентифицированных последовательностей, называемых «токенами» (подобно группировке букв в словах). В простых случаях понятия «лексема» и «токен» идентичны, но более сложные токенизаторы дополнительно классифицируют лексемы по различным типам («идентификатор, оператор», «часть речи» и т. п.). Лексический...
Инвертированный индекс (англ. inverted index) — структура данных, в которой для каждого слова коллекции документов в соответствующем списке перечислены все документы в коллекции, в которых оно встретилось. Инвертированный индекс используется для поиска по текстам.
Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП...
Язык
эсперанто был стабилен с момента его создания на фоне других искусственных языков. Это связано с документом Декларация Булонь (Declaration of Boulogne) от 1905 года, определяющим суть и основные принципы движения эсперантистов. Декларация была написана Л. Л. Заменгофом. Согласно декларации, обязательной для всех эсперантистов, фундаментом языка эсперанто является произведение «Основы эсперанто», в которое никто не имеет права вносить изменения.
Дистрибути́вная сема́нтика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).
Свободные шрифты ПТ (шрифтовая система «Питер»; англ. PT — аббревиатура от public type) — проект по созданию общенациональных бесплатных шрифтов с открытой лицензией, поддерживающих все языки малых народов РФ (см. список языков). В настоящее время в состав семейства входят 3 гарнитуры...
Кавы́чки — парный знак препинания, который употребляется для выделения прямой речи, цитат, отсылок, названий предприятий, литературных произведений, газет, журналов, а также отдельных слов, если они включаются в текст не в своём обычном значении, используются в ироническом смысле, предлагаются впервые или, наоборот, как устаревшие и тому подобное.
Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.
Уче́бный алгоритми́ческий язы́к — формальный язык, используемый для записи, реализации и изучения алгоритмов. В отличие от большинства языков программирования, не привязан к архитектуре компьютера, не содержит деталей, связанных с устройством машины.
Форма Бэкуса — Наура (сокр. БНФ, Бэкуса — Наура форма) — формальная система описания синтаксиса, в которой одни синтаксические категории последовательно определяются через другие категории. БНФ используется для описания контекстно-свободных формальных грамматик. Существует расширенная форма Бэкуса — Наура, отличающаяся лишь более ёмкими конструкциями.
Теза́урус (от греч. θησαυρός «сокровище»), в общем смысле — специальная терминология, более строго и предметно — словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины специальной области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации (пониманию в общении и взаимодействии лиц, связанных одной дисциплиной или профессией); в современной лингвистике — особая разновидность словарей, в которых указаны...
Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Избыточность языка — статистическая величина, обозначающая избыточность информации, содержащейся в тексте на определённом языке.
Гомоикони́чность (гомоиконность, англ. homoiconicity, англ. homoiconic, от греч. ὁμός — равный, одинаковый + ср.-греч. εἰκόνα — «о́браз», «изображение») — свойство некоторых языков программирования, в которых структура программы похожа на его синтаксис, и поэтому внутреннее представление программы можно определить прочитав текстовую разметку. Если язык гомоиконичен, это означает, что текст программы имеет такую же структуру, как её абстрактное синтаксическое дерево (то есть AST и синтаксис являются...
Отображение онтологий (англ. ontology alignment или ontology matching) — это процесс установления соответствий между понятиями (концептами) нескольких онтологий. Множество таких соответствий и называется «отображением». Термин имеет разное значение в компьютерной, когнитивной областях и философии.
Существует несколько способов транслитерации письма деванагари латинским алфавитом. Наиболее распространёнными являются Международный алфавит транслитерации санскрита (IAST) (в печатных работах) и ITRANS (в интернете).
Подробнее: Транслитерация деванагари латиницей
Язы́к запро́сов — это искусственный язык, на котором делаются запросы к базам данных и другим информационным системам, особенно к информационно-поисковым системам.
Орфография исландского языка — правописание, система правил, определяющих единообразие способов передачи речи (слов и грамматических форм) на письме в исландском языке.
Абстрактное синтаксическое дерево (АСД) — в информатике конечное помеченное ориентированное дерево, в котором внутренние вершины сопоставлены (помечены) с операторами языка программирования, а листья — с соответствующими операндами. Таким образом, листья являются пустыми операторами и представляют только переменные и константы.
Микроформат (англ. microformat; иногда сокращённо μF или uF) — способ семантической разметки сведений о разнообразных сущностях (событиях, организациях, людях, товарах и так далее) на веб-страницах с использованием стандартных элементов языка HTML (или XHTML). Пользователь-человек может воспринимать страницу с микроформатом как обычную веб-страницу (через браузер), тогда как программы-обработчики способны извлечь из такой страницы структурированную информацию, следуя определённым соглашениям.
Алгоритм Леска — классический алгоритм разрешения лексической многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.
Семанти́ческая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа...
Библиографическая запись — наименьшая единица библиографического списка, состоящая из заголовка и библиографического описания, одна из форм библиографической информации. Используется для идентификации документа, составления библиографий и осуществления библиографического поиска.
Ѹ, ѹ или Ꙋ, ꙋ (ук или оук, глаголица: Ⱆ) — буква старославянской азбуки. Первоначально диграф букв О и У (точнее, буквы «ик», варианта ижицы) писался горизонтально, но впоследствии, для экономии места, стали использовать вертикальную лигатуру, а впоследствии и вовсе заменили буквой У.
Подробнее: Ук (кириллица)
Графическая система в узком смысле — инвентарь общеобязательных графем, используемых в некоторой письменной традиции. В широком смысле — этот же инвентарь и так называемое базисное соответствие между графемами и фонемами.
Кернинг (англ. kerning) при наборе текста — избирательное изменение интервала между буквами в зависимости от их формы.
Абза́ц (нем. Absatz «раздел, часть текста») — отрезок письменной речи, состоящий из одного или нескольких предложений.
Систе́ма прове́рки правописа́ния (также спелл-че́кер от англ. spell checker) — компьютерная программа, осуществляющая проверку заданного текста на наличие в нём орфографических ошибок. Найденные ошибки или опечатки отмечаются специальным образом — обычно для этого используется подчёркивание. В некоторых случаях пользователю помимо указания на места возможных ошибок предоставляется возможность выбрать один из правильных вариантов написания. Может быть также выведен комментарий, объясняющий, каким...
В программировании,
аргумент по умолчанию является аргументом функции, который при вызове необязательно указывать.
Технический перевод — перевод, используемый для обмена специальной научно-технической информацией между людьми, говорящими на разных языках. При упрощенном подходе под техническим переводом понимают перевод технических текстов.
Память переводов (ПП, англ. translation memory, TM, иногда также называемая «накопитель переводов») — база данных, содержащая набор ранее переведённых сегментов текста.
РЕФАЛ (РЕкурсивных Функций АЛгоритмический) — один из старейших функциональных языков программирования, ориентированный на символьные вычисления: обработку символьных строк (например, алгебраические выкладки); перевод с одного языка (искусственного или естественного) на другой; решение проблем, связанных с искусственным интеллектом. Соединяет в себе математическую простоту с практической направленностью на написание больших и сложных программ.