Связанные понятия
Авторове́дческая эксперти́за — исследование текста (чаще всего — печатного) с целью установления авторства (атрибуция произведения) или получения каких-либо сведений об авторе и условиях создания текстового документа.
Разрешение лексической многозначности (word sense disambiguation, WSD) — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентность текста, при анализе умозаключений...
Грамматика ван Вейнгаардена (также вВ-грамматика или В-грамматика) — это двухуровневая грамматика, которая предоставляет способ определения потенциально бесконечных грамматик через конечное число правил. Формализм был изобретён Адрианом ван Вейнгаарденом для определения некоторых синтаксических ограничений, которые ранее должны были формулироваться на естественных языках, несмотря на свою принципиально синтаксическую сущность. Типичными применениями являются обработка рода и числа в естественных...
Интертекст — соотношение одного текста с другим, диалогическое взаимодействие текстов, обеспечивающее превращение смысла в заданный автором. Основной вид и способ построения художественного текста в искусстве модернизма и постмодернизма, состоящий в том, что текст строится из цитат и реминисценций к другим текстам.
Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения...
Ана́лиз тона́льности те́кста (сентимент-анализ, англ. Sentiment analysis, англ. Opinion mining) — класс методов контент-анализа в компьютерной лингвистике, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов (мнений) по отношению к объектам, речь о которых идёт в тексте.
О термине из программирования см. Зарезервированное слово.Ключевое слово — слово в тексте, способное в совокупности с другими ключевыми словами дать высокоуровневое описание содержания текстового документа, позволяющее выявить его тематику. В вебе используется главным образом для поиска.
Подробнее: Ключевое слово
Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям.
Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста.
Синкве́йн (от фр. cinquains, англ. cinquain) — пятистрочная стихотворная форма, возникшая в США в начале XX века под влиянием японской поэзии. В дальнейшем стала использоваться (в последнее время, с 1997 года, и в России) в дидактических целях, как эффективный метод развития образной речи, который позволяет быстро получить результат. Ряд методистов полагает, что синквейны полезны в качестве инструмента для синтезирования сложной информации, в качестве среза оценки понятийного и словарного багажа...
Алгоритм Леска — классический алгоритм разрешения лексической многозначности, основанный на знаниях, предложенный Майклом Леском в 1986 году.
Алгори́тм (лат. algorithmi — от арабского имени математика Аль-Хорезми) — конечная совокупность точно заданных правил решения произвольного класса задач или набор инструкций, описывающих порядок действий исполнителя для решения некоторой задачи. В старой трактовке вместо слова «порядок» использовалось слово «последовательность», но по мере развития параллельности в работе компьютеров слово «последовательность» стали заменять более общим словом «порядок». Независимые инструкции могут выполняться...
Исторический метод — метод социологических исследований, который включает в себя приемы, средства и техники, которые применяют историки для изучения и интерпретации текстов первоисточников и поиска иных доказательств, в том числе археологических доказательств, используемых для исследования, а также изложения исторических событий. В философии истории исторический метод используется как метод теории познания.
В законе Об
авторском праве США термин существенное сходство является стандартом, используемым для определения того, нарушены ли авторские права или нет. Стандарт исходит из признания того, что исключительное право делать копии произведения будет лишено смысла, если нарушение было ограничено только точными и полными копиями произведения. Многие суды использовали термин «существенное сходство» или «поразительное сходство» для доказательства проведенного копирования.
Ра́мочный ана́лиз (англ. Framing analysis) — междисциплинарный метод научного исследования, который используется для анализа того, как люди понимают ситуации и события.
Коммента́рии — пояснения к исходному тексту программы, находящиеся непосредственно внутри комментируемого кода. Синтаксис комментариев определяется языком программирования. С точки зрения компилятора или интерпретатора, комментарии — часть текста программы, не влияющая на её семантику. Комментарии не оказывают никакого влияния на результат компиляции программы или её интерпретацию. Помимо исходных текстов программ, комментарии также применяются в языках разметки и языках описания.
Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Отделение
содержания от представления (или «разделение формы и содержания») это общепринятая идиома, философия дизайна и методология, применяемая в контексте различных издательских технологических дисциплинах, включая информационный поиск, обработку шаблонов, веб-дизайн, веб-программирование, обработку текста, компьютерную вёрстку и разработку управляемую моделями. Это конкретный случай более общей философии разделения ответственности.
Диагра́мма свя́зей , известная также как интелле́кт-ка́рта, ка́рта мыслей (англ. Mind map) или ассоциати́вная ка́рта — метод структуризации концепций с использованием графической записи в виде диаграммы.
Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.
Текстология (от лат. textum — связь слов и др.-греч. λόγος — учение) — филологическая отрасль, изучающая и восстанавливающая историю и судьбу произведений письменности и литературы с целью дальнейшего исследования, интерпретации, публикации и иных целей.
Семанти́ческая паути́на (англ. semantic web) — это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.
Эссе (образование) (англ. college writing, college composition, college essay) — базовый предмет обучения в большинстве вузов США и других стран для улучшения соответствующих навыков у студентов первых лет обучения. В ходе обучения студенты изучают принципы создания и основные типы эссе.
Выделение знаний (англ. Knowledge extraction) — это создание знаний из структурированных (реляционных баз данных, XML) и неструктурированных источников (тексты, документы, изображения). Полученное знание должно иметь формат, позволяющий компьютерный ввод, и должно представлять знания так, чтобы облегчить логические выводы. Хотя по методике процесс подобен извлечению информации (обработке естественного языка, англ. Natural language processing, NLP) и процессу «Извлечения, Преобразования, Загрузки...
Нормати́вный контро́ль в библиотечном деле — организация библиотечных каталогов и библиографической информации путём присвоения каждой теме определённого названия. Такие уникальные заголовки последовательно используются в каталоге и работают вместе с другими организационными данными, например, перекрёстными ссылками. Каждый заголовок имеет краткое описание пределов применимости и использования, такая организация помогает персоналу библиотек поддерживать каталог в актуальном состоянии и упрощает работу...
Латентное размещение Дирихле (LDA, от англ. Latent Dirichlet allocation) — применяемая в машинном обучении и информационном поиске порождающая модель, позволяющая объяснять результаты наблюдений с помощью неявных групп, благодаря чему возможно выявление причин сходства некоторых частей данных. Например, если наблюдениями являются слова, собранные в документы, утверждается, что каждый документ представляет собой смесь небольшого количества тем и что появление каждого слова связано с одной из тем документа...
Роль читателя . Исследования по семиотике текста — сборник эссе известного итальянского философа и писателя Умберто Эко.
Пролог (англ. Prolog) — язык и система логического программирования, основанные на языке предикатов математической логики дизъюнктов Хорна, представляющей собой подмножество логики предикатов первого порядка.
Теория «Смысл — текст» (название более точно записывается как «теория „Смысл ⇔ Текст“») — лингвистическая концепция, созданная И. А. Мельчуком и представляющая язык как многоуровневую модель преобразований смысла в текст и обратно (модель «Смысл ⇔ Текст»); отличительной особенностью этой теории является также использование синтаксиса зависимостей. Значительна роль, отводимая лексическому компоненту модели — Толково-комбинаторному словарю.
Анализ цитирования — это изучение частоты, шаблонов и графиков цитат в документах. Он использует шаблон цитат, ссылки с одного документа на другой документ, чтобы обнаружить свойства документов. Типичной целью является определение наиболее важных документов в сборнике. Классический пример — цитата между академическими статьями и книгами. Судебные решения в англосаксонской правовой системе с целью подтверждения своих решений, ссылаются на решения, вынесенные в предыдущих делах, поэтому анализ цитирования...
Сетевая литература (сетература) — понятие, предлагаемое некоторыми публицистами для обозначения совокупности литературных произведений, основной средой существования которых является Интернет. От вопроса о сетевой литературе (которая если существует, то именно в противопоставлении литературе несетевой, «обычной») необходимо отличать вопрос о дополнительных, чисто практических возможностях, предоставляемых Сетью любой литературе, — удобстве поиска текстов и по текстам, удобстве доступа к текстам из...
Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Пятьдесят девять икосаэдров (англ. The Fifty-Nine Icosahedra) — это книга, написанная и проиллюстрированная Гарольдом Коксетером, Патриком дю Валем, Х. Т. Флазером и Дж. Ф. Петри. В книге перечислены некоторые звёздные формы правильных выпуклых (платоновых) икосаэдров, построенных согласно набору правил, предложенных Дж. Ч. П. Миллером.
Прецедентные тексты — тексты, на которые ссылаются многие, поскольку считают их важными для данной культуры.
Цифровая риторика — искусство информирования, убеждения и вселения действия в аудиторию через СМИ, и это продвигающаяся форма общения, составленная, созданная и распределенная через мультимедиа. Риторика объединяет многократные методы, такие как убеждение, эффективное письмо и эффективный разговор, чтобы представить информацию изобретательными способами. Значение риторики изменялось в течение долгого времени, развиваясь с изменениями в технологиях. СМИ онлайн все более и более используются в качестве...
«Трактат о шифрах » (1466 г.) — одна из первых в Европе книг, посвящённая криптоанализу, написана Леоном Баттиста Альберти — итальянским учёным, гуманистом, писателем, одним из зачинателей новой европейской архитектуры и ведущим теоретиком искусства эпохи Возрождения. Своей работой он внёс существенный вклад в развитие криптографии, предложив идею многоалфавитного шифра, и изобрёл устройство, реализующее шифр многоалфавитной замены, получившее название «диск Альберти».
Индукция грамматики (или грамматический вывод) — это процесс в машинном обучении для обучения формальной грамматике (обычно в виде набора правил вывода или порождающих правил или, альтернативно, как конечный автомат или автомат другого вида) из набора наблюдений, то есть построение модели, которая описывает наблюдаемые объекты. Более обще, грамматический вывод — это такая ветвь машинного обучения, в которой пространство примеров состоит из дискретных комбинаторных объектов, таких как строки, деревья...
Контент-ана́лиз (от англ.: англ. contents — содержание, содержимое) или ана́лиз содержа́ния — стандартная методика исследования в области общественных наук, предметом анализа которой является содержание текстовых массивов и продуктов коммуникативной корреспонденции.
Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.
Представление знаний — вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в исследованиях искусственного интеллекта.
Ключ для определения в биологии — это описанный или реализованный в CAE-системе алгоритм, служащий для помощи в идентификации биологических сущностей, таких как растения, животные, фоссилии, микроорганизмы, зёрна пыльцы. Такие ключи, кроме того, нашли широкое применение в различных областях науки и техники для идентификации разного вида сущностей, например заболеваний, почв, минералов, археологических и антропологических артефактов.
Память переводов (ПП, англ. translation memory, TM, иногда также называемая «накопитель переводов») — база данных, содержащая набор ранее переведённых сегментов текста.
Семанти́ческая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа...
Атрибуция (лат. attributio) в филологии — определение подлинности или подложности рукописного текста и установление его автора. Атрибуция в искусствоведении — определение авторства художественного произведения. Атрибуция в музееведении — описание экспоната по ряду признаков, к числу которых принадлежат: название, назначение, форма, конструкция, материал, размеры, техника изготовления, авторство.
Выразительность языка программирования — качество языка, показывающее, насколько разнообразны идеи, которые можно реализовать на этом языке, и насколько легко они читаются.
Незаконное простое число — простое число, представляющее охраняемую законом информацию, которую запрещено хранить и распространять. Одно из первых незаконных простых чисел было обнародовано в 2001 году. При правильной интерпретации оно представляет собой компьютерную программу, которая обходит схемы защиты авторских прав. Распространение таких программ в США незаконно согласно DMCA, который выводит за пределы правового поля не только непосредственное нарушение авторских прав путём копирования, но...