Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

Денис Александрович Кирьянов

В данный сборник вошли три статьи.В первой статье рассматриваются экспертные системы, их преимущества и недостатки, а также применимость для решения проблем категоризации агрегированных данных.Во второй рассматриваются принципы построения систем агрегации контента, а также такие научно-технические проблемы, как веб-краулинг, обнаружение нечетких дубликатов, суммаризация и т. д.В третьей статье приводится детальное описание архитектуры высоконагруженного RSS-агрегатора.

Автор: Денис Кирьянов

Жанры и теги: Прочая образовательная литература, Книги о компьютерах

Купить книгу

Приведённый ознакомительный фрагмент книги «Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии» предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Перечень сокращений и обозначений→

Переводчик Денис Александрович Кирьянов

Корректор Анастасия Лобанова

ISBN 978-5-0064-3419-6

Создано в интеллектуальной издательской системе Ridero

Термины и определения

В данной книге применяются следующие термины с соответствующими определениями:

Лемматизация (англ. lemmatization) — процесс приведения словоформы к ее словарной форме.

Партиционирование (англ. partitioning) — разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.

Стемминг (англ. stemming) — процесс нахождения основы слова для заданного исходного слова.

Суммаризация (англ. summarization) — процесс выделения краткого содержимого из текста.