В данный сборник вошли три статьи.В первой статье рассматриваются экспертные системы, их преимущества и недостатки, а также применимость для решения проблем категоризации агрегированных данных.Во второй рассматриваются принципы построения систем агрегации контента, а также такие научно-технические проблемы, как веб-краулинг, обнаружение нечетких дубликатов, суммаризация и т. д.В третьей статье приводится детальное описание архитектуры высоконагруженного RSS-агрегатора.
Приведённый ознакомительный фрагмент книги «Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии» предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других
Переводчик Денис Александрович Кирьянов
Корректор Анастасия Лобанова
© Денис Александрович Кирьянов, 2024
© Денис Александрович Кирьянов, перевод, 2024
ISBN 978-5-0064-3419-6
Создано в интеллектуальной издательской системе Ridero
Термины и определения
В данной книге применяются следующие термины с соответствующими определениями:
Лемматизация (англ. lemmatization) — процесс приведения словоформы к ее словарной форме.
Партиционирование (англ. partitioning) — разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.
Стемминг (англ. stemming) — процесс нахождения основы слова для заданного исходного слова.
Суммаризация (англ. summarization) — процесс выделения краткого содержимого из текста.
Токенизация (англ. tokenization) — процесс разделения текста на составляющие.
Naive Estimator — наивная оценка.
Twitter Topic Fuzzy Fingerprints — нечеткие отпечатки на основе тем сообщений в сети «Twitter».