В данный сборник вошли три статьи.В первой статье рассматриваются экспертные системы, их преимущества и недостатки, а также применимость для решения проблем категоризации агрегированных данных.Во второй рассматриваются принципы построения систем агрегации контента, а также такие научно-технические проблемы, как веб-краулинг, обнаружение нечетких дубликатов, суммаризация и т. д.В третьей статье приводится детальное описание архитектуры высоконагруженного RSS-агрегатора.
Приведённый ознакомительный фрагмент книги «Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии» предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других
Перечень сокращений и обозначений
В данной книге применяются следующие сокращения и обозначения:
БД — база данных.
API, АПИ (англ. Application Programming Interface) — аппаратно-программный интерфейс.
DNS (англ. Domain Name System) — система доменных имен.
FOAF (англ. Friend of a Friend) — спецификация для описания пользователя в социальных сетях.
HTML (англ. Hyper Text Markup Language) — язык гипертекстовой разметки.
JSON (англ. JavaScript Object Notation) — текстовый формат обмена данными, основанный на языке программирования JavaScript.
MNA (англ. Matrix-based News Analysis) — метод матричного анализа новостей.
MLE (англ. Maximum Likelihood Estimator) — подход оценки максимального правдоподобия.
MME (англ. Moment Matching Estimator) — метод определения вероятности изменения агрегированных данных.
NLP (англ. Natural Language Processing) — обработка естественного языка.
REST (англ. Representational State Transfer) — архитектурный стиль взаимодействия компонентов распределенного приложения в сети.
RSS (англ. Rich Site Summary) — обогащенная сводка сайта.
SVM (англ. Support Vector Machine) — метод опорных векторов.
TF-IDF (англ. Term Frequency — Inverse Document Frequency) — статистическая мера, используемая для оценки важности слова в контексте документа.
URL (англ. Uniform Resource Locator) — унифицированный указатель ресурса.
XML (англ. Extensible Markup Language) — расширяемый язык разметки.
YML (англ. Yandex Market Language) — стандарт передачи данных маркетплейса компании «Яндекс».
Приведённый ознакомительный фрагмент книги «Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии» предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других