В данный сборник вошли три статьи.В первой статье рассматриваются экспертные системы, их преимущества и недостатки, а также применимость для решения проблем категоризации агрегированных данных.Во второй рассматриваются принципы построения систем агрегации контента, а также такие научно-технические проблемы, как веб-краулинг, обнаружение нечетких дубликатов, суммаризация и т. д.В третьей статье приводится детальное описание архитектуры высоконагруженного RSS-агрегатора.
Приведённый ознакомительный фрагмент книги «Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии» предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других
Предисловие
В этой книге представлены три мои статьи, объединенные одной темой: агрегация контента и его обработка. Данные статьи первоначально были опубликованы на английском языке в журнале из перечня ВАК «Программные системы и вычислительные методы» и использовались мной в дальнейшем в качестве основы при написании магистерской диссертации по программной инженерии на тему «Исследование методов построения архитектур агрегаторов информации в сети Интернет».
В текущий сборник вошел перевод этих статей, выполненный мной самим. К каждому из опубликованных переводов добавлена ссылка на оригинал, а также сохранена оригинальная аннотация на русском языке.
Статьи представлены в полном объеме, без сокращений. Кроме того, в приложении представлены архитектуры систем агрегации информации, дополняющие публикуемые статьи. Для того чтобы сделать иллюстрации читаемыми в черно-белой печати, мне пришлось в статье «Масштабируемая система агрегации, предназначенная для обработки 50 000 RSS-каналов» их переработать, заменив на черно-белые, без потери смысла.
Материал, представленный в данной книге, может быть полезен для студентов ИТ-специальностей, разработчиков ПО, ИТ-менеджеров, а также для широкого круга людей, интересующихся разработкой систем агрегации информации и построением сложных распределенных информационных систем.