Анализ сырых данных для поиска характерных структур

Для анализа серверных и сеансовых журналов (то есть для анализа и составления отче- тов по результатам измерений потоков щелчков) вы можете привлечь дополнительный источник данных. Некоторые сайты, перечисленные далее в этой главе в разделе «Инструменты извлечения данных», предоставляют инструменты для анализа информа- ции потока щелчков, дополняющей сведения из серверных журналов с целью извлече- ния из них данных. Используя такого рода вспомогательную службу, вы можете снять со своего сервера бремя сопровождения кода и анализа итоговых данных.

Вспомогательная служба нередко требует всего лишь помещения на ваш сайт файла скрытого изображения. Далее по хитам, которые ваш сайт генерирует на сервере вспо- могательной службы, можно установить, кем используется ваш сайт, когда и что в нем просматривалось, а также снять характеристики компьютеров посетителей. Независимо от того, какой способ сбора данных выбран вами, помните о таких преимуществах вспо- могательных служб извлечения данных:

• Инструменты, работающие на серверах вспомогательных служб, снижают нагрузку на ресурсы вашей собственной системы, обусловленную записью потоков щелчков.

• Извлечение данных отнимает значительное время и ресурсы, необходимые програм- мам для поиска характерных признаков в информации из потока щелчков. Использо- вание вспомогательной службы освобождает ваши собственные серверы от задачи переработки данных, решение которой может продолжаться до нескольких дней.

• Большинство служб представляют итоговые отчеты в графическом формате, что по- могает лучше понять обнаруженные характерные структуры данных.

С другой стороны, использование дополнительного источника может создать проблемы с защитой конфиденциальности. Если вы решите использовать вспомогательную службу, обязательно сообщите об этом в своей политике безопасности. Вы должны заявить, что собираете данные из потока щелчков, и ваши заказчики должны точно знать, какую информацию вы отслеживаете и что вы собираетесь с ней делать. Им будет приятно узнать, что эта инфор- мации не осядет мертвым грузом на ваших серверах.

Однако некоторые Web-путешественники полагают использование вспомога- тельной службы признаком дурного тона, поскольку слишком многим людям нравится копаться в том, что можно назвать личной информацией. Кроме того, некоторых людей обижает, что эта информация уходит с сайта. Всегда по- зволяйте своим заказчикам и посетителям выбирать, какую информацию вы отслеживаете, и насколько она индивидуальна. Другие проблемы использования вспомогательных служб обсуждаются далее в этой главе, в разделе «Вопросы конфиденциальности».

Анализ сырых данных для поиска характерных структур

Как можно найти характерные структуры в данных, извлеченных из всех источников на сайте?

Если ваш сайт сравнительно мат, либо ваши потребности невысоки, вы можете исполнять простые запросы в своих базах данных, чтобы определить средние значения, частоту и характерные структуры данных. Что же это такое - характерная структура?

Рассмотрим данные в Табл. 8.1, представляющие собой результат запроса сведений о последних распродажах товаров на сайте YeOldeWidgetShoppe.com. На основании дан- ных в этой таблице, вы можете установить, что с достоверностью 83% женщины поку- пают товары синего цвета. Характерные структуры в этих данных можно идентифици- ровать как места таблицы, в которых строки имеют не менее двух совпадающих столб- цов. Таким образом, в данном примере вы сравниваете строки, в которых значения в столбце Цвет_безделушки равны Синий, а значения в столбце Пол_заказчика равны Ж (Женский). Далее вы рассчитываете уровень достоверности путем деления итогового числа столбцов с синими товарами и покупателями-женщинами на число строк, в кото- рых значения в столбце Пол_заказчика равно Ж. В Табл. 8.1 имеется пять строк, в кото- рых женщины купили синие товары. Делим это значение на обшее число продаж това- ров женщинам, т.е. на шесть, и в итоге можем сказать, что с достоверностью 83% жен- щины предпочитают товары синего цвета.

А что, если вам нужно обработать огромный объем данных? На ваше счастье, некоторые компании продают программные инструменты, помогающие анализировать данные. По существу, некоторые инструменты выполняют как сбор данных, так и их анализ. В зависимости от объема данных, подлежащих обработке, и характера искомых харак- терных структур, анализ может продолжаться несколько часов, дней или даже недель.

Будьте готовы к тому, что поиск характерных структур отнимет у вас немалое время, но утешьтесь тем, что с помощью этих структур вы сможете создать для своих 'заказчиков намного более совершенный сайт.

Список программных инструментов можно найти далее в этой главе, в разделе «Инструменты извлечения данных».

Продолжение темы:

Полезная информация