Разработчикам

На страницах http://mediametrics.ru/data/archive/ размещены ежедневные архивы со "слепками" рейтинга новостей в течение дня.

На первом уровне идет разделение по тому, показатели за какой период находятся в слепках:

  • day - посещаемость за 24 часа;
  • hour - посещаемость за 1 час;
  • online - посещаемость за 10 минут.

Слепки с разными показателями делаются с разной частотой: с суточными показателями - раз в 5 минут, с часовыми - раз в минуту, с 10-минутными - раз в 10 секунд, поэтому самые большие архивы в каталоге online, в каждом архиве 8640 файлов-слепков.

Архивы создаются в течение нескольких минут после полуночи по московскому времени.

Внутри каталогов размещены ежедневные архивы по трем странам: России, Украине и Беларуси.

Например, рассмотрим архив http://mediametrics.ru/data/archive/day/ru-2014-04-01.zip
внутри него списки новостей с суточными показателями (day), по России (ru) за 1 апреля (2014-04-01).

В данном архиве 288 файлов (раз в 5 минут за день):
 day/ru-2014-04-01_00:00:00.tsv
 day/ru-2014-04-01_00:05:00.tsv
 day/ru-2014-04-01_00:10:00.tsv
и так далее. Каждый файл содержит список новостей на тот момент, который обозначен в имени файла (время московское), в списки записывается не более 500 новостей.

TSV - это текстовый формат данных, в котором колонки данных разделены символом табуляции.

В первой строчке находится обозначение колонок и служебные данные:

URL  Title  Visitors  Delta  Shift  ID  68201  1396296000
  • URL - адрес страницы новости;
  • Title - заголовок новости;
  • Visitors - количество посетителей за выбранный период;
  • Delta - разница в количестве посетителей с момента предыдущей генерации рейтинга (это частота отличается от частоты слепков за час и сутки, часовой и суточный рейтинг создаются раз в 10 и 30 секунд)
  • Shift - условный показатель движения новости по позициям рейтинга вверх (меньше нуля) или вниз (больше нуля);
  • ID - внутренний идентификатор новости, целое число (один идентификатор может быть присвоен разным новостям, появившихся с разницей более 3 месяцев);
  • 68201 - общее количество новостей в списке, но в слепок попадают только первые 500;
  • 1396296000 - время обновления рейтинга в виде так называемого unix timestamp (количество секунд с 1 января 1970 года)