На страницах http://mediametrics.ru/data/archive/ размещены ежедневные архивы со "слепками" рейтинга новостей в течение дня.
На первом уровне идет разделение по тому, показатели за какой период находятся в слепках:
Слепки с разными показателями делаются с разной частотой: с суточными показателями - раз в 5 минут, с часовыми - раз в минуту, с 10-минутными - раз в 10 секунд, поэтому самые большие архивы в каталоге online, в каждом архиве 8640 файлов-слепков.
Архивы создаются в течение нескольких минут после полуночи по московскому времени.
Внутри каталогов размещены ежедневные архивы по трем странам: России, Украине и Беларуси.
Например, рассмотрим архив
http://mediametrics.ru/data/archive/day/ru-2014-04-01.zip
внутри него списки новостей с суточными показателями (day), по России (ru)
за 1 апреля (2014-04-01).
В данном архиве 288 файлов (раз в 5 минут за день):
day/ru-2014-04-01_00:00:00.tsv
day/ru-2014-04-01_00:05:00.tsv
day/ru-2014-04-01_00:10:00.tsv
и так далее. Каждый файл содержит список новостей на тот момент, который
обозначен в имени файла (время московское), в списки записывается не более
500 новостей.
TSV - это текстовый формат данных, в котором колонки данных разделены символом табуляции.
В первой строчке находится обозначение колонок и служебные данные:
URL Title Visitors Delta Shift ID 68201 1396296000