Методы прогнозирования анализ временных рядов
Анализ временных рядов при прогнозировании перевозок.
Анализ временных рядов (АВР) – простейший метод восстановления зависимости в детерминированном случае, исходя из заданного временного ряда. Основная задача – экстраполяция (прогноз) – самый постой способ прогноза рыночной ситуации. Суть его – распространение тенденций, сложившихся в прошлом и будущем.
Многие рыночные процессы обладают инертностью, что учитывают при прогнозах. На определенный период следует максимально принимать во внимание вероятность изменения условий функционирования рынка. Делается предположение, что система эволюционирует в достаточно стабильных условиях. Чем система крупнее, тем вероятнее сохранение параметров без изменения, но не на большой срок. Рекомендуется, чтобы период прогноза не превышал 1/3 длительности исходной временной базы.
Временной ряд – серия числовых величин, полученных через регулярные промежутки времени Основное положение, на котором базируется использование временных рядов на предприятии – факторы, влияющие на отклик изучаемой системы, действующие в прошлом, настоящем и подобным образом будут действовать в недалеком будущем.
Цель анализа – оценка и выделение факторов с целью прогноза дальнейшего поведения системы и выработки рациональных УР. Прогноз на основе АВР – краткосрочный, в отношении периода, которого принимается, характеристики изучаемого явления существенно не изменяются. Большинство прогнозных ошибок связано с тем, что прогноз предполагает сохранение прошлых тенденций в будущем. Эта гипотеза редко оправдывается в экономической и общественной жизни.
ВР могут стать плохой основой для разработки прогноза, поэтому методы прогнозирования и АВР применяют для краткосрочного прогнозирования достаточно стабильных и хорошо изученных процессов. Прогнозируемый период не превышает 25-30% исходной временной базы. При использовании уравнения регрессии прогнозные расчеты проводят для оптимистических и пессимистических оценок исходных параметров. Отсюда получают 2 вида прогнозов: оптимистический и пессимистический. Прогнозную оценку, получаемую на основе методов прогнозирования, используют как индикатор желаемой величины прогнозного параметра.
ВР включает в себя:
1) тренд – показывает общий тип изменений, долгосрочного уменьшения и увеличения ряда,
2) сезонные колебания – колебания вокруг тренда, которые возникают на регулярной основе.
Обычно регулярные колебания возникают в период до года. Могут отслеживаться при ежеквартальных, ежемесячных, еженедельных и т.д. наблюдениях.
3) циклические колебания – возникают в периоды свыше года. Часто присутствуют в финансовых данных и связаны с резким спадом, бурным ростом и периодом застоя.
4) случайные колебания – непредсказуемые колебания в большинстве реальных ВР.
Требования к данным временного ряда
Все методы прогнозирования используют математическую статистику, поэтому необходимо, чтобы все данные были сопоставимы, достаточно представлены для проявления закономерности однородные и устойчивые. Невыполнение одного из этих требований делает бессмысленным применение математической статистики.
1. Сопоставимостьдостигается в результате одинакового подхода, к наблюдениям на разных этапах формирования временного ряда. Данные во временных рядах должны выражаться в одних и тех же единицах измерениях, иметь одинаковый шаг наблюдений, рассчитываться для одного и того же интервала времени по одной и той же методике, охватывать одни и те же элементы, принадлежащие одной территории и относящиеся к неизменной совокупности.
Несопоставимость данных чаще всего проявляется в стоимостных показателях. Даже в тех случаях когда значения этих показателей фиксируются в неизменных ценах. Такого рода несопоставимость временных рядов невозможно устранить чисто формальными методами.
2. Представительность данных характеризуется, прежде всего, полнотой представленных данных. Достаточное число наблюдений определяется в зависимости от цели проводимого исследования. Если целью является описательный статистический анализ, то в качестве изучаемого интервала времени можно выбрать любой интервал по своему усмотрению. Если же цель исследования — построение модели прогнозирования, то число данных исходного временного ряда должно не менее чем в 3 раза превышать период прогноза и не должно быть менее 7 данных. В случае использования квартальных или месячных данных для исследования сезонности и прогнозирования сезонных процессов, исходный временной ряд должен содержать квартальные либо месячные данные не менее чем за 4 года, даже если прогноз требуется на 1 или 2 месяца.
3.Однородность – отсутствие нетипичных аномальных наблюдений, а так же изломов тенденций (изменение). Аномальность приводит к смещению оценок и как следствие к искажению результатов анализа. Формально аномальность проявляется как сильный скачок или спад с последующим приблизительным восстановлением предыдущего уровня. Для диагностики аномальных наблюдений разработаны различные стандартные критерии.
4. Устойчивость– это свойство отражает преобладание закономерности над случайностью в изменениях уровня и ряда. На графиках устойчивых временных рядов даже визуально прослеживается закономерность. А на графиках неустойчивых временных рядов – изменения представлены хаотично. Поэтому поиск закономерностей в таких временных рядах не имеет смысла.
Модели временных рядов
Статистические методы исследования исходят из предположения возможности представления значений временного ряда в виде комбинации нескольких компонентов, отражающих закономерность и случайность развития. В частности для краткосрочных прогнозов применяется аддитивная (адаптивная) и мультипликативная модели.
1. Адаптивная (аддитивная)
t — номер временного интервала
T(t) – тренд развития (долговременная тенденция)
S(t) – сезонная компонента
Е(t) – остаточная компонента
При односильном постоянстве амплитуды сезонной волны целесообразно использовать аддитивную модель. При изменении амплитуды сезонной волны соответствие с тенденцией среднего уровня используется мультипликативная модель. Иногда используются модели смешанного типа, они дают более точный результат, но содержательно плохо интерпретируются. Применение мультипликативной модели обусловлено тем что в некоторых временных рядах значение сезонной компоненты представляет собой определенную долю трендового значения. Практика показывает что случаи, когда сезонные колебания исследуемого процесса велики и не очень стабильны, мультипликативная модель дает плохие результаты. Сезонная компонента характеризует устойчивые и внутригодичные колебания уровней – она проявляется в некоторых показателях представленных квартальными или месячными данными.
В моделях с аддитивной и мультипликативной компонентой общая процедура анализа примерно одинаковая.
1) расчет значений сезонной компоненты
2) вычитание сезонной компоненты из фактических значений – этот процесс называется десезонализации (устранение сезонности)
3) расчет ошибок как разности между фактическими и трендовыми значениями
4) расчет среднего отклонения или средней квадратической ошибки
В прогнозировании также применяются модели кривых роста.
Кривые роста – математические функции предназначенные для аналитического выравнивания временного ряда.
Для описания кривых роста используются следующие функции
1. Прямая Y(t) = a+bt
2. Парабола Y(t) = a+bt =ct 2
3. Гипербола Y(t) = a +b/t
7. Кривая Джонсона
8. Модифицированная экспонента
Сглаживание временных рядов
Выявление основной тенденции развития называется выравниванием или сглаживание временного ряда. Методы выявления основной тенденции – это методы выравнивания.
Один из наиболее простых приемов обнаружения общей тенденции развития явления – это укрупнение интервала динамического ряда. Для выявления тенденций развития используется метод скользящего среднего или метод экспоненциального сглаживания. Оба метода субъективны в отношении выбора параметров сглаживания. И именно в корректном выборе параметров проявляется интуиция исследователя.
Метод скользящего среднего – крайне субъективен и на результаты сглаживания сильно влияет длина периода сглаживаний. При небольших периодах не удается выявить трендовую компоненту. При больших периодах происходят значительные потери данных на концах анализируемого интервала.
Скользящая средняя порядка L – это временной ряд состоящий из среднеарифметических и среднеарифметических L в соседних значениях функции Y по всем возможным значениям времени. В качестве L – нечетное число, 3, 5,7 — трехточечные, пятиточечные и семиточечные.
Трехточечная схема: среднее значение будет рассчитываться по 3м значениям Yi, одно из которых относится к прошлому периоду, второе к искомому и 3 к будущему периоду. При i = 1 не существует прошлого значение, то в первой точке невозможно рассчитать сглаженное значение. При i = 2 то среднее значение будет средним арифметическим.
В последней точке исходного интервала скользящее среднее также невозможно рассчитать из-за отсутствия будущего значения по отношению к рассчитываемому.
Метод экспоненциального сглаживания – в отличие от скользящего среднего может быть использован для краткосрочным прогнозов в будущей тенденции на один период вперед. Именно поэтому метод обладает явным преимуществом перед предыдущим.
Алгоритм расчета сглаженных значений в любой точке ряда основан на 3х величинах: наблюдаемом значении Yi в данной точке, рассчитанном сглаженном значении для предшествующей точки ряда и некоторым заранее заданным коэффициентам сглаживания, постоянным по всему ряду.
Yi –фактическое значение итой точки ряда.
Сглаженное значение для предшествующей точки ряда — (альфа-1)
Альфа может принимать любые значения от 0 до1, но обычно на практике ограничиваются интервалом от 0,2 до 0.5
— Lt – сглаженная величина на текущий период;
— k – коэффициент сглаживания ряда;
— Yt – текущие значение ряда (например, объём продаж);
— Lt-1 – сглаженная величина за предыдущий период;
— Tt-1 – значение тренда за предыдущий период.
Анализ временных рядов
Составляющие временного ряда
При анализе временного ряда выделяют три составляющие: тренд, сезонность и шум. Тренд — это общая тенденция, сезонность, как следует из названия — влияния периодичности (день недели, время года и т.д.) и, наконец, шум — это случайные факторы.
Что бы понять отличие этих трёх величин, смоделируем функцию расстояния от земли до луны. Известно, что в среднем луна каждый год отдаляется на 4 см — это тренд, в течение дня луна совершает оборот вокруг земли и расстояние колеблется от
405400 км — это сезонность. Шум — это «случайные» факторы, например, влияние других планет. Если мы изобразим сумму этих трёх графиков, то мы получим временной ряд — функцию, показывающую изменение расстояния от земли до луны во времени.
Тренд. Методы сглаживания
Методы сглаживания необходимы для удаления шума из временного ряда. Существуют различные способы сглаживания, основные — это метод скользящей средней и метод экспоненциального сглаживания.
Метод скользящей средней
Идея метода скользящего среднего заключается в смещении точки графика на среднее значение некоторого интервала. В качестве интервала берут нечётное количество участков, например, три — предыдущий, текущий и следующий периоды, находится среднее и принимается в качестве сглаженного значения:
У данного метода есть проблема: случайное высокое или низкое значение сильно влияют на скользящую линию. В качестве решения были введены веса. Для распределение веса используют оконные функции, основные оконные функции — это окно Дирихле (прямоугольная функция), В-сплайны, полиномы, синусоидальные и косинусоидальные:
Минусы использования скользящей средней — это сложность вычислений и некорректные данные на концах графика.
Как видно из графика, увеличение n выдаёт более плавную функцию, таким образом нивелируя более мелкие колебания во временном ряду. Обратите внимание, что при сглаживании не имеет значения, совпадает график среднего с графиком данных или нет, целью является построение правильной формы.
Метод экспоненциального сглаживания
Метод экспоненциального сглаживания получил своё название потому, что в сглаженной функции экспоненциально убывает влияние предыдущего периода с неким коэффициентом чувствительности α. Сглаженное значение находится как разница между предыдущим действительным значением и рассчитанным значением:
Коэффициент чувствительности, α, выбирается между 0 и 1, в качестве базиса используют значение 0,3. Если есть достаточная выборка, то коэффициент подбирается путём оптимизации.
Методы прогнозирования
Методы прогнозирования основываются на выявлении тенденции во временном ряду и последующем использовании найденного значения для предсказания будущих значений. В методах прогнозирования выделяют тренд и сезонность, в общем случае, все типы сезонности могут быть найдены последовательными итерациями. Например, при анализе данных за год, можно выделить сезонность времени года, а в оставшемся тренде найти сезонность по дням недели и так далее.
Двойное экспоненциальное сглаживание
Двойное экспоненциальное сглаживание выдаёт сглаженное значение уровня и тенденции.
Smooth — сглаживание, сглаженный уровень на период τ, sτ, зависит от значения уровня на текущий период (Dτ), тренда за предыдущий период (tτ-1) и рассчитанного сглаженного значения на предыдущий период (sτ-1):
sτ = αDτ + (1 — α)(sτ-1 + tτ-1) Trend — тенденция, тренд на период τ, tτ, зависит от рассчитанного сглаженного значения за предыдущий и текущий периоды (sτ и sτ-1) и от предыдущей тенденции:
tτ = β(sτ-sτ-1) + (1-β)tτ-1 Рассчитанные по данным формулам уровень и тренд могут быть использованы в прогнозировании:
D’τ+h = sτ + h·tτ
При расчёте, значения s и t для первого периода назначают s1 = D1 и t=0
Метод Хольт-Винтерса
Метод Хольт-Винтерса включает в себя сезонную составляющую, т.е. периодичность. Существуют две разновидности метода — мультипликативный и аддитивный. В отличие от двойного экспоненциального сглаживания, метод Хольт-Винтерса изучает также влияние периодичности.
Общая идея нахождения значений сглаженного уровня, тренда и периодичности заключается в следующем: сглаженный уровень (s — smooth, иногда используют l — level) — это базовый уровень значений, тренд (t — trend) — это показатель скорости роста, разница между сглаженными значениями текущего и предыдущего периода. Для изучения периодичности (p — period), мы разбиваем данные на периоды размером k и выделяем влияние каждого элемента (1,2. k) периода на сглаженный уровень.
Для более точных расчётов вводится показатель обратной связи. В общем понимании, обратная связь — это влияние предыдущих значений на новые: например, когда Вы начинаете говорить, Вы регулируете громкость своего голоса в зависимости от того, что слышат Ваши уши — это и есть обратная связь.
Для начала расчётов, значения s, t и k, в самом простом виде, могут быть выбираны как sτ = Dτ, t = 0, p = 0.
Для прогнозирования используется следующая формула:
Мультипликативный метод Хольт-Винтерса
Мультипликативный метод отличается от аддитивного тем, что параметры, влияющие на периодичность и сглаженный уровень рассчитываются отношением:
Для прогнозирования используется следующая формула:
Метод Хольт-Винтерса в excel
Таблица для скачивания в форматах ods и xls.
Качество прогнозирования
Проверка качества прогнозирования возможна в случае наличия достаточной выборки и является важной проверкой на достоверность прогноза, для проверки и оптимизации значений α, β и γ необходимо построить прогноз на существующие данные, например, если у нас в наличии данные за пять лет и мы хотим предсказать следующий год, то необходимо построить модель на первых четырёх годах, проверить и оптимизировать коэффициенты для минимизации ошибки между прогнозом и данными на 5й год. После оптимизации модель может быть перестроена с учётом последнего периода для повышения точности, далее следует построение прогноза.
Методы оптимизации будут описаны в отдельной статье, ниже представлен пример прогнозирования методом Хольт Винтерса.
Методы анализа и прогнозирования временных рядов
- 18 недель
3 зачётных единицы
для зачета в своем вузе
О курсе
Целью курса является формирование умений по применению научно-обоснованной комплексной методологии анализа и прогнозирования временных рядов на основе методов статистического анализа, моделирования и прогнозирования информации, с учетом отечественного и зарубежного опыта по использованию подобных подходов на практике.
В курсе также описываются новые методы и подходы к обработке информации, являющиеся адаптивными, как по характеру их применения, так и по способу установления характеристик компонент временных рядов.
Формат
Еженедельные занятия будут включать просмотр тематических видео-лекций, изучение текстовых материалов с примерами, иллюстрирующими теоретические положения, выполнение тестовых заданий с анализом ответов и с рекомендациями обучающимся, а также выполнение учебных и контрольных заданий, в которых будет использоваться стандартное приложение для построения и анализа электронных схем.
Предусмотрено промежуточное контрольное тестирование по каждому разделу курса и итоговое контрольное тестирование по всему содержанию курса.
Информационные ресурсы
- Сафиуллин Н.Т. Разработка методики анализа временных рядов с помощью преобразования Хуанга-Гильберта: дисс. на соискание степени к.т.н. – 2015
- Голяндина Н.Э. Метод «Гусеница»-SSA: анализ временных рядов: Учеб. пособие. – СПб. – 2004
- Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. – М.: Дело, 2007
- Садовникова Н.А., Шмойлова Р.А. Анализ временных рядов и прогнозирование. – М.: «Футурис», 2009
- Мишулина О.А. Статистический анализ и обработка временных рядов. – М.: МИФИ, 2008
Требования
Базовая подготовка по направлению «Информационные системы и технологии
Программа курса
1. Базовые понятия теории временных рядов
1.1. Понятие временных рядов и их типовые модели
1.2. Основные характеристики временных рядов
1.3. Выявление свойств и типов временных рядов на основе статистического и спектрального анализа
2. Анализ временных рядов
2.1. Разбиение временных рядов на компоненты
2.2. Типовые виды главных компонент, на основе моделей авторегрессии
2.3. Адаптивный анализ временных рядов и их частотно-временные характеристики
3. Прогноз временных рядов
3.1. Прогнозирование трендовой составляющей временного ряда
3.2. Прогнозирование временных рядов на основе моделей авторегрессии
3.3. Адаптивный прогноз и методы коррекции
Результаты обучения
В результате освоения курса слушатель будет способен:
- анализировать особенности исходных данных, выбирать адекватные методы решения задач анализа данных;
- проводить научные исследования в области методов адаптивного анализа данных;
- разрабатывать методы и способы решения нестандартных задач в области адаптивного анализа данных.
Формируемые компетенции
Результатом обучения в рамках дисциплины является формирование у студента следующих компетенций:
- способностью совершенствовать и развивать свой интеллектуальный и общекультурный уровень (ОК-1);
- способность анализировать профессиональную информацию, выделять в ней главное, структурировать, оформлять и представлять в виде аналитических обзоров с обоснованными выводами и рекомендациями (ОПК-6);
- умением разрабатывать стратегии проектирования, определением целей проектирования, критериев эффективности, ограничений применимости (ПК-1);
- способностью к самостоятельному обучению новым методам исследования, к изменению научного и научно-производственного профиля своей профессиональной деятельности (ОК-2);
- способностью осуществлять сбор, анализ научно-технической информации, отечественного и зарубежного опыта по тематике исследования (ПК-7);
- умением проводить разработку и исследование теоретических и экспериментальных моделей объектов профессиональной деятельности в областях наука, техника (ПК-8);
- способностью разрабатывать методы решения нестандартных задач и новые методы решения традиционных задач (ПК-15).