Как сделать апроксимацию в excel? Аппроксимация экспериментальных данных в программе Microsoft Excel.

Подписаться
Вступай в сообщество «koon.ru»!
ВКонтакте:

Решить задачу аппроксимации экспериментальных данных – значит построить уравнение регрессии. Задача аппроксимации возникает в случае необходимости аналитически, то есть в виде математической зависимости, описать реальные явления, наблюдения за которыми заданы в виде таблицы, содержащей значения показателя в разные моменты времени или при разных значениях независимого аргумента. Например,

Известны показатели прибыли (их можно обозначить Y ) в зависимости от размера капиталовложений (X );

Известны объемы реализации фирмы (Y ) за шесть недель ее работы. В этом случае, X – это последовательность недель.

Иногда говорят, что требуется построить эмпирическую модель . Эмпирической называется модель, построенная на основе реальных наблюдений. Если модель удается найти, можно сделать прогноз о поведении исследуемого явления и процесса в будущем и, возможно, выбрать оптимальное направление ее развития.

В общем случае задача аппроксимации экспериментальных данных имеет следующую постановку :

Пусть известны данные, полученные практическим путем (в ходе n экспериментов или наблюдений), которые можно представить парами чисел i ; у i) . Зависимость между ними отражает таблица:

X х 1 х 2 х 3 х n
Y y 1 y 2 y 3 y n

Имеется класс разнообразных функций F . Требуется найти аналитическое (т.е. математическое) выражение зависимости между этими показателями, то есть надо подобрать из множества функций F функцию f , такую что . которая наилучшим образом сглаживала бы экспериментальную зависимость между переменными и по возможности точно отражала общую тенденцию зависимости между X и Y , исключая погрешности измерения и случайные отклонения.

Выяснить вид функции можно либо из теоретических соображений, либо анализируя расположение точек (х i ; у i) на координатной плоскости.

Графически решить задачу аппроксимации означает, провести такую кривую , точки которой (х i ; ŷ i) находились бы как можно ближе к исходным точкам (х i ; у i) , отображающим экспериментальные данные.

Для решения задачи аппроксимации используют метод наименьших квадратов .

При этом функция считается наилучшим приближением к , если для нее сумма квадратов отклонений «теоретических» значений , найденных по эмпирической формуле, от соответствующих опытных значений , имеет наименьшее значение по сравнению с другими функциями, из числа которых выбирается искомое приближение.

Математическая запись метода наименьших квадратов имеет вид:

где n - количество наблюдений показателей.

Таким образом, задача аппроксимации распадается на две части.

Сначала устанавливают вид зависимости и, соответственно, вид эмпирической формулы, то есть решают, является ли она линейной, квадратичной, логарифмической или какой-либо другой. Если нет каких-либо теоретических соображений для подбора вида формулы, обычно выбирают функциональную зависимость из числа наиболее простых, сравнивая их графики с графиком заданной функции.

После этого определяются численные значения неизвестных параметров выбранной эмпирической формулы, для которых приближение к заданной функции оказывается наилучшим.

Простейшим видом эмпирической модели с двумя параметрами, используемой для аппроксимации результатов экспериментов, является линейная регрессия, описываемая линейной функцией:

где а, b - искомые параметры.

Для модели линейной регрессии метод наименьших квадратов (1) запишется:

Для решения (2) относительно а и b приравнивают к нулю частные производные:

В итоге для нахождения a и b надо решить систему линейных алгебраических уравнений вида:

(3)

Реализовать метод наименьших квадратов в случае линейной регрессии в Excel можно различными способами.

1 способ. Построить систему линейных алгебраических уравнений, подставив в (3) все известные значения, и решить ее, например, матричным методом (см. зад. 4).

В формульном виде элемент расчетной таблицы приведен на рис. 26.

2 способ. Решить в Excel задачу оптимизации (2), применив для этого Поиск решения (см. зад. 5).

Замечание 1. Следует обратить внимание, что для целевой функции S удобно применить встроенную математическую функцию СУММКВРАЗН(массив1;массив2) , в результате которой как раз и вычисляется сумма квадратов разностей двух массивов. В нашем случае следует в качестве массива1 указать диапазон исходных значений , а в качестве массива2 – «теоретические» значения , рассчитанные по формуле , где a и b – это адреса ячеек с искомыми значениями.

Замечание 2. В диалоговом окне команды Поиск решения следует задать целевую ячейку, направление цели – на минимум и изменяемые ячейки (рис. 28). Данная задача ограничений не содержит.

Замечание3. В качестве эмпирических моделей с двумя параметрами могут использоваться и нелинейные модели вида:


Описанный способ решения метода наименьших квадратов применим и для нелинейных зависимостей.

3 способ. Для нахождения значений параметров a и b в случае линейной регрессии можно использовать следующие встроенные в Excel статистические функции:

НАКЛОН(известные_значения_У; известные_значения_Х)

ОТРЕЗОК(известные_значения_У; известные_значения_Х)

ЛИНЕЙН (известные_значения_У; известные_значения_Х)

Причем, функция НАКЛОН () возвращает значение параметра а , функция ОТРЕЗОК() возвращает значение параметра b. Функция ЛИНЕЙН() возвращает одновременно оба параметра линейной зависимости, так как является функцией массива. Поэтому для ввода функции ЛИНЕЙН() в таблицу надо соблюдать следующие правила:

· выделить две рядом стоящие ячейки

· ввести формулу

· по окончании нажать одновременно комбинацию клавиш Ctrl+ Shift+Enter.

В результате в левой ячейке получится значение параметра а , а в правой – значение параметра b.

Для решения задачи аппроксимации графическим способом в Excel надо построить по исходным данным график, например, точечную диаграмму со значениями, соединенными сглаживающими линиями (см.зад.1). На эту диаграмму Excel может нанести Линию тренда . Линию тренда можно добавить к любому ряду данных, использующему следующие типы диаграмм: диаграммы с областями, графики, гистограммы, линейчатые или точечные диаграммы.

При создании линии тренда в Excel на основе данных диаграммы применяется та или иная аппроксимация. Excel позволяет выбрать один из пяти аппроксимирующих линий или вычислить линию, показывающую скользящее среднее.

Кроме того, Excel предоставляет возможность выбирать значения пересечения линии тренда с осью Y, а также добавлять к диаграмме уравнение аппроксимации и величину достоверности аппроксимации (R 2). Также, можно определять будущие и прошлые значения данных, исходя из линии тренда и связанного с ней уравнения аппроксимации.

Полиномиальная аппроксимация непрерывной на отрезке функции.

Аппроксимация (от латинского "approximate" -"приближаться")- приближенное выражение каких-либо математических объектов (например, чисел или функций) через другие более простые, более удобные в пользовании или просто более известные. В научных исследованиях аппроксимация применяется для описания, анализа, обобщения и дальнейшего использования эмпирических результатов.

Как известно, между величинами может существовать точная (функциональная) связь, когда одному значению аргумента соответствует одно определенное значение, и менее точная (корреляционная) связь, когда одному конкретному значению аргумента соответствует приближенное значение или некоторое множество значений функции, в той или иной степени близких друг к другу. При ведении научных исследований, обработке результатов наблюдения или эксперимента обычно приходиться сталкиваться со вторым вариантом. При изучении количественных зависимостей различных показателей, значения которых определяются эмпирически, как правило, имеется некоторая их вариабельность. Частично она задается неоднородностью самих изучаемых объектов неживой и, особенно, живой природы, частично обуславливается погрешностью наблюдения и количественной обработке материалов. Последнюю составляющую не всегда удается исключить полностью, можно лишь минимизировать ее тщательным выбором адекватного метода исследования и аккуратностью работы. Поэтому при выполнении любой научно-исследовательской работы возникает проблема выявления подлинного характера зависимости изучаемых показателей, этой или иной степени замаскированных неучтенностью вариабельности значений. Для этого и применяется аппроксимация - приближенное описание корреляционной зависимости переменных подходящим уравнением функциональной зависимости, передающим основную тенденцию зависимости (или ее "тренд").

При выборе аппроксимации следует исходить из конкретной задачи исследования. Обычно, чем более простое уравнение используется для аппроксимации, тем более приблизительно получаемое описание зависимости.

Поэтому важно считывать, насколько существенны и чем обусловлены отклонения конкретных значений от получаемого тренда. При описании зависимости эмпирически определенных значений можно добиться и гораздо большей точности, используя какое-либо более сложное, много параметрическое уравнение. Однако нет никакого смысла стремиться с максимальной точностью передать случайные отклонения величин в конкретных рядах эмпирических данных. Гораздо важнее уловить общую закономерность, которая в данном случае наиболее логично и с приемлемой точностью выражается именно двухпараметрическим уравнением степенной функции. Таким образом, выбирая метод аппроксимации, исследователь всегда идет на компромисс: решает, в какой степени в данном случае целесообразно и уместно "пожертвовать" деталями и, соответственно, насколько обобщенно следует выразить зависимость сопоставляемых переменных. Наряду с выявлением закономерностей, замаскированных случайными отклонениями эмпирических данных от общей закономерности, аппроксимация позволяет также решать много других важных задач: формализовать найденную зависимость; найти неизвестные значения зависимой переменной путем интерполяции или, если это допустимо, экстраполяции.

Здесь будет рассмотрена полиномиальная аппроксимация. Это означает, что наша задача состоит в том, что, опираясь на начальные данные (функция и отрезок), необходимо найти такой полином, отклонение линии которого от графика начальной функции будет минимальным.

Наиболее популярным методом полиномиальной аппроксимации является метод наименьших квадратов. В Excel он реализуется при помощи диаграммы и линии тренда.

Разберем данный метод в Excel.

Начальные данные:

Сначала нам необходимо разбить данный отрезок при помощи "Чебышевского" разбиения, т.к. данный вид разбиения всегда дает более точный результат.

В колонке I(рис. 1) записываем числа от 0 до 8, т.к. отрезок разбиваем на 8 частей.

В колонке z ячейки вычисляем по формуле: COS(3,141593*I/8). Для вычисления каждой ячейки используем соответствующее ей I.

Значение каждого x находим по формуле: 2*z + 1.

В колонке F(x) вычисляем значение данной функции для каждого x.


Рисунок 1
Далее в ячейках H2,I2,J2 задаем начальные значения коэффициентов a, b и c в искомом полиноме (рис. 2).


Рисунок 2
В столбце F со 2 по 10 ячейки вычисляем значения отклонений, т.е. модуль разности между значением начальной функции и найденным полиномом.

Формула: ABS((1+x^2)^0,5+2^(-x)-($H$2*x^2+$I$2*x+$J$2)).

В ячейке B11 вычисляется сумма отклонений, а в ячейке B12 среднее отклонение (рис. 3).


Рисунок 3
С помощью "Мастера диаграмм" строим точечную диаграмму, исходя из данных столбцов x и F(x). Теперь во вкладке "Диаграмма" выбираем "Добавить линию тренда" и устанавливаем необходимый флажок для того, чтобы показать уравнение на диаграмме (рис. 4).


Рисунок 4
Теперь подставляем коэффициенты из полученного уравнения в ячейки H2, I2 и J2 (рис. 5).


Рисунок 5
Как видно, среднее отклонение равно 0,117006252.

Найденный полином: 0,363*x² - 0,6901*x + 2,2203.

Предложим иной метод полиномиальной аппроксимации.

Открываем вкладку "Сервис" и выбираем "Поиск решений". В появившемся окне целевой ячейкой указываем F11, причем равной минимальному значению. В поле "изменяя ячейки" указываем H2, I2 и J2.

Нажимаем кнопку "Выполнить". После выполнения процедуры мы видим, что результаты изменились (рис. 6).


Рисунок 6
На этот раз среднее отклонение равно 0,106084329.

Найденный полином: 0,35724*x² - 0,702*x + 2,259158.

Этот результат существенно точнее предыдущего, что подтверждает преимущество использования минимизации суммы отклонений по сравнению с методом наименьших квадратов.

ЗАВИСИМОСТЕЙ

Excel располагает средствами, позволяющими прогнозировать процессы. Задача аппроксимации возникает в случае необходимости аналитически описать явления, имеющие место в жизни и заданные в виде таблиц, содержащих значения аргумента (аргументов) и функции. Если зависимость удается найти, можно сделать прогноз о поведении исследуемой системы в будущем и, возможно, выбрать оптимальное направление ее развития. Такая аналитическая функция (называемая еще трендом) может иметь разный вид и разный уровень сложности в зависимости от сложности системы и желаемой точности представления.

10.1. Линейная регрессия

Самый простой и популярной является аппроксимация прямой линией – линейная регрессия.

Пусть мы имеем фактическую информацию об уровнях прибыли Y в зависимости от размера X капиталовложений – Y(X). На рис. 10.1-1 показаны четыре такие точки М(Y,X). Пусть также у нас имеются основания предполагать, что зависимость эта линейная, т.е. имеет вид Y=А+ВX. Если бы нам удалось найти коэффициенты A и B и по ним построить прямую (например, такую, как на рисунке), в дальнейшем мы могли бы сделать осознанные предположения о динамике бизнеса и возможном коммерческом состоянии предприятия в будущем. Очевидно, что нас бы устроила прямая, находящаяся как можно ближе к известным точкам М(Y,X), т.е. имеющая минимальную сумму отклонений или сумму ошибок (на рисунке отклонения показаны пунктирными линиями). Известно, что существует только одна такая прямая.

Для решения этой задачи используют метод наименьших квадратов ошибок. Разность (ошибка) между известным значением Y1 точки М1(Y1,X1) и значением Y(X1), вычисленным по уравнению прямой для того же значения X1, составит

D1 = Y1 – A – B X1.

Такая же разность

для X=X2 составит D2 = Y2 – A – B X2;

для X=X3 D3 = Y3 – A – B X3;

и для X=X4 D4 = Y4 – A – B X4.

Запишем выражение для суммы квадратов этих ошибок

Ф(A,В)=(Y1–A–B X1) 2 +(Y2–A–B X2) 2 +(Y3–A–B X3) 2 +(Y4–A–B X4) 2

или сокращенно Ф(B,A) = å(Yi – A – BXi) 2 .

Здесь нам известны все X и Y и неизвестны коэффициенты A и B. Проведем искомую прямую так (т.е. выберем A и B такими), чтобы эта сумма квадратов ошибок Ф(A,B) была минимальной. Условиями минимальности являются известные соотношения

¶Ф(A,B)/¶A=0 и ¶Ф(A,B)/¶B=0.

Выведем эти выражения (индексы при знаке суммы опускаем):

¶[å(Yi–A–B Xi) 2 ]/¶A = å(Yi–A–B Xi)(–1)

¶[å(Yi–A–B Xi) 2 ]/¶B = å(Yi–A–B Xi)(–Xi).

Преобразуем полученные формулы и приравняем их нулю

Решение задач аппроксимации средствами Excel

доктор физ.– мат. наук, профессор Гавриленко В.В. ассистент Парохненко Л.М.

(Национальный транспортный университет)

Теоретическая справка. На практике при моделировании различных про-

цессов, в частности, экономических, физических, технических, социальных,

широко используются те или иные способы вычисления приближенных значе-

ний функций по известным их значениям в некоторых фиксированных точках.

Такого рода задачи приближения функций часто возникают:

при построении приближенных формул для вычисления значений характер-

ных величин исследуемого процесса по данным таблиц, полученным в ре-

зультате физического или вычислительного эксперимента;

при численном интегрировании, численном дифференцировании, числен-

ном решении дифференциальных уравнений и т.д.;

при необходимости вычисления значений функций в промежуточных точ-

ках рассматриваемого интервала;

при определении значений характерных величин процесса за пределами рас-

сматриваемого интервала, в частности, при необходимости заглянуть в

“ прошлое”), то есть при определении значений показателей процесса до на-

чала наблюдения;

в прогнозировании, то есть при получении предварительных оценок буду-

щих значений интересуемых показателей процесса (возможность заглянуть

в “ будущее”).

Если для моделирования некоторого процесса, заданного таблицей, по-

строить приближенно описывающую данный процесс функцию на основе ме-

тода наименьших квадратов, то она называется аппроксимирующей функцией

(регрессией), а сама задача построения аппроксимирующих функций называет-

ся задачей аппроксимации.

В данной статье рассмотрены возможности пакета Excel при реше-

нии задач аппроксимации, а именно, приведены методы и приемы построения

(создания) регрессий для таблично заданных функций, что является основой регрессионного анализа.

В Excel для построения регрессий имеются такие возможности, как:

1) добавление выбранных регрессий (линий тренда) в диаграмму, построенную на основе таблицы данных для исследуемой характеристики процесса (этим инструментом можно воспользоваться лишь при наличии построенной диа-

2) использование встроенных статистических функций рабочего листа Excel ,

позволяющих получать регрессии (линии тренда) на основе таблицы исход-

ных данных (использование данного инструмента предварительно не связы-

вается с наличием соответствующей диаграммы).

Добавление линий тренда в диаграмму

Для таблицы данных, описывающих некоторый процесс и представленных диаграммой, в Excel имеется эффективный инструмент регрессионного анали-

за, позволяющий:

∙ строить на основе метода наименьших квадратов и добавлять в диаграмму пять типов регрессий (линий тренда), которые с той или иной степенью точно-

сти моделируют исследуемый процесс;

добавлять к диаграмме уравнение построенной регрессии;

определять степень соответствия выбранной регрессии отображаемым на диаграмме данным.

Построенные модели процесса – линии тренда (trendlines) показывают

тенденцию изменения данных, дают возможность определять значения иссле-

дуемой характеристики в промежуточных точках, прогнозировать поведение данного процесса в будущем (задача экстраполяции), а также заглянуть в его прошлое.

На основе данных диаграммы Excel позволяет получать такие типы регрес-

сий или линий тренда, как линейный, полиномиальный, логарифмический, сте-

пенной, экспоненциальный, которые задаются уравнением y = y(x) , где x – неза-

висимая переменная, которая часто принимает значения последовательности натурального ряда чисел (1; 2; 3; …) и производит, например, отсчет времени протекания исследуемого процесса.

1. Линейная регрессия хороша при моделировании характеристик, значения которых увеличиваются или убывают с постоянной скоростью. Это наиболее простая в построении, но наименее точная модель исследуемого процесса.

y = m x + b ,

где m – угол наклона линейной регрессии к оси абсцисс; b – координата точки пересечения линейной регрессии с осью ординат.

2. Полиномиальная линия тренда полезна для описания характеристик,

имеющих несколько ярко выраженных экстремумов (максимумов и миниму-

мов). Выбор степени полиномиальной линии тренда (полинома) определяется количеством экстремумов исследуемой характеристики. Так, полином второй степени может хорошо описать характеристику, имеющую только один макси-

мум или минимум; полином третьей степени – не более двух экстремумов; по-

лином четвертой степени – не более трех экстремумов и т.д.

Строится в соответствии с уравнением

y = c0 + c1 x + c2 x2 + c3 x3 + c4 x4 + c5 x5 + c6 x6 ,

где коэффициенты c 0 , c 1 , c 2 ,...c 6 – константы.

3. Логарифмическая линия тренда с успехом применяется при моделирова-

нии характеристик, значения которых вначале быстро растут или убывают по величине, а затем постепенно стабилизируются.

Строится в соответствии с уравнением

y = c× ln(x)+ b,

4. Степенная линия тренда дает хорошие результаты, если значения иссле-

дуемой зависимости характеризуются постоянным изменением скорости роста.

Примером такой зависимости может служить график равноускоренного движе-

ния автомобиля. При наличии в данных нулевых или отрицательных значений использовать степенную линию тренда нельзя.

Строится в соответствии с уравнением

y = c× xb ,

где коэффициенты b, с – константы.

5. Экспоненциальная линия тренда следует использовать в том случае, если скорость изменения данных непрерывно возрастает. Для данных, содержащих нулевые или отрицательные значения, этот вид приближения неприменим.

Строится в соответствии с уравнением

y = c× eb × x ,

где коэффициенты b, с – константы.

При подборе линии тренда Excel автоматически рассчитывает значение величиныR 2 , которая характеризует достоверность аппроксимации: чем ближе значениеR 2 к единице, тем надежнее линия тренда аппроксимирует исследуе-

мый процесс. При необходимости значение R 2 всегда можно отобразить на

диаграмме.

Определяется по формуле

R 2 = 1-

Σ1 = ∑(yj − Yj )2

S2 =∑Y j 2 -

× (∑Yj )2

Для добавления линии тренда к ряду данных следует:

1. Активизировать построенную на основе ряда данных диаграмму, т.е. щелк-

нуть в пределах области диаграммы. В главном меню появится пункт Диа-

2. После щелчка на этом пункте на экране появится меню, в котором следует выбрать команду Добавить линию тренда.

затель мыши к графику, построенного на ряде данных, и щелкнуть правой кла-

вишей мыши, и в появившемся контекстном меню выбрать команду Добавить

линию тренда. На экране появится диалоговое окно Линия тренда с раскры-

той вкладкой Тип (рис.1).

Рис.1. Вкладка Тип диалогового окна Формат линии тренда

3. Выбрать на вкладке Тип необходимый тип линии тренда (по умолчанию выбирается тип Линейный). Для типа Полиномиальная в поле Степень сле-

дует задать степень выбранного полинома.

4. В поле Построен на ряде перечислены все ряды данных рассматриваемой диаграммы. Для добавления линии тренда к конкретному ряду данных следует в поле Построен на ряде выбрать его имя.

5. При необходимости, перейдя на вкладку Параметры (рис.2), можно для ли-

нии тренда задать следующие параметры:

∙ Изменить название линии тренда в поле Название аппроксимирующей

(сглаженной) кривой;

∙ Задать количество периодов (вперед или назад) для прогноза в поле Про-

∙ Вывести в область диаграммы уравнение линии тренда, для чего следует ус-

тановить флажок для опции «показать уравнение на диаграмме».

∙ Вывести в область диаграммы значение достоверности аппроксимации R 2 ,

для чего следует установить флажок для опции «поместить на диаграмму ве-

личину достоверности аппроксимации (R^2) ».

∙ Задать точку пересечения линии тренда с осью Y, для чего следует устано-

вить флажок для опции «пересечение кривой с осью Y в точке: ». 6. Нажать клавишуOK .

Рис.2. Вкладка Параметры диалогового окна Линия тренда

Для редактирования уже построенной линии тренда следует:

1. Щелкнуть левой клавишей мыши по той линии тренда, которую требуется

изменить.

2. Нажать в главном меню клавишу Формат, а появившемся контекстном ме-

ню выбрать команду Выделенная линия тренда.

Пункты 1–2 легко реализуются также следующим приемом: направить ука-

затель мыши к графику линии тренда, щелкнуть правой клавишей мыши, и в появившемся контекстном меню выбрать команду Формат линии тренда.

Еще легче реализуются пункты 1–2: двойным щелчком левой клавишей мыши по графику линии тренда.

3. На экране появится диалоговое окно Формат линии тренда (рис.3), содер-

жащее три вкладки: Вид, Тип, Параметры, причем содержимое вкладок Тип,

Параметры полностью совпадает с аналогичными вкладками диалогового ок-

на Линия тренда (рис.1–2).

4. При необходимости, перейдя на вкладку Вид (рис.3), можно для линии тренда задать тип линии, ее цвет и толщину.

5. Нажать клавишу OK .

Для удаления уже построенной линии тренда следует выбрать удаляемую линию тренда и нажать клавишуDelete .

Достоинствами этого инструмента регрессионного анализа являются:

∙ относительная легкость построения на диаграммах линии тренда без созда-

ния для нее таблицы данных;

достаточно широкий перечень типов предложенных линий трендов, причем в этот перечень входят наиболее часто используемые регрессии;

возможность прогнозирования поведения исследуемого процесса на произ-

вольное (в пределах здравого смысла) количество шагов вперед, а также назад;

возможность получения уравнения линии тренда в аналитическом виде;

возможность, при необходимости, получения оценки достоверности прове-

денной аппроксимации.

К недостаткам можно отнести следующие моменты:

построение линии тренда осуществляется лишь при наличии построенной на ряде данных диаграммы;

несколько загроможден процесс формирования рядов данных для исследуе-

мой характеристики на основании полученных для нее уравнений линий трен-

да, так как коэффициенты этих уравнений при каждом изменении значений ря-

да данных пересчитываются, но лишь в пределах области диаграммы;

∙ в отчетах сводных диаграмм при изменении представления диаграммы или связанного отчета сводной таблицы имеющиеся линии тренда не сохраняются,

то есть до проведения линий тренда или другого форматирования отчета свод-

ных диаграмм следует убедиться, что макет отчета удовлетворяет необходи-

мым требованиям.

Рис.3. Вкладка Вид диалогового окна Формат линии тренда

Линиями тренда можно дополнить ряды данных, представленные на гра-

фиках, гистограммах, плоских ненормированных диаграммах с областями, ли-

нейчатых, точечных, пузырьковых и биржевых диаграммах.

Нельзя дополнить линиями тренда ряды данных на объемных, нормиро-

ванных, лепестковых, круговых и кольцевых диаграммах. При замене типа диа-

граммы на один из вышеперечисленных, а также при изменении представления отчета сводной диаграммы или связанного отчета сводной таблицы соответст-

вующие данным линии тренда будут утеряны.

Использование встроенных функций Excel

В Excel имеется также инструмент регрессионного анализа для построения линий тренда вне области диаграммы. Для этой цели можно использовать ряд статистических функций рабочего листа, однако все они позволяют строить лишь линейные или экспоненциальные регрессии.

В Excel имеется несколько вариантов построения линейной регрессии (ли-

нейного тренда), в частности:

с помощью функции ТЕНДЕНЦИЯ;

с помощью функции ЛИНЕЙН;

с помощью функций НАКЛОН и ОТРЕЗОК .

В Excel имеется также несколько вариантов построения экспоненциальной линии тренда, в частности:

с помощью функции РОСТ;

с помощью функции ЛГРФПРИБЛ.

Следует отметить, что приемы построения регрессий с помощью функций

ТЕНДЕНЦИЯ и РОСТ практически совпадают. То же самое можно сказать и о паре функций ЛИНЕЙН и ЛГРФПРИБЛ. Для всех этих четырех функций при создании таблицы значений используются такие возможности Excel , как формулы массивов, что несколько загромождает процесс построения регрес-

сий. Заметим также, что построение (создание) линейной регрессии, на наш взгляд, легче всего осуществить с помощью функций НАКЛОН и ОТРЕЗОК,

где первая из них определяет угловой коэффициент линейной регрессии, а вто-

рая – отрезок, отсекаемый регрессией на оси ординат.

Достоинствами данного инструмента регрессионного анализа являются:

∙ достаточно простой однотипный процесс формирования рядов данных ис-

следуемой характеристики для всех встроенных статистических функций, за-

дающих линии тренда;

∙ стандартная методика построения линий тренда на основе сформированных рядов данных;

∙ возможность прогнозирования поведения исследуемого процесса на необ-

ходимое количество шагов вперед или назад.

К недостаткам данного инструмента можно отнести то, что вExcel нет встроенных функций для создания других (кроме линейного и экспоненциаль-

ного) типов линий тренда. Это обстоятельство часто не позволяет подобрать с помощью выше перечисленных встроенных функций достаточно точную мо-

дель исследуемого процесса, а также получать близкие к реальности прогнозы.

Кроме того, при использовании функций ТЕНДЕНЦИЯ и РОСТ не известны уравнения линий тренда.

тьи – на конкретных примерах показать возможности пакета Excel при реше-

нии задач аппроксимации; продемонстрировать, каким эффективными инстру-

ментами для построения регрессий и прогнозирования обладает Excel ; проил-

люстрировать, как относительно легко такие задачи могут быть решены даже пользователем, не владеющим глубокими знаниями регрессионного анализа.

Предложенная в статье методика по овладению навыков решения средства-

ми Excel такого рода задач (см. также , где приведены методики решения вExcel систем линейных алгебраических уравнений, нелинейных уравнений,

задач оптимизации, транспортных задач) может быть полезна и интересна пользователям. Это связано с тем, что пакет Excel установлен практически на каждом современном компьютере, в то время как такие известные специализи-

рованные математические пакеты, как Mathematica ,Maple ,Matlab ,Mathcad ,

обладающие более мощными возможностями для построения регрессий и про-

гнозирования, используются значительно меньшей пользовательской аудито-

Ниже приводятся решения конкретных задач с помощью перечисленных инструментов пакета Excel .

Задача 1 . Для таблицы данных о прибыли автотранспортного предприятия за 1995–2002 г.г. необходимо выполнить следующие действия.

(Обратите внимание на дополнительный раздел от 04.06.2017 в конце статьи.)

Учет и контроль! Те, кому за 40 должны хорошо помнить этот лозунг из эпохи построения социализма и коммунизма в нашей стране.

Но без хорошо налаженного учета невозможно эффективное функционирование ни страны, ни области, ни предприятия, ни домашнего хозяйства при любой общественно-экономической формации общества! Для составления прогнозов и планов деятельности и развития необходимы исходные данные. Где их брать? Только один достоверный источник – это ваши статистические учетные данные предыдущих периодов времени.

Учитывать результаты своей деятельности, собирать и записывать информацию, обрабатывать и анализировать данные, применять результаты анализа для принятия правильных решений в будущем должен, в моем понимании, каждый здравомыслящий человек. Это есть ничто иное, как накопление и рациональное использование своего жизненного опыта. Если не вести учет важных данных, то вы через определенный период времени их забудете и, начав заниматься этими вопросами вновь, вы опять наделаете те же ошибки, что делали, когда впервые этим занимались.

«Мы, помню, 5 лет назад изготавливали до 1000 штук таких изделий в месяц, а сейчас и 700 еле-еле собираем!». Открываем статистику и видим, что 5 лет назад и 500 штук не изготавливали…

«Во сколько обходится километр пробега твоего автомобиля с учетом всех затрат?» Открываем статистику – 6 руб./км. Поездка на работу – 107 рублей. Дешевле, чем на такси (180 рублей) более чем в полтора раза. А бывали времена, когда на такси было дешевле…

«Сколько времени требуется для изготовления металлоконструкций уголковой башни связи высотой 50 м?» Открываем статистику – и через 5 минут готов ответ…

«Сколько будет стоить ремонт комнаты в квартире?» Поднимаем старые записи, делаем поправку на инфляцию за прошедшие годы, учитываем, что в прошлый раз купили материалы на 10% дешевле рыночной цены и – ориентировочную стоимость мы уже знаем…

Ведя учет своей профессиональной деятельности, вы всегда будете готовы ответить на вопрос начальника: «Когда!!!???». Ведя учет домашнего хозяйства, легче спланировать расходы на крупные покупки, отдых и прочие расходы в будущем, приняв соответствующие меры по дополнительному заработку или по сокращению необязательных расходов сегодня.

В этой статье я на простом примере покажу, как можно обрабатывать собранные статистические данные в Excel для возможности дальнейшего использования при прогнозировании будущих периодов.

Аппроксимация в Excel статистических данных аналитической функцией.

Производственный участок изготавливает строительные металлоконструкции из листового и профильного металлопроката. Участок работает стабильно, заказы однотипные, численность рабочих колеблется незначительно. Есть данные о выпуске продукции за предыдущие 12 месяцев и о количестве переработанного в эти периоды времени металлопроката по группам: листы, двутавры, швеллеры, уголки, трубы круглые, профили прямоугольного сечения, круглый прокат. После предварительного анализа исходных данных возникло предположение, что суммарный месячный выпуск металлоконструкций существенно зависит от количества уголков в заказах. Проверим это предположение.

Прежде всего, несколько слов об аппроксимации. Мы будем искать закон – аналитическую функцию, то есть функцию, заданную уравнением, которое лучше других описывает зависимость общего выпуска металлоконструкций от количества уголкового проката в выполненных заказах. Это и есть аппроксимация, а найденное уравнение называется аппроксимирующей функцией для исходной функции, заданной в виде таблицы.

1. Включаем Excel и помещаем на лист таблицу с данными статистики.

2. Далее строим и форматируем точечную диаграмму, в которой по оси X задаем значения аргумента – количество переработанных уголков в тоннах. По оси Y откладываем значения исходной функции – общий выпуск металлоконструкций в месяц, заданные таблицей.

3. «Наводим» мышь на любую из точек на графике и щелчком правой кнопки вызываем контекстное меню (как говорит один мой хороший товарищ — работая в незнакомой программе, когда не знаешь, что делать, чаще щелкай правой кнопкой мыши…). В выпавшем меню выбираем «Добавить линию тренда…».

4. В появившемся окне «Линия тренда» на вкладке «Тип» выбираем «Линейная».

6. На графике появилась прямая линия, аппроксимирующая нашу табличную зависимость.

Мы видим кроме самой линии уравнение этой линии и, главное, мы видим значение параметра R 2 – величины достоверности аппроксимации! Чем ближе его значение к 1, тем наиболее точно выбранная функция аппроксимирует табличные данные!

7. Строим линии тренда, используя степенную, логарифмическую, экспоненциальную и полиномиальную аппроксимации по аналогии с тем, как мы строили линейную линию тренда.

Лучше всех из выбранных функций аппроксимирует наши данные полином второй степени, у него максимальный коэффициент достоверности R 2 .

Однако хочу вас предостеречь! Если вы возьмете полиномы более высоких степеней, то, возможно, получите еще лучшие результаты, но кривые будут иметь замысловатый вид…. Здесь важно понимать, что мы ищем функцию, которая имеет физический смысл. Что это означает? Это означает, что нам нужна аппроксимирующая функция, которая будет выдавать адекватные результаты не только внутри рассматриваемого диапазона значений X, но и за его пределами, то есть ответит на вопрос: «Какой будет выпуск металлоконструкций при количестве переработанных за месяц уголков меньше 45 и больше 168 тонн!» Поэтому я не рекомендую увлекаться полиномами высоких степеней, да и параболу (полином второй степени) выбирать осторожно!

Итак, нам необходимо выбрать функцию, которая не только хорошо интерполирует табличные данные в пределах диапазона значений X=45…168, но и допускает адекватную экстраполяцию за пределами этого диапазона. Я выбираю в данном случае логарифмическую функцию, хотя можно выбрать и линейную, как наиболее простую. В рассматриваемом примере при выборе линейной аппроксимации в excel ошибки будут больше, чем при выборе логарифмической, но не на много.

8. Удаляем все линии тренда с поля диаграммы, кроме логарифмической функции. Для этого щелкаем правой кнопкой мыши по ненужным линиям и в выпавшем контекстном меню выбираем «Очистить».

9. В завершении добавим к точкам табличных данных планки погрешностей. Для этого правой кнопкой мыши щелкаем на любой из точек на графике и в контекстном меню выбираем «Формат рядов данных…» и настраиваем данные на вкладке «Y-погрешности» так, как на рисунке ниже.

10. Затем щелкаем по любой из линий диапазонов погрешностей правой кнопкой мыши, выбираем в контекстном меню «Формат полос погрешностей…» и в окне «Формат планок погрешностей» на вкладке «Вид» настраиваем цвет и толщину линий.

Аналогичным образом форматируются любые другие объекты диаграммы в Excel !

Окончательный результат диаграммы представлен на следующем снимке экрана.

Итоги.

Результатом всех предыдущих действий стала полученная формула аппроксимирующей функции y=-172,01*ln (x)+1188,2. Зная ее, и количество уголков в месячном наборе работ, можно с высокой степенью вероятности (±4% — смотри планки погрешностей) спрогнозировать общий выпуск металлоконструкций за месяц! Например, если в плане на месяц 140 тонн уголков, то общий выпуск, скорее всего, при прочих равных составит 338±14 тонн.

Для повышения достоверности аппроксимации статистических данных должно быть много. Двенадцать пар значений – это маловато.

Из практики скажу, что хорошим результатом следует считать нахождение аппроксимирующей функции с коэффициентом достоверности R 2 >0,87. Отличный результат – при R 2 >0,94.

На практике бывает трудно выделить один самый главный определяющий фактор (в нашем примере – масса переработанных за месяц уголков), но если постараться, то в каждой конкретной задаче его всегда можно найти! Конечно, общий выпуск продукции за месяц реально зависит от сотни факторов, для учета которых необходимы существенные трудозатраты нормировщиков и других специалистов. Только результат все равно будет приблизительным! Так стоит ли нести затраты, если есть гораздо более дешевое математическое моделирование!

В этой статье я лишь прикоснулся к верхушке айсберга под названием сбор, обработка и практическое использование статистических данных. О том удалось, или нет, мне расшевелить ваш интерес к этой теме, надеюсь узнать из комментариев и рейтинга статьи в поисковиках.

Затронутый вопрос аппроксимации функции одной переменной имеет широкое практическое применение в разных сферах жизни. Но гораздо большее применение имеет решение задачи аппроксимации функции нескольких независимых переменных…. Об этом и не только читайте в следующих статьях на блоге.

Подписывайтесь на анонсы статей в окне, расположенном в конце каждой статьи или в окне вверху страницы.

Не забывайте подтверждать подписку кликом по ссылке в письме, которое придет к вам на указанную почту (может прийти в папку « Спам» )!!!

С интересом прочту Ваши комментарии, уважаемые читатели! Пишите!

P.S. (04.06.2017)

Высокоточная красивая замена табличных данных простым уравнением.

Вас не устраивают полученные точность аппроксимации (R 2 <0,95) или вид и набор функций, предлагаемые MS Excel?

Размеры выражения и форма линии аппроксимирующего полинома высокой степени не радует глаз?

Обращайтесь через страницу « » для получения более точного и компактного результата аппроксимации ваших табличных данных и для того, чтобы узнать простую методику решения задач высокоточной аппроксимации функцией одной переменной.

При использовании предлагаемого алгоритма действий найдена весьма компактная функция, обеспечивающая высочайшую точность аппроксимации: R 2 =0,9963!!!

← Вернуться

×
Вступай в сообщество «koon.ru»!
ВКонтакте:
Я уже подписан на сообщество «koon.ru»