Всего на сайте:
282 тыс. 988 статей

Главная | Статистика

ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ 5 страница  Просмотрен 201

Исследуем реалистичность критерия выбора решения, осно­ванного на расчете ОДО. Рассмотрим две альтернативы:

1) выигрыш 1 000 000 дол. с вероятностью 1;

2) игра (лотерея): выигрыш 2 100 000 дол. с вероятностью 0,5 и проигрыш 50 000 дол. с вероятностью 0,5. В этом случае

ОДО= 0,5* 2 100 000 - 0,5* 50 000 = 1 025 000 дол.

Относительно получаемого среднего выигрыша указанные альтернативы практически эквивалентны, и если игрок безраз­личен к риску, он выберет вторую альтернативу. Если он к риску не безразличен, а подавляющее число людей именно таковыми являются, то выбор будет зависеть главным образом от финансо­вого состояния игрока. Игроки, имеющие скромный денежный доход, предпочтут не рисковать и выберут гарантированный выигрыш. Для ЛПР, обладающего достаточно крупным капита­лом, проигрыш в 50 000 дол. невелик, и он предпочтет рискнуть. Рисковать будут также игроки, патологически склонные к фи­нансовым авантюрам.

В данной главе будут изложены основы математической те­ории принятия субъективных решений [13]. Методология раци­онального принятия решений в условиях неопределенности, основанная на функции полезности индивида, опирается на пять аксиом, которые отражают минимальный набор необходимых условий непротиворечивого и рационального поведения игрока. Для компактного изложения аксиом нам потребуется следующее определение.

Определение 4.1. Предположим, что конструируется игра, в которой индивид с вероятностью а получает денежную сумму х и с вероятностью (1 – a) - сумму z. Эту ситуацию будем обозна­чать G(x, z: a).

Аксиома 1. Аксиома сравнимости (полноты). Для всего мно­жества S неопределенных альтернатив (возможных исходов) индивид может сказать, что либо исход х предпочтительнее ис­хода у (х у), либо у х, либо индивид безразличен в отноше­нии к выбору между х и у (х у). Запись х у означает, что исход х предпочтительнее исхода у либо индивид безразличен в отношении к выбору между х и у.

Аксиома 2. Аксиома транзитивности (состоятельности). Если х у и у z, то х z. Если х у и у z, то х z.

Аксиома 3. Аксиома сильной независимости. Предположим, что мы конструируем игру, в которой индивид с вероятностью а получает денежную сумму х и с вероятностью (1 - α) — сумму z, т.е. G(x, z: α). Сильная независимость означает, что если ин­дивид безразличен в отношении к выбору между х и у (х у), то он также будет безразличен в отношении к выбору между игрой (лотереей) G(x, z: α) и игрой G(y, z: α), т.е. из х у следует G(x, z: α) G(y, z: α).

Аксиома 4. Аксиома измеримости. Если х у z или х у z, то существует единственная вероятность α, такая, что у G(x, z: α).

Поясним смысл этой аксиомы. Пусть, например, имеем три исхода: х = 1000; у = 0; z означает смерть игрока. Исходя из здра­вого смысла смерть нельзя сравнивать ни с каким выигрышем, и соответствующего этому исходу значения вероятности α суще­ствовать не может.

Однако в жизни бывают ситуации, когда некий проигрыш равнозначен смерти. Тогда утверждение у G(x, z: α) можно считать справедливым для некоторого значения .

Аксиома 5. Аксиома ранжирования. Если альтернативы у и и находятся по предпочтительности между альтернативами х и z и можно построить игры, такие, что индивид безразличен в отно­шении к выбору между у и G(x, z: α2), a также к выбору между и и G(x, z: α2), то при у и.

Поясним смысл этой аксиомы. Пусть существуют следующие альтернативы: х = 1000; у = 500; и = 200; z = –10. Пусть эквива­лентны две пары ситуаций, одна из которых неигровая, а другая игровая:

1) гарантированно получить 500 или игра: с вероятностью α1, выиграть 1000 и с вероятностью (1 – α1) проиграть 10, т.е.

500 G(1000, -10: α1);

2) гарантированно получить 200 или игра: с вероятностью α2 выиграть 1000 и с вероятностью (l - α2) проиграть 10, т.е.

200 G(1000, -10: α2).

Очевидно, что при указанных условиях α1 α2. Если α1 + α2, то у и.

Утверждение аксиомы вполне соответствует здравому смыс­лу: чем больше вероятность крупного выигрыша, тем больше игра «стоит», т.е. тем большая плата потребуется за приобретение права участвовать в этой игре.

Если принять приведенные аксиомы и предположить, что люди предпочитают большее количество некоторого блага мень­шему, то все это в совокупности определяет рациональное пове­дение ЛПР.

При названных предположениях американскими учеными Дж. Нейманом и О. Моргенштерном было показано, что ЛПР при принятии решения будет стремиться к максимизации ожи­даемой полезности. Другими словами, из всех возможных реше­нии он выберет то, которое обеспечивает наибольшую ожидае­мую полезность. Сформулируем определение полезности по Нейману-Моргенштерну.

Определение 4.2. Полезность - это некоторое число, припи­сываемое лицом, принимающим решение, каждому возможному исходу. Функция полезности Неймана - Моргенштерна для ЛПР показывает полезность, которую он приписывает каждому воз­можному исходу. У каждого ЛПР своя функция полезности, ко­торая показывает его предпочтение к тем или иным исходам в зависимости от его отношения к риску.

Определение 4.3. Ожидаемая полезность события равна сум­ме произведений вероятностей исходов на значения полезностей этих исходов.

Проиллюстрируем практическую реализацию введенных по­нятий на примере расчета ОДО и сопоставления этого значения с полезностью.

Задача 4.1. Нефтеперерабатывающая фирма решает вопрос о бурении скважины. Известно, что если фирма будет бурить, то с вероятностью 0,6 нефти найдено не будет; с вероятностью 0,1 запасы месторождения составят 50 000 т; с вероятностью 0,15 -100 000 т; с вероятностью 0,1 - 500 000 т; с вероятностью 0,05 -1 000 000 т. Если нефть не будет найдена, то фирма потеряет 50 000 дол.; если мощность месторождения составит 50 000 т, то потери снизятся до 20 000 дол.; мощность месторождения в 100 000 т принесет прибыль 30 000 дол.; 500 000 т- 430 000 дол.; 1 000 000 т - 930 000 дол. Дерево решений данной задачи пред­ставлено на рис. 4.1. Нетрудно рассчитать ожидаемое значение вы­игрыша:

ОДО = 0,6(-50 000) + 0,1 (-20 000) + 0,15*30 000 + + 0,1*430 000 + 0,05*930 000 = 62 000 дол.

Рис. 4.1. Дерево решений для задачи 4.1 (прибыль указана в долларах)

 

Если ЛПР, представляющий фирму, безразличен к риску и принимает решение о проведении буровых работ на основании рассчитанного ОДО, то он воспринимает ожидаемую полезность как пропорциональную ОДО, полагая U = 62. Учитывая, что U - индивидуальное число, характеризующее ЛПР, нули, отвечаю­щие расчету ОДО, можно отбросить. В этом случае функция полезности U(v), где v - прибыль, получаемая при различных исходах, является прямой с положительным наклоном. Ниже бу­дет показано, что U можно задавать с точностью до некоторого монотонного преобразования.

Для принятия решения в случае небезразличия ЛПР к риску необходимо уметь оценивать значения полезности каждого из допустимых исходов. Дж. Нейман и О.

Моргенштерн предложи­ли процедуру построения индивидуальной функции полезности, которая (процедура) заключается в следующем: ЛПР отвечает на ряд вопросов, обнаруживая при этом свои индивидуальные предпочтения, учитывающие его отношение к риску. Значения полезностей могут быть найдены за два шага.

Шаг 1. Присваиваются произвольные значения полезностей выигрышам для худшего и лучшего исходов, причем первой величине (худший исход) ставится в соответствие меньшее чис­ло. Например, для приведенной выше задачи U(-50 000 дол.) = 0, а U(930 000 дол.) = 50. Тогда полезности промежуточных выиг­рышей будут находиться в интервале от 0 до 50. Полезность исхода даже для одного индивида определяется не однозначно, а с точностью до монотонного преобразования. Пусть, напри­мер, имеем x1, х2,..., хn - полезности, приписываемые п ожида­емым значениям выигрышей. Тогда α+βx1, α+βх2,..., α+βхn (где (β > 0) также будут полезностями. Если в задаче 4.1 при рас­чете полезности отбросить последние нули, это будет эквивален­тно линейному преобразованию функции полезности при α = 0 и β = 0,001.

Шaг 2. Игроку предлагается на выбор: получить некоторую гарантированную денежную сумму , находящуюся между луч­шим и худшим значениями S и s, либо принять участие в игре, т.е. получить с вероятностью р наибольшую денежную сумму S и с вероятностью (1 - р) - наименьшую сумму s. При этом ве­роятность следует изменять (понижать или повышать) до тех пор, пока ЛПР станет безразличным в отношении к выбору между получением гарантированной суммы и игрой. Пусть указанное значение вероятности равно р0. Тогда полезность гарантирован­ной суммы определяется как среднее значение (математическое ожидание) полезностей наименьшей и наибольшей сумм, т.е.

U( ) = p0 U(S) + (1 – p0)U(s). (4.1)

Рассчитаем полезность результатов любого из возможных исходов для задачи 4.1. Пусть для ЛПР безразлично: потерять 20 000 дол. или принять участие в игре (выигрыш 930 000 дол. с вероятностью 0,1 или проигрыш 50 000 дол. с вероятностью 0,9). Согласно формуле (4.1) имеем:

U(-20) = 0,1 U(930) + 0,9 U(-50) = 5,

при этом по определению принято, что U(-50) = 0, U(930) = 50, откуда следует, что U(-20) = 5.

Таким образом, если определена шкала измерения, то может быть построена функция полезности ЛПР (рис. 4.2).

Рис. 4.2. График полезности для задачи 4.

Рис. 4.3. Типы функции полезности Неймана — Моргенштерна для ЛПР, не склонного к риску (а), безразличного к риску (б), склонного к риску (в)

В общем случае график функции полезности может быть трех типов (рис. 4.3):

• для ЛПР, не склонного к риску, — строго вогнутая функция, у которой каждая дуга кривой лежит выше своей хорды (рис. 4.3 а);

• для ЛПР, безразличного к риску, — прямая линия (рис. 4.3 б),

для ЛПР, склонного к риску, — строго выпуклая функция, у которой каждая дуга кривой лежит ниже своей хорды (рис. 4.3 в).

4.2.

ИЗМЕРЕНИЕ ОТНОШЕНИЯ К РИСКУ

Исследуем график функции полезности, представленной на рис. 4.4. Для такого типа ЛПР полезность среднего выигрыша (полезность ОДО) больше ожидаемой полезности игры: с веро­ятностью p выиграть М1 и с вероятностью (1 - р) выиграть М2.

Рис. 4.4. График функции полезности ЛПР, не склонного к риску

 

Формально мы имеем график вогнутой функции, о которой известно, что ордината любой точки кривой больше ординаты точки хорды кривой. Определим соотношение, характеризующее ЛПР, не склонного к риску. Нетрудно видеть, что

U(M1) - значение полезности в точке А;

U(M2) - значение полезности в точке В;

U(pM1 + (1 - р)М2) - значение полезности в точке С.

Уравнение хорды АВ имеет вид:

U1 = а + bМ ,

где U1 - совокупность точек, лежащих на отрезке прямой.

Найдем значения параметров а и b уравнения прямой.

В точке А имеем U(M1) = а + bМ1.

В точке В имеем U(M2) = а + bМ2.

Вычитаем из первого выражения второе, исключая величину a:

U(M1) – U(M2) = b(M1 – М2) ,

откуда получаем:

После подстановки значений для параметров а и b уравнение хорды АВ имеет вид:

где М1 £ М £ M2.

Пусть М = рМ1 + (1 – р)М2, где 0 £ р £ 1, тогда в точке С справедливо неравенство

Подставив в это неравенство вычисленные значения а и b, получим:

или

U(pM1 + (1 - р)М2) > PU(M1) + (1 - p)U(M2). (4.2)

Неравенство (4.2) характерно для функции полезности ЛПР, не склонных к риску. Оно действительно показывает, что полез­ность среднего выигрыша (полезность ОДО) больше ожидаемой полезности игры: с вероятностью р выиграть М1 и с вероятнос­тью (1 – р) выиграть М2.

Аналогично можно показать, что для функций полезности ЛПР, склонных к риску, справедливо неравенство

U(pM1 + (1 – р)М2) < pU(M1) + (1 – p)U(M2). (4.3)

Для функций полезности ЛПР, безразличных (нейтральных) к риску, имеет место равенство

U(pM1 + (1 – р)М2) = pU(M1) + (1 – p)U(M2). (4.4)

Склонность или несклонность ЛПР к риску, как уже отмеча­лось, зависит от его финансового положения, текущей ситуации принятия решения и других факторов. Иначе говоря, эта харак­теристика ЛПР не является абсолютной, присущей ему при любых обстоятельствах.

Приведем пример игры, по отношению к которой любой игрок не склонен к риску.

Петербургский парадокс (игра придумана петербургскими гусарами). Играют двое. Один бросает монету до тех пор, пока не выпадет «орел». Выигрыш равен (2)n руб., где п - число брос­ков до появления «орла». Ожидаемая величина выигрыша:

ОДО = 2(1/2) + (2)2 (1/4) + (2)3(1/8) + ... = 1+1+1+ ... .

Вряд ли какой-либо игрок согласится заплатить за право участвовать в этой игре сумму, равную ОДО: эта сумма беско­нечно велика.

Предположим теперь, что имеет место игра (лотерея) с аль­тернативами a и в, т.е. G(a,в: a). Исследуем проблему, как целе­сообразнее поступить ЛПР: играть или получить гарантирован­ный выигрыш, равный ожидаемому выигрышу. Пусть функция полезности игрока определена как U(W) = ln(W), где W- вели­чина благосостояния. Пусть игра заключается в выигрыше 5 дол. с вероятностью 0,8 и в выигрыше 30 дол. с вероятностью 0,2. Ожидаемая величина выигрыша (ОДО):

E(W) = 5*0,8 + 30*0,2 = 10 дол.

Для указанной логарифмической функции полезности имеем зависимость, выраженную в табл. 4.1.

Таблица 4.1

W      
U(W) 1,61 2,30 3,00 3,40

 

Рассчитаем полезность ОДО для данной игры:

U(E(W)) = U(10) = ln(10) = 2,3,

т.е. полезность отказа от игры при получении гарантированного выигрыша, равного 10 дол. (ОДО данной игры), оценивается в 2,3 ютиля (ютиль - условная единица полезности). Если ЛПР предпочтет игру, то

E(U(W)) = 0,8U(5) + 0,2U(30) = 0,8*1,61 + 0,2*3,40 = 1,97 ютиля.

Для рассмотренной логарифмической функции полезности большей полезностью обладает вариант с получением гарантированного выигрыша, равного E(W)=ОДО, а не участие в игре (2,3 > 1,97). Такое лицо, принимающее решение, не склонно к риску.

Выводы. Из соотношении (4.2) – (4.4) вытекает:

• если U(E(W)) > E(U(W)),игрок не склонен к риску;

• если U(E(W)) = E(U(W)), игрок нейтрален (безразличен) к риску;

• если U(E(W)) < E(U(W}), игрок склонен к риску.

Здесь Е и U - соответственно символы математического ожидания и функции полезности.

4.3. СТРАХОВАНИЕ ОТ РИСКА

Пусть по-прежнему полезность выражается логарифмической зависимостью U(W) = ln(W) (см. табл. 4.1).

Определим, какую максимальную сумму пожелает заплатить ЛПР, чтобы избежать игры, в которой с вероятностью 0,8 он выигрывает 5 дол. (уменьшение выигрыша на 5 дол. по сравне­нию с ОДО = 10 дол.) и с вероятностью 0,2 выигрывает 30 дол. (увеличение выигрыша на 20 дол. по сравнению с ОДО). Значение ожидаемой полезности игры составляет 1,97 ютиля, что соответствует гарантированному выигрышу 7,17 дол. (ln7,17 = 1,97). С другой стороны, сумма ожидаемого выигрыша в случае игры (ОДО) равна 10 дол. Поэтому, чтобы избежать игры, ЛПР согласится заплатить максимальную сумму, равную

10 – 7,17 = 2,83 дол.

Из этого следует, что, если ЛПР предлагают застраховаться от игры и просят за это сумму, меньшую, чем 2,83 дол., ему выгодно принять предложение. В данном случае величина, рав­ная 2,83 дол., - премия (максимальная плата) за риск.

Рассмотрим некоторые приложения теории полезности.

Задача 4.2. Оптимальная величина страхования. Ювелир вла­деет бриллиантом стоимостью 100 000 дол. и желает застраховать его от кражи. Страховка покупается по правилу: цена страховки составляет 20 % от суммы, которую страхуют. Например, если бриллиант страхуется на всю стоимость (100 000 дол.), страховка стоит 20 000 дол., если страхуется на половину цены (50 000 дол.). то страховка обходится в 10 000 дол. Если ювелир будет знать (построит) свою функцию полезности, он сможет рассчитать, на какую оптимальную сумму следует застраховать дорогую вещь.

Ювелир может оказаться в одной из двух ситуации: 1) бриллиант украден; 2) бриллиант не украден. Чем больше сумма страхования, тем больше его состояние (капитал), если бриллиант украден, но тем меньше его состояние, если брил­лиант не украден.

Например, если бриллиант застрахован на 50 000 дол., име­ют место два случая:

1. Бриллиант украден. При этом потери ювелира рассчитыва­ются следующим образом:

-100 000 (бриллиант) - 10 000 (страховка) + 50 000 (компен­сация) = -60 000 дол., а капитал 50 000-10 000 = 40 000 дол.

2. Бриллиант не украден. В этом случае капитал ювелира составит:

100 000 (бриллиант) - 10 000 (страховка) = 90 000 дол.

Если бриллиант застрахован на 100 000 дол., то в случае кражи бриллианта капитал составит 100 000 - 20 000 = 80 000 дол. Если бриллиант не украден, капитал также составит 80 000 дол. Обозначим капитал ювелира в случае, если бриллиант не украден, через Yn:

Yn = 100 000 - 0,2К, (4.5)

где К - сумма страхования.

Если бриллиант украден, то капитал ювелира определим как Yt:

Yt = 0,8 K .

Соответствующий график, отражающий бюджетное ограни­чение, представлен на рис. 4.5.

Рис. 4.5. Графическое решение задачи 4.2

Предположим, что можно экспертно определить вероятность р того, что бриллиант будет украден. Тогда полезность капитала Yt, равна U(Yt). Вероятность того, что бриллиант не украден, со­ставляет (1-р), и U(Yn) - полезность капитала Yn в этом случае.

Ожидаемая полезность U «игры» (с вероятностью р брилли­ант украден и с вероятностью (1 - р) - не украден) определяется согласно формуле (4.1) выражением

U = pU(Yt)+(1-p)U(Yn).

Значения Yt и Yn следует выбирать таким образом, чтобы ожидаемая полезность была максимальной, т.е.

pU(Yt) + (1-р)(Yn) max .

Пусть точка касания кривой безразличия (линия одинаковой полезности) на рис. 4.5 соответствует Yn = 86 000 дол., Yt = 56 000 дол.

Тогда согласно формуле (4.5) имеем: 86 000 = 100 000 - 0,2К, откуда оптимальная величина страхования К = 70 000 дол.

Задача 4.3. Спрос на страхование. Пусть финансовое состо­яние индивида оценивается заданным значением W. Предполага­ется, что можно вычислить вероятность р потери некоторой ча­сти этого состояния, определяемой суммой L £ W (например, в результате пожара). Индивид может купить страховой полис, в соответствии с которым ему возместят нанесенный ущерб в размере q. Плата за страхование составляет pq, где p - доля страхования в объеме нанесенного ущерба. Проблема состоит в определении значения q.

Исследуем задачу максимизации ожидаемой полезности фи­нансового состояния индивида в ситуации, когда с вероятностью р страховой случай происходит и с вероятностью (1 –р) - не происходит. Тогда задача сводится к поиску максимума по q ожидаемой полезности капитала индивида:

Применим необходимое условие оптимальности - продиффе­ренцируем выражение в квадратных скобках по q и приравняем производную нулю:

где q* - оптимальное значение q. В результате получаем:

Предполагая известным вид функции U, из соотношения (4.6) находим значение q*.

Рассчитаем ожидаемую прибыль страховой компании, учи­тывая, что страховой случай имеет вероятностный характер.

Если страховой случай произошел, компания получает доход pq – q. Если страховой случай не наступил, компания получает доход pq. Поэтому ожидаемая прибыль компании

р(pq - q)+ (1 - р) pq = ppq - pq + pq - ppq = q(p - р),

где р - вероятность наступления страхового случая.

Конкуренция между страховыми компаниями уменьшает прибыль, которая в условиях совершенной конкуренции стремит­ся к нулю, т.е. из условия q(p - р) = 0 следует, что p р.

Это означает, что доля платежа от страхуемой суммы p при­ближается к вероятности несчастного случая р. Если соотноше­ние p = р ввести в условие максимума ожидаемой полезности, то получим:

.

Если потребитель не склонен к риску, то , и из равенства первых производных следует равенство аргументов, т.е.

W – L + (1 - p)q* =Wpq*,

или

– L + q* – pq* = –pq*,

откуда

q* = L.

Вывод. Страховаться целесообразно на сумму, которую мож­но потерять в результате несчастного случая.

Предыдущая статья:ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ 4 страница Следующая статья:ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ 1 страница
page speed (0.0143 sec, direct)