Анализ клиентов банка
Дэвид Дж. Хэнд, профессор статистики Лондонского императорского колледжа, факультет математики |

Анализ отклоненных заявок — важный этап в приложениях кредитного скоринга. Имеющаяся скоринговая карта с течением времени ухудшается (по мере роста генеральной совокупности заявителей, под действием новых маркетинговых стратегий, изменений в конкурирующих продуктах и т. д.), поэтому ее необходимо обновлять.
Справка www.infobank.by : Скоринг - это оценка стремления клиента к оплате кредита и возможности в будущем погашать долг. Классический скоринг - это математическая модель, которая строится на исторических данных о поведении заемщиков в прошлом с целью формализировать понятие «стремление к оплате кредита» и «возможности в будущем погашать долг». Скоринговая модель базируется на таких социо-демографических параметрах клиента, как возраст, пол, образование, должность, стаж, срок проживание в регионе. |
Однако база данных, находящаяся в распоряжении для разработки новой карты, неполная. Она состоит из сведений по всем заявителям, но выходной показатель «хороший/плохой» доступен только по тем клиентам, которым был выдан кредит, — в случае если их сумма баллов превысила некоторое пороговое значение в предыдущей скоринговой карте или они были выбраны по решению эксперта, пересмотревшего низкий балл скоринговой карты.
Достаточно очевидно, и данный факт подтверждается некоторыми исследованиями, что построение скоринговой карты лишь на основе сведений по выданным кредитам с большой степенью вероятности приведет к погрешностям при ее применении ко всей генеральной совокупности заявителей.
С другой стороны, отсутствие информации о принадлежности заявителей, которым было отказано в кредите, к классу
«хороший» или «плохой» не дает возможности установить взаимосвязи между характеристиками, необходимыми для создания скоринговой карты, и значение целевой переменной «хороший/плохой». Такая дилемма способна привести к серьезным последствиям.
МОДЕЛИ
Главная модель, лежащая в основе решения касательно выдачи кредита или отказа в нем, понятна: информация, доступная из формы заявки или записей о поведении клиента в прошлом, сравнивается с подобными сведениями о предыдущих заявителях, результат по которым известен. Обычно данные о них обобщаются в прогнозирующей статистической модели — скоринговой карте. Применение модели в отношении известной информации о новом потенциальном клиенте дает возможность оценить вероятность того, что связанный с ним риск (или определенная сумма баллов, связанная с этой вероятностью) будет оправданным.
Решение принимается через сопоставление такого предположительного скоринга кредитоспособности с некоторым пороговым значением. Анализ подобных моделей в рамках кредитного скоринга предложен Розенбергом и Глэйтом (Rosenberg, 1994), Хэндом и Хэнли (Hand, 1997) и Томасом (Thomas, 1998); обзор методов в целом приведен в исследовании Хэнда (Hand, 1997).
C целью анализа применяются разные статистические методы: классические — линейный дискриминантный анализ, множественная линейная регрессия и логистическая регрессия, а также более новые — нейронные сети, методы рекуррентного разбиения (на основе дерева решений) и непараметрические методы ближайшего соседа. Результаты сравнительных исследований публикуются редко, однако наличие коммерческих ограничений свидетельствует о том, что они проводятся достаточно часто.
Практический опыт сравнительного анализа моделей кредитного скоринга показывает, что более сложные современные методы обычно не обладают значительным преимуществом по сравнению со старыми и более простыми (однако данное обобщение не всегда применимо в ситуациях, отличных от кредитного скоринга). Некоторые исследования говорят о том, что комплексные и гибкие методы работают лучше, в то время как другие утверждают обратное. Подобные результаты заставляют задуматься, что именно в данных кредитного скоринга подрывает теоретические преимущества сложных современных (обычно компьютеризированных) инструментов.
Существует несколько объяснений.
Первое состоит в том, что во многих случаях просто невозможно провести четкое разделение классов хорошего и плохого уровней риска, то есть в настоящий момент поведение клиента не склоняется к совершенной крайности, его можно отнести к обеим категориям. Более подробно данный вопрос рассматривается ниже. Второе объяснение заключается в том, что специалисты работают с кредитными сведениями много лет, характеристики и их комбинации, разделяющие два класса, хорошо известны, поэтому практически не существует неизвестной информации, которую новые методы могли бы открыть.
Но исключения все же есть. Тот факт, что незначительное улучшение прогнозной способности может вылиться в большие суммы денег, подчеркивает важность продолжения экспериментальной работы.
ВЫДАЧА КРЕДИТА НЕКОТОРЫМ КЛИЕНТАМ С ОТКЛОНЕННЫМИ ЗАЯВКАМИ
Существует идеальное решение данной проблемы, хотя оно зависит в большей степени от подхода, чем от анализа. К сожалению, подобное решение не всегда находит признание в условиях реальной практики кредитного скоринга из-за препятствий, вызываемых коммерческим давлением.
Выход заключается в случайном отборе части клиентов, чьи заявки были отклонены, выдаче им кредитов и анализе характера погашения. Заявителям определенным образом присваиваются веса, затем они смешиваются с теми, чьи заявки одобрены первоначальными правилами скоринга (или с их частью, отобранной случайным образом).
Подобное решение непривлекательно для банка по той причине, что заявители, которые должны были быть отклонены, считаются высокорисковыми: при работе с такими клиентами вероятны убытки банка. Именно поэтому их заявки не были удовлетворены. Однако смысл данного решения в том, что при одобрении некоторых из таких заявителей долгосрочная прибыль банка может возрасти.
Более подробный анализ показывает, что прибыль необязательно пострадает, если формирование выборки заявителей с явно высоким уровнем риска для последующего одобрения заявки осуществляется с должным вниманием.
Подробно описать то, что должна прогнозировать скоринговая карта, довольно сложно. Частично данный факт объясняется колебанием цели моделирования в зависимости от ситуации, финансового продукта, а частично тем, что целевая переменная часто является заменойдля некоторых других переменных. Идеальной целевой переменной была бы прибыль, которую потенциальный клиент может принести банку, но ее очень сложно рассчитать. Получение прибыли зависит от многих факторов: характера выплат клиента, процентной ставки, срока кредитования, стоимости маркетинговых мероприятий, которые вывели на данного клиента, затрат на необходимые ему дополнительные услуги и т. д.
В результате в качестве целевой установки часто используют риск дефолта. Поскольку считается, что он тесно связан с прибыльностью, то простота его измерения делает данную переменную весьма привлекательной. Однако, если при составлении скоринговой карты банк принимает риск дефолта как замену для прибыльности, он также должен быть готов согласиться с этой заменой при измерении возможных потерь в результате одобрения плохого клиента. В частности, кредитору придется использовать риск дефолта для определения потерь при удовлетворении заявителя, который в оригинальной скоринговой карте получает оценку ниже допустимого значения.
Учитывая изложенное выше, из подгруппы отклоненных можно отобрать тех клиентов, которые имеют минимальный уровень риска. За счет этого дополнительные потери от одобрения некоторых заявителей, чьи показатели хуже, чем у других, могут быть сведены к минимуму.
Ожидаемая пропорция хороших заявок для любого конкретного набора характеристик заявителя х может быть вычислена как соответствующим образом взвешенная сумма 1) ожидаемой пропорции хороших заявок по х среди имеющих сумму баллов выше порогового уровня одобрения в оригинальной скоринговой карте; 2) ожидаемой пропорции хороших клиентов среди тех, у кого сумма баллов ниже порогового уровня одобрения, но кто в настоящий момент включен в выборку. Веса будут зависеть от относительных вероятностей попадания выше или ниже порогового уровня одобрения, а также от возможности быть включенными в данную выборку при условии, что оригинальный скоринговый рейтинг был ниже приемлемого порогового значения.
Этот подход к решению проблемы анализа отклоненных заявок заслуживает пристального внимания. В результате очевидные дополнительные убытки могут быть сведены к минимуму, в долгосрочной перспективе улучшится предсказывающая способность и, следовательно, уменьшатся общие потери. Естественно, весь процесс необходимо планировать заранее.
Данный подход не может быть применен ретроспективно, когда никакие отказы не были одобрены. Кроме того, могут возникнуть практические (юридические) препятствия, заключающиеся в том, что существует возможность различных способов рассмотрения заявителей, которые явно идентичны в плане кредитоспособности. Например, два заявителя имеют одинаковые значения характеристик, позволяющие классифицировать обоих как плохих, но применение указанной стратегии может привести к одобрению одного и отказу в кредите другому.
КЛАСС НЕОПРЕДЕЛЕННЫХ КЛИЕНТОВ Иногда в кредитном скоринге встречается третий класс клиентов, находящихся посередине между хорошими и плохими, который часто именуется неопределенным. Он состоит из заемщиков, которых нельзя однозначно отнести к хорошим или плохим.
Обычно такая ситуация возникает, если клиент имеет граничные значения показателей, разделяющих категории «плохие» и «хорошие».
Пусть плохие заемщики — те, у кого задолженность 4 месяца, а хорошие — те, у кого никогда не было задолженности более чем 2 месяца.
В таком случае клиенты с задолженностью 3 месяца могут быть отнесены к классу неопределенных. При одних обстоятельствах их считают хорошими, при иных — плохими (если, к примеру, применяются более строгие критерии). Важно различать неопределенных клиентов, касательно которых существует реальная сложность в вопросе их классификации на хороших и плохих, и тех, в отношении кого точные прогнозы невозможны из-за недостатков скоринговой карты. Таким образом, можно обеспечить возможность повышения точности прогноза (при этом потребуется сбор большего количества информации о каждом заемщике).
Когда в модель вводится класс неопределенных клиентов, задача становится проблемой тернарной классификации, поэтому попытка включить ее рассмотрение в скоринговую карту стандартной (бинарной) классификации недопустима, так как может привести к абсолютно неверным результатам.
Иногда разработчики полагают, что все заявки, которые были отклонены в прошлом, являются высокорисковыми и оригинальная скоринговая карта представила правильный результат, рекомендовав отказ (это касается категории отклоненных заявок, так как если бы модель сделала то же в отношении одобренных, то в построении новой скоринговой карты не было бы необходимости). Данная стратегия иногда может быть приемлемой. Например, если применяется более жесткое определение хороших клиентов, то все, кто ранее был классифицирован как плохой, остается плохим, а некоторые ранее классифицированные как хорошие, также становятся плохими.
Иногда заявители, получившие отказ, успешно находят других кредиторов. Увеличение базы данных и обмен записями позволяют проследить поведение этих лиц в процессе выплат. Конечно, в статистических выводах необходимо учесть возможность малого смещения в выборках. Вероятно, не все, кому было отказано в кредите, найдут альтернативного кредитора, и условия их новой сделки, по всей видимости, будут отличаться от прежней, по которой они получили отказ, так что их поведение (и последующий статус «хороший/плохой») может меняться.
Анализ отклоненных заявок — это только одна из нескольких сложностей, возникающих из-за неполных, отсутствующих или частично предоставленных данных. Эта проблема является наименее сложной, поскольку причины ее ясны, однако решение найти все же непросто. Другие подобные проблемы менее понятны. Отсутствие сведений может объясняться многими факторами вне целенаправленного процесса отбора, вытекающего из заявки, взятой из предыдущей скоринговой карты.
Иногда данных нет по структурным причинам, например доход супруга известен, только если заемщик женат (замужем). Хэнд (Hand, 1998) описывает набор сведений из 25 характеристик, собранный для 3 883 заявителей, из которых только для 66 отсутствовали пропущенные значения, а для одной записи не было информации по 16 характеристикам.
В других областях, например в медицине, большое внимание уделяется свойствам данных и прилагаются серьезные усилия для обеспечения их высокого качества. Частично это связано с мониторингом информации, проводимым регулирующими структурами. Данные клинических обследований часто должны содержаться в базе, где они могут быть повторно проанализированы в случае необходимости. Важное различие между наборами сведений клинических обследований и наборами информации для задач кредитного скоринга — это их объем, причем размер последних, как правило, гораздо больше. Значит, автоматические методы поддержания качества сведений очень важны в кредитном скоринге.
Традиционно верификация и очистка данных осуществляются при помощи методов, базирующихся на ограничениях, в которых заполнение отсутствующих сведений и корректировка ошибок производятся на основании логических связей между характеристиками и границами диапазона возможных значений, которые они могут принимать. Это похоже на подход ученого-кибернетика. Специалисты в области статистики могут обращать внимание на связи, которые не кажутся вероятными, но все же возможны. При таком подходе требуется больше усилий. Методы множественных подстановок для неполных данных являются верным шагом.
Проблема смещенной выборки, возникающая в процессе отбора сведений, буквально пронизывает кредитные данные. Ее игнорирование может привести к искажению моделей и созданию неэффективных скоринговых карт. Общей стратегией по преодолению этих проблем является попытка переконструировать распределение генеральной совокупности таким образом, чтобы могли применяться стандартные методы построения скоринговой карты. Анализ отклоненных заявок используется в ситуациях, если искажение возникает вследствие решения одобрить кредит или отказать в результате применения предыдущей скоринговой карты.
Методы, предложенные в данном исследовании, не являются достаточно эффективными во всех случаях.
Универсального подхода не существует, кроме ситуаций, когда удается получить новую информацию. Лучшее решение — добыть дополнительные сведения (возможно, путем выдачи кредитов некоторым потенциально плохим клиентам) о заявителях, которым было отказано в выдаче займа.
Сведения об анализе отклоненных заявок изложены в книгах Джонса (Joanes, 1993), Хэнда и Хэнли (Hand, 1993), Филдерса, Чанга и МакЛахлана (Feelders, 1998).
выдержки из книги Руководство по кредитному скорингу. Под редакцией Элизабет Мэйз
www.grevtsovpublisher.by