داده کاوی صورت‌های مالی جهت اعطای تسهیلات مالی

نوع مقاله: مقاله علمی پژوهشی

نویسندگان

1 استادیار - دانشگاه آزاد تهران مرکزی

2 کارشناس ارشد حسابداری

چکیده

بررسی، سنجش و اندازه گیری اعتبار مشتریان در مؤسسات اعتباری، امروزه یکی از مهمترین تصمیم‌های مالی بشمار می‌آید. نحوه تصمیم‌گیری در خصوص اعطای تسهیلات به مشتریان از این جهت دارای اهمیت می‌باشد که عدم ارزیابی دقیق مشتریان می‌تواند منجر به مطالبات سررسید گذشته و معوق با کاهش توان تسهیلات دهی بانک‌ها و در نهایت سوخت شدن مطالبات بانک‌ها گردد. این پژوهش با هدف مدل‌سازی اعتبارسنجی مشتریان در بانک به روش‌های شبکه عصبی، درخت تصمیم و ماشین بردار پشتیبان انجام می‌شود. بدین منظور اطلاعات و داده‌های مالی و کیفی یک نمونه تصادفی 300 تایی(218 مشتری خوش حساب و 82 مشتری بدحساب) از شرکت‌های حقوقی را که در سال‌های 89 و 90 از بانک ملی ایران شعب شهر تهران تسهیلات اعتباری دریافت نموده اند، مورد بررسی قرار می‌گیرد. در این تحقیق پس از بررسی پرونده های اعتباری هریک از مشتریان، 31 متغیر توضیح دهنده مورد ارزیابی قرار گرفت و نتایج ضمن دلالت بر تأیید نظریه های اقتصادی و مالی نشان می دهد که تکنیک های داده کاوی جهت اعتبارسنجی مشتریان از کارآیی بالایی برخوردار می‌باشد و همچنین عملکرد پیش بینی الگوی شبکه عصبی به مراتب بهتر از سایر الگوها است.
 
Nowaday's, one of the most important financial decision's in financial institution's is investigation, assessment and measuring customer's validity. Decision making for granting facilitie's to customer's is vital from this perspective that imprecise assessment of customer's could Past due and delayed claim's and attenuated financial granting facilities power of banks and finally resulted the unpaid claim's of the bank's. This study has been conducted with the aim of modeling customer's validity in bank by using neural network, decision tree and support vector machine method's. For this purpose, financial and qualitative data for a random sample with 300 member's(218 good customer's and 82 bad customer's) have been selected from legal firm's that were received credit facilitie's from Iranian meli bank's of Tehran city member's in 1389 and 1390 year's, will be survey. In this study, after investigating each of customer's credit dossier's, 31 descriptive variable's were assessed and result's addition to verifying financial and economic theorie's, show that data mining method's have high efficiency for Validation of customer's. Also, performance of neural network model for prediction is much better than other model's.
 
 

کلیدواژه‌ها


داده کاوی صورت‌های مالی جهت اعطای تسهیلات مالی

 

امیررضا کیقبادی *       وحید خدامی **       

تاریخ دریافت: 15/10/1391        تاریخ پذیرش: 17/12/1391

چکیده**[1]

بررسی، سنجش و اندازه گیری اعتبار مشتریان در مؤسسات اعتباری، امروزه یکی از مهمترین تصمیم‌های مالی بشمار می‌آید. نحوه تصمیم‌گیری در خصوص اعطای تسهیلات به مشتریان از این جهت دارای اهمیت می‌باشد که عدم ارزیابی دقیق مشتریان می‌تواند منجر به مطالبات سررسید گذشته و معوق با کاهش توان تسهیلات دهی بانک‌ها و در نهایت سوخت شدن مطالبات بانک‌ها گردد. این پژوهش با هدف مدل‌سازی اعتبارسنجی مشتریان در بانک به روش‌های شبکه عصبی، درخت تصمیم و ماشین بردار پشتیبان انجام می‌شود. بدین منظور اطلاعات و داده‌های مالی و کیفی یک نمونه تصادفی 300 تایی(218 مشتری خوش حساب و 82 مشتری بدحساب) از شرکت‌های حقوقی را که در سال‌های 89 و 90 از بانک ملی ایران شعب شهر تهران تسهیلات اعتباری دریافت نموده اند، مورد بررسی قرار می‌گیرد. در این تحقیق پس از بررسی پرونده های اعتباری هریک از مشتریان، 31 متغیر توضیح دهنده مورد ارزیابی قرار گرفت و نتایج ضمن دلالت بر تأیید نظریه های اقتصادی و مالی نشان می دهد که تکنیک های داده کاوی جهت اعتبارسنجی مشتریان از کارآیی بالایی برخوردار می‌باشد و همچنین عملکرد پیش بینی الگوی شبکه عصبی به مراتب بهتر از سایر الگوها است.

 

واژه‌های کلیدی: اعتبارسنجی – داده کاوی– ماشین بردار پشتیبان – درخت تصمیم – شبکه های عصبی.


1- مقدمه

بانک‌ها به‌عنوان بخش اصلی نظام مالی همواره با ریسک‌های متفاوتی روبرو هستند که یکی از عمده‌ترین آن‌ها ریسک اعتباری است. حجم قابل ملاحظه‌ای از تسهیلات اعطایی سوخت شده یا معوقه بانک‌ها، گویای فقدان مدل‌های مناسب اندازه‌گیری اعتباری و سیستم های مدیریت ریسک در شبکه بانکی است. یکی از مهمترین ابزارهایی که بانک‌ها برای مدیریت و کنترل ریسک اعتباری بدان نیازمند هستند، "سیستم اعتبارسنجی مبتنی بر صورت‌های مالی مشتریان" است. با بهره‌گیری از تحلیل اطلاعات مربوط به مشتریان بانک با استفاده از فرآیند داده کاوی[2] می‌توان به اعتبارسنجی متقاضیان وام و طبقه بندی آن‌ها به مشتریان خوش حساب و بدحساب، بدون قضاوت شخصی و براساس سیستم های هوشمند پرداخت. از طرفی با رشد سریع صنعت بانکداری مدل‌های اعتبارسنجی نیز به طور وسیعی برای ارزیابی تصمیم‌های اعطا یا عدم اعطای تسهیلات به مشتریان مورد استفاده قرار می‌گیرد. برای این امر مدیران بانک‌ها نیاز به تحلیل صحیح از داده‌های مشتریان دارند تا بر اساس آن تصمیم‌های مناسبی را برای تخصیص مناسب اعتبارات به متقاضیان اتخاذ نمایند. و بانک‌ها و مؤسسات اعتباری جهت کاهش ریسک اعتباری خود ملزم به شناسایی متقاضیان وام می‌باشند.

در این مقاله ابتدا پیشینه ای از بررسی‌های صورت گرفته در زمینه اعتبارسنجی و رتبه‌بندی مشتریان مطرح شده و سپس چارچوب نظری و مدل مفهومی پژوهش ارائه شده است. در بخش بعدی پژوهش به اختصار به متدولوژی به کار رفته جهت اعتبارسنجی پرداخته شده است. موضوع‌های این بخش در بر گیرنده، فرضیه‌ها، روش پژوهش، جامعه آماری، شیوه‌های نمونه گیری، روش‌های تحلیل داده‌ها و آزمون فرضیات می‌باشد و در نهایت در بخش پایانی مقاله، یافته های پژوهش و نتیجه‌گیری و پیشنهادها برای استقرار مدل‌های اعتبارسنجی با استفاده از تکنیک‌های داده کاوی ارائه شده است.

2- مبانی نظری و پیشینه پژوهش

2-1- مبانی نظری

ریسک اعتباری عبارت است از احتمال تعویق، مشکوک بودن وصول یا عدم وصول اصل و سود تسهیلات مالی که در قالب تسهیلات به متقاضیان ارائه می‌گردد. از مهمترین رویکرد جهت کاهش خسارت های ریسک اعتباری، شناسایی، سنجش درجه و طبقه بندی اعتباری مشتریان میباشد که اصطلاحاً به آن اعتبارسنجی گویند.

اساس کار اعتبار‌سنجی بر مبنای داده کاوی بنیان نهاده شده است و در فرآیند اعتبار‌سنجی، مشتریان بر اساس شاخص‌ها و ویژگی‌های مختلفی مورد ارزیابی و رتبه‌بندی قرار می­گیرند. این رتبه یا امتیاز در واقع نمایانگر اعتبار مالی مشتری است که بانک می‌تواند بر اساس آن نسبت به ارائه خدمات به مشتری خیلی سریع و دقیق‌تر تصمیم‌گیری کند.

تعریف‌های متفاوتی از داده کاوی وجود دارد ولی تعریفی که در اکثر مراجع به اشتراک ذکر شده عبارت است از "استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده‌های بسیار بزرگ و پیچیده". هدف داده کاوی این است که ارتباطات و الگوهای معتبر، جدید، قابل استفاده، و قابل درک را از میان داده‌ها استخراج کند.

یکی از مباحث مهم در صنعت بانکداری تشخیص توانائی یا ارزیابی قدرت شرکت­ها در بازپرداخت بدهی، جهت کاهش خسارت‌های ناشی از ناتوانی آنان در بازگرداندن تسهیلات دریافتی است. که برخی از مزایای آن عبارت است از: 1- کاهش هزینه تحلیل 2- تصمیم‌گیری سریع3- تضمین تسهیلات و حذف ریسک­های احتمالی. 4- تعیین اولویت در مجموعه اعطاء تسهیلات

در نتیجه ما می‌توانیم از مدل‌های مختلفی برای ارزیابی وضعیت مالی مشتریان استفاده کنیم که این مدل‌ها به دو گروه اصلی تقسیم می شوند که عبارتند از:

گروه اول: مدل‌های پارامتریک: شامل 1- مدل احتمال خطی[3] 2- مدل لاجیت و پروبیت[4] 3- مدل‌های بر مبنای تحلیل ممیزی[5]

گروه دوم: مدل‌های ناپارامتریک: شامل 1- برنامه ریزی ریاضی[6] 2- شبکه های عصبی 3- درخت های تصمیم 4- مدل نزدیکترین همسایگی[7] 5- فرآیند تحلیل سلسله مراتبی[8] 6- سیستم های خبره[9] 7- الگوریتم ژنتیک[10]

متدهای آماری که در تحقیقات گذشته مورد استفاده قرار گرفته‌اند مدل‌های تحلیل ممیزی و رگرسیون لجستیک بوده اند. از جمله مشکلات عمده این متدها این است که برای ورودی هایی با ابعاد بزرگ و سایز نمونه کوچک مناسب نیستند و در اغلب این متدها فرض بر این است که رابطه خطی میان متغیرها وجود دارد در حالی که معمولاً این رابطه غیر خطی است. از این رو فرآیند مدل‌سازی خودکار دشوار است. در مدل‌های ایستا معمولاً در زمانی که محیط در حال تغییر است، محکوم به شکست بوده و از این رو مدل‌ها ممکن است دوباره ایجاد شوند.

علاوه بر این در سال‌های اخیر مدل‌های کلاسیکی هوش مصنوعی نیز در رتبه‌بندی اعتباری مورد استفاده قرار گرفته اند که شامل شبکه های عصبی، برنامه نویسی ژنتیک، نزدیک ترین همسایگی، ماشین بردار پشتیبان و مدل‌های درخت تصمیم می باشند.

تکنیک‌های داده کاوی مدرن در زمینه علم اطلاعات سهم بسزایی داشتند و می‌توان آن‌ها را با مدل‌های سنجش اعتبارتطبیق داد. متخصصان و محققان همواره به دنبال مدلی هستند که بتواند اندکی دقت پیش بینی را بالا ببرد این اندک تغییرات کوچک در دقت پیش بینی نقش بسزایی را در کاهش ریسک اعطای تسهیلات به متقاضیان وام دارد.

در سال‌های گذشته محققان همواره به دنبال مدلی بوده اند که دقت وکارآیی خوبی داشته باشد. در ارزیابی متدها این مسأله که کدام زیر مجموعه از متغیرها موجود جهت پیش بینی انتخاب شود وانتخاب تصادفی متغیرها که بتواند دقت و کارآیی مدل را افزایش دهد، همواره مورد توجه و بررسی محققان بوده است.

روش‌های گسترده ای در حوزه های ریاضی، آمار، اقتصادسنجی و پژوهش در عملیاتی همچون: برنامه ریزی ریاضی، شبیه سازی احتمالی و قطعی، شبکه های عصبی مصنوعی، تحلیل بقاء. نظریه ی بازی ها، تحلیل ممیزی، تحلیل لوجیت و تحلیل پروبیت در توسعه الگویی برای اندازه گیری دقیق ریسک اعتباری سهیم بوده اند. همچنین پیشرفت نظریه های بازارهای مالی مانند نظریه ی آربیتراژ، نظریه ی قیمت گذاری اختیار معامله و مدل قیمت گذاری دارایی های سرمایه‌ای همگی در توسعه مدل‌های دقیق اندازه گیری ریسک اعتباری نقش مؤثری را ایفا کرده اند.(آلتمن و همکاران،2002)

در این پژوهش سه روش برای ارزیابی مشتریان بانک از نقطه نظر اعتبار آن‌ها، مورد استفاده قرار خواهد گرفت. همچنین سعی شد تا با استفاده از یک مجموعه داده، مدلی مناسب برای پیش بینی وضعیت اعتباری مشتریان جدید طراحی شود. مدلی که بتواند با کم‌ترین خطا مشتریان را اعتبارسنجی کند. از آنجایی که پیشرفت صحت حتی به میزان کم می‌تواند منجر به کاهش هزینه های کلان برای بانک در زمینه ریسک اعتباری شود، در این پژوهش از روش‌های ماشین بردار پشتیبان[11]، درخت تصمیم[12] و شبکه عصبی[13] برای اعتبارسنجی مشتریان استفاده می‌شود. همچنین در این مقاله سعی شده تا با بررسی کارآیی تکنیک‌های داده کاوی، مناسب‌ترین مدل برای اندازه گیری ریسک اعتباری مشتریان در جهت اعطای تسهیلات مالی طراحی و تبیین شود.

2-2- پیشینه خارجی

طراحی مدلی برای اندازه گیری و درجه بندی ریسک اعتباری برای نخستین بار در سال 1909 به وسیله جان موری[14] روی اوراق قرضه انجام شد. برخی از محققان متوجه شباهت زیاد اوراق قرضه و تسهیلات اعطایی شدند و اندازه گیری ریسک عدم پرداخت اصل و سود وام ها را بررسی نمودند.

در همین راستا اعتبارسنجی روشی برای شناخت گروه‌های مختلف جامعه است و زمانی مفید میباشد که شخص نمی‌تواند ویژگی‌هایی که گروه‌ها را از هم تفکیک می‌کند، مشاهده نماید. این تکنیک یک تکنیک آماری است که توسط"فیشر[15] "، در سال 1936 بیان گردید. در سال 1941، "دوراند[16]" متوجه شد که می‌توان از این تکنیک و تکنیک‌های مشابه برای تفکیک قرض گیرندگان خوب و بد استفاده نمود. با ظهور کارت های اعتباری در سال 1960، ارزش اعتبارسنجی بیشتر شد. زمانی که بانک‌ها از این تکنیک استفاده کردند، متوجه شدند که این تکنیک بهتر از طرح های قضاوتی است. در سال 1966 برای تعیین ورشکستگی شرکت‌ها، مدل رگرسیون لجستیک به وسیله بی ور[17] بکار گرفته شد. بعدها از این مدل برای اندازه گیری ریسک اعتباری اوراق قرضه منتشر شده شرکت‌ها استفاده شد. در سال 1980 موفقیت اعتبارسنجی در کارت های اعتباری منجر به این شد که بانک‌ها به استفاده از روش‌های اعتبارسنجی به دیگر خدمات خود مثل وام به اشخاص ثالث تشویق گردند. زیرا تا قبل از آن به خانه و کسب و کارهای کوچک وام می دادند. موفقیت در امر محاسبات منجر به این شد که تکنیک های دیگر نیز به کمک اعتبارسنجی بیایند مانند رگرسیون لجستیک و برنامه ریزی خطی و درخت تصمیم‌گیری. اخیراً نیز تکنیک های هوش مصنوعیمانند سیستم های خبره و شبکه­های عصبی به جمع این روش‌ها اضافه شده اند.

گوکاسیان و سیمان[18](2007) در " استراتژی هایی برای پیش بینی نکول در قرارداد اجاره تجهیزات " با استفاده از 250 هزار قرارداد اجاره در طول دوره ی زمانی 2002 تا 2005 و بکارگیری سه روش رگرسیون لجستیک، تحلیل تمایزی و شبکه عصبی به نتایج زیر رسیدند: درجه ی رتبه- بندی ترکیبی[19] پی نت(یک سیستم رتبه‌بندی اعتباری)، متغیرهای جمعیت شناسی سنتی[20]، عقود اجاره قبلی شرکت[21] و سابقه ی استقراض[22] پیش بینی کننده های برجسته ی ریسک اعتباری در هر سه مدل طبقه بندی یاد شده بوده اند. نتیجه بیانگر این بود که بر خلاف انتظارات، تحلیل تمایزی پیش بینی دقیق تری نسبت به دو مدل دیگر ارائه داده است.

آلمر و بروفسکی[23](1988) برای " پیش بینی توانایی پرداخت وام ها از مدل شبکه عصبی چند لایه پرسپترون[24] " استفاده نموده اند. متغیرهای استفاده شده در این مدل همان متغیرهای بکار گرفته شده توسط آلتمن(نسبتهای کل دارایی/ سرمایه در گردش، کل دارایی/ سود انباشته، کل دارایی/درآمد قبل از بهره و مالیات، ارزش دفتری بدهی‌ها/ ارزش دفتری حقوق صاحبان سهام، کل دارایی/ کل فروش) بوده و نتایج حاکی از این بود که قدرت پیش بینی مدل پرسپترون بیشتر از مدل‌های نمره دهی اعتباری بوده است.

2-3 - پیشینه داخلی

رضایی و آقابیگی(1386) در پژوهشی با نام " اعتبارسنجی مشتریان اعتباری بانک ملی بر اساس رگرسیون لجستیک" به سنجش اعتبار کلیه مشتریان حقوقی تسهیلات اعتباری بانک ملی طی سال‌های 82 لغایت 85 که فعالیت آن‌ها تولیدی بود، پرداختند. در بدو امر تعداد 61 متغیر تعیین و متعاقباً پس از استخراج کامل کلیه اطلاعات موجود از بانک‌های اطلاعاتی و پالایش اطلاعات بدست آمده نهایتاً تعداد 16 متغیر جهت مدل‌سازی انتخاب گردید که عبارتند از: نوع طرح، داشتن هم گروه، داشتن تعهدات قبلی، نوع شرکت، مدت زمان تنفس، میزان تسهیلات، میزان سرمایه شرکت، سابقه فعالیت شرکت، میزان سهم متقاضی در سرمایه‌گذاری، نسبت دارایی جاری، دوره گردش موجودی بر حسب روز، دوره وصول مطالبات بر حسب روز، بازده فروش شرکت، نسبت مالکانه و نسبت بدهی. نتیجه تحقیق نشان می دهد، فرآیند اعتباردهی در بانک ملی، فرآیند قضاوتی است همچنین متغیرهای داشتن تعهدات قبلی، نسبت دارایی جاری، نسبت مالکانه و نسبت بدهی، بر میزان بدحسابی و خوش- حسابی متقاضیان تسهیلات متناسب با ضرایب برآورد شده تأثیرگذار می باشند.

تهرانی و فلاح شمس(1385) در "طراحی و تبیین مدل ریسک اعتباری در نظام بانکی کشور" با استفاده از داده‌های اعتباری 316 مشتری حقوقی بانک‌های کشور و با استفاده از مدل‌های احتمال خطی، لجستیک و شبکه های عصبی مصنوعی اقدام به طراحی و آزمون کارآیی مدل ریسک اعتباری پرداختند. نتایج حاکی از این بود که ارتباط بین متغیرها در مدل پیش بینی ریسک اعتباری به صورت خطی نبوده و تابع­های نمایی و سیگموئید، مناسب‌ترین مدل‌های پیش بینی ریسک اعتباری است و بیشترین کارآیی برای پیش بینی ریسک اعتباری به ترتیب مربوط به شبکه های عصبی مصنوعی و مدل لجستیک می‌باشد.


 

 

- آنالیز پایگاه داده

-  انتخاب و تعدیل داده ها

- سازماندهی داده ها

- یکپارچه سازی داده

حوزه تصمیم گیری

- ایجاد دانش

- تفسیر نتایج

تعریف مسأله

 

 

 

 

 

 

(ارزیابی وضعیت کمی و کیفی  شرکت ها جهت اعطای تسهیلات)

 

پایگاه داده ها

 

- مرتب سازی داده ها

- الگوبردای از قواعد و شروط:

   - مؤلفه ها:

      - متغیر های کیفی مالی

      - نسبت های مالی

 - خوشه بندی

- تأیید/ اعتبار مدل ها

- پالایش داده

- تجسم داده (نمودار،گراف و... ) )

- مدل های داده کاوی

  • o ماشین بردار پشتیبان
  • o درخت تصمیم
  • o شبکه های عصبی

 

خروجی مدل ها

 

 

 

 

 

 

                                                                      

 

 

                                                                          

 

 

                                                                                                                                  

                                                                                                          

نمودار1-مدل مفهومی پژوهش

* منبع: یافته‌های پژوهشگر

در مدل مطرح شده درنمودار1 به این صورت عمل می‌شود که در ابتدا داده‌های تحقیق در یک پایگاه جمع آوری می‌گردند، سپس بر روی این داده‌ها مسأله تحقیق     (ارزیابی وضعیت کمی و کیفی شرکت‌ها جهت اعطای تسهیلات) بیان می‌گردد. بعد از بیان مسأله داده‌ها مورد تجزیه و تحلیل قرار می گرند تا داده‌هایی که بر روی هدف تأثیر چندانی ندارند و به‌عنوان کاندید انتخاب گردیده بودند تعدیل و یکپارچه سازی گردند بعد از سازمان دهی اطلاعات، این داده‌ها به صورت جداولی به‌عنوان ورودی برای مدل‌های تحقیق(ماشین بردار پشتیبان، درخت تصمیم و شبکه عصبی) انتخاب می‌گردند. در داخل هریک از این مدل‌ها مجدداً داده‌ها بر اساس دستورالعمل هریک از مدل‌ها، مرتب و خوشه­بندی می­شوند. خروجی که از این مدل‌ها حاصل می‌گردد به دو صورت می­باشد: یکی اینکه منجر به تأیید اعتبار مدل(بر اساس مجموعه داده‌های آزمون) می‌گردد و دیگری اینکه تجزیه و تحلیل داده‌ها که همان هدف می‌باشد به صورت نمودار یا گراف(بسته به قواعد هر مدل) نمایش داده می‌شود. این خروجی ها برای اجرای تحقیق و گزینش بهترین مدل در اختیار حوزه تصمیم‌گیری قرار می‌گیرد که در این حوزه به تفسیر نتایج پرداخته می‌شود و باعث ایجاد یک دانش جدیدی می‌گردد که با یک سری داده‌های جدیدتر و متفاوت از حالتهای قبل دوباره تعدیل می‌گردند و وارد مدل می شوند تا بهترین نتیجه و کارا ترین مدل انتخاب گردد.

3- فرضیه‌های پژوهش

بررسی فرضیات تحقیق در پژوهش‌های کاربردی از اهمیت ویژه ای برخوردار است در این پژوهش هدف اصلی تحقیق، اعتبارسنجی مشتریان بانکی می‌باشد که درصدد دریافت تسهیلات اعتباری می‌باشند. فرضیات تحقیق متناسب با این هدف مورد توجه قرار گرفته و بررسی گردید.

3-1- فرضیه اصلی

مدل‌های منتج از تکنیک های داده کاوی جهت اعتبارسنجی مبتنی بر صورت های مالی از کارآیی مناسبی برخوردار می باشند.

فرضیه‌های فرعی به شرح زیرمی باشند:

فرضیه فرعی 1: مدل منتج از تکنیک ماشین بردار پشتیبان جهت اعتبارسنجی مبتنی بر صورت های مالی از کارآیی مناسبی برخودار است.

فرضیه فرعی 2: مدل منتج از تکنیک درخت تصمیم جهت اعتبارسنجی مبتنی بر صورت های مالی از کارآیی مناسبی برخودار است.

فرضیه فرعی 3: مدل منتج از تکنیک شبکه های عصبی جهت اعتبارسنجی مبتنی بر صورت های مالی از کارآیی مناسبی برخودار است.

4- ملاک کارآمدی مدل‌ها

در این تحقیق با توجه به نظر کارشناسان امر در حوزه داده کاوی، پرس و جو از خبرگان و مسئولان تصمیم‌گیری در بانک مبنای کارآیی مناسب برای مدل‌ها 70% تعیین شد به این معنا که مدل‌هایی که درجه اعتبارشان از 70% بیشتر باشد جهت اعتبارسنجی از کارآیی مناسبی برخوردار می‌باشند و مدل‌هایی که درجه اعتبارشان از 70% کمتر باشد جهت اعتبارسنجی ناکارآمد می‌باشد.

5- روش پژوهش

این تحقیق با توجه به نتایجی که می‌تواند به همراه داشته باشد یک تحقیق بنیادی[25] است. زیرا درصدد شناسایی عوامل مختلف تأثیرگذار بر رفتار دریافت کنندگان تسهیلات اعتباری و مدل‌سازی این رفتارها است و از طرف دیگر با توجه به کاربرد این تحقیق برای پیش بینی رفتار مشتریان بانک و برای مسائل اجرایی(در سیستم بانکی) به کار گرفته می‌شود، یک تحقیق کاربردی[26] می‌باشد. از نظر روش تحقیق با توجه به ماهیت پژوهش در حوزه علوم مالی، تحقیق حاضر از روش پیمایشی[27] استفاده می‌کند. در روش تحقیق پیمایشی نمونه ای از کل جامعه مورد پژوهش با استفاده از تکنیک‌های مناسب انتخاب شده و با بررسی و تحلیل نمونه یک نتیجه کلی حاصل می‌شود.

در این پژوهش، اطلاعات گردآوری شده با استفاده از نرم افزارهای موجود جهت داده کاوی بر مبنای مدل‌های مختلف در این حوزه مورد تجزیه و تحلیل قرار خواهد گرفت. پایه اصلی تحقیق حاضر، بر کشف دانش از پایگاه داده‌های بانک مورد مطالعه نهاده شده است. از این رو جهت انجام فرآیند تحقیق از مراحلی شامل درک مسئله کسب و کار، درک داده‌ها، آماده سازی داده‌ها، مدل‌سازی، ارزیابی نتایج، بکارگیری مدل و به همراه ارتباط بین مراحل مشخص می‌باشد، مورد استفاده قرار گرفته است.

مراحل اجرایی و گام های اساسی در اجرای این پژوهش به صورت زیر قابل خلاصه شدن می‌باشد:

1-       جمع آوری داده از پایگاه داده‌های موجود(پرونده های تسهیلات اعطایی سابق بانک مورد نظر و سیستم های عملیاتی کامپیوتری بانک)

2-       شناسایی عوامل(متغیرهای) تأثیرگذار در رفتار شرکت ها جهت بازپرداخت بدهی که در پایگاه داده‌های مورد بررسی، موجود می‌باشد

3-       تعیین شاخص‌هایی برای تعریف طبقات: شرکت های خوب(دارای توان بازپرداخت بالا) و شرکت های بد(عدم توانایی در بازپرداخت)

4-       تقسیم داده‌های نمونه به دو مجموعه داده‌های آموزشی و داده‌های آزمون

5-       ساخت مدل‌ها با استفاده از داده‌های آموزشی

6-       آزمون مدل‌ها با مجموعه داده‌های آزمون

7-       بررسی دقت و سنجش اعتبار مدل‌ها در تعیین وضعیت اعتباری مشتریان

8-       ارائه بهترین الگو جهت ارزیابی وضعیت مشتریان

از آنجا که روش ارائه شده در هر تحقیقی باید به لحاظ اعتبار، مورد سنجش قرار گیرد، بنابراین در این تحقیق نیز با عنایت به اینکه روش تحقیق ازنوع" داده محور "می­باشد، روش اعتبارسنجی مدل‌ها به این صورت می­باشد که داده‌ها به دو مجموعه آموزشی و داده‌های آزمون(تست) تقسیم میگردند. صحت طبقه بندی و تفکیک داده‌های آزمون در طبقه ها، معیار ارزیابی اعتبار و صحت مدل می‌باشد. که در این تحقیق از"اعتبارسنجی متقابل مدل با تکرار" استفاده شده است. این روش اعتبارسنجی مدل مجموعه داده‌ها را به ده قسمت تقسیم نموده و هر بار 75 درصد از داده‌ها را به‌عنوان مجموعه داده آموزشی و 25 درصد را به‌عنوان مجموعه داده آزمون انتخاب نموده و میزان دقت طبقه بندی را می سنجد. این فرآیند ده بار صورت می‌گیرد و در نتیجه از کلیه درجات دقت میانگین گرفته شده و به‌عنوان دقت نهایی مدل ارائه می‌گردد. که در نهایت از سه روش مذکور برای ارزیابی مشتریان بانک از نقطه نظر اعتبار آن‌ها سعی شده است تا با استفاده از یک مجموعه داده، مدلی مناسب برای پیش بینی وضعیت اعتباری مشتریان جدید طراحی شود. مدلی که بتواند با کم‌ترین خطا مشتریان را اعتبارسنجی کند چون که پیشرفت صحت حتی به میزان کم می‌تواند منجر به کاهش هزینه های کلان برای بانک در زمینه ریسک اعتباری شود.

6-جامعه و نمونه آماری پژوهش

با توجه به اینکه هدف تحقیق اعتبارسنجی مشتریان می‌باشد، در این پژوهش جامعه آماری شامل شرکت‌های وام گیرنده که در شعبات بانک ملی استان تهران در طی سال های 89 و 90 از این بانک، تسهیلات دریافت کرده و اصل و سود آن را با بانک‌ها عودت داده یا نداده اند، می باشند. دلیل انتخاب واحدهای اقتصادی به‌عنوان جامعه آماری، در دسترس بودن داده‌های مالی موثق و حسابرسی شده آن‌ها می‌باشد.

جامعه آماری متشکل از مشتریان خوش حساب(ریسک اعتباری کمتر) و مشتریان بدحساب(ریسک اعتباری بالاتر) می‌باشد.

با توجه به اینکه دسترسی به کل داده‌های بانک امکان پذیر نبوده و بنا بر اظهارات مدیران بانک مورد مطالعه، داده‌ها به صورت پراکنده و غیر منسجم در اختیار شعبات می­باشد، بنابراین بر اساس یک نمونه گیری تصادفی و روش کوکران[28] با حجم جامعه محدود در خصوص این جامعه آماری، تعداد 345 مشتری انتخاب گردید. که فرمول آن در رابطه(1) آمده است.

رابطه 1-  فرمول کوکران با حجم جامعه محدود

 

که در این فرمول داریم:

حجم جامعه آماری( تعداد شرکت های دریافت کنندگان تسهیلات مالی در سالهای 89 و 90(3300 N= ) و احتمال برخورداری از صفت مورد نظر: مشتریان خوش حساب(0.5 =p  ) و احتمال عدم برخورداری از صفت مورد نظر: مشتریان بد حساب(0.5=q ) و انحراف یا خطای مطلوب(0.05 d=) و درجه یا ضریب اطمینان 95 درصد(1.96Z=)

در این صورت داریم:    

 

از این تعداد فوق فقط 300 پروند واجد شرایط بودند. مسئله ای که درباره ی این مشتریان وجود داشت عدم وجود صورت‌های مالی در پرونده آن‌ها بود.

7- متغیرهای پژوهش و توصیف برخی داده‌های گردآوری شده

انتخاب متغیرهایی که با احتمال نکول وام گیرنده رابطه مشخصی داشته باشند، یکی از مراحل مهم تحقیق است. در این پژوهش با استفاده از نتایج تحقیقات داخلی و خارجی مرتبط با موضوع و ادبیات موضوع، متغیرهای متعددی در دو حوزه متغیرهای کیفی و مالی و حوزه نسبت های مالی مورد بررسی قرار می‌گیرد که عبارت است از: الف) پارامترهایی که هریک از مشتریان برای دریافت تسهیلات به بانک ارائه می دهند و در پرونده آن‌ها موجود است مثل نوع شرکت(تعاونی، سهامی عام، سهامی خاص و با مسئولیت محدود)، موضوع فعالیت شرکت(صنعتی، خدماتی و بازرگانی)، سابقه فعالیت شرکت، میزان سرمایه شرکت، مبلغ وام، سطح تحصیلات مدیر عامل، وضعیت مالکیت محل فعالیت، وضعیت مالیاتی، اعتبار شرکت نزد بانک(خوش حساب یا بدحساب بودن) و نسبتهای مالی از جمله نسبت های سودآوری، نسبت های اهرمی، نسبت های نقدینگی و نسبت های فعالیت و کارآیی.

با توجه به تعداد متغیرها، به‌منظور تعیین مدل بهینه و بالا بردن دقت مدل و از سویی محدودیت های روش‌های کاربردی در رابطه با تعداد متغیرهای توضیحی، براساس مطالعات پیشین متغیرهای فوق انتخاب گردیدند و در مدل قرار خواهند گرفت. از سویی دیگر، از آن جایی که بسیاری از متغیرها، از صورت‌های مالی و اطلاعات پایه ای آن استخراج می شوند، ممکن است به صورت دو به دو با یکدیگر همبستگی داشته باشند برای جلوگیری از عدم همپوشانی آن‌ها، بر اساس نظر کارشناسان امر، تعدادی از این متغیرهای به هم وابسته و متغیرهایی که تأثیر قابل توجهی در خروجی سیستم ندارند، حذف می‌گردند. از این رو متغیرهای شناخته شده در بدو امر متغیرهای کاندید تلقی شده و به‌عنوان ورودی بکار گرفته می شوند. که در ادامه در جدول 1 به توصیف برخی از آن‌ها اشاره شده است.

اعتبار: یکی دیگر از متغیرها می‌باشد که به دو دسته تقسیم می‌گردد:

1-       مشتریان خوش حساب: مشتریانی هستند که یا هیچگونه تأخیری در پرداخت اقساط خود نداشته و یا حداکثر 2 ماه تأخیر دارند.

2-    مشتریان بدحساب: مشتریانی هستند که بدهی آن‌ها به سرفصل مطالبات سررسید گذشته(بین 3 تا 6 ماه بعد از سررسید) و یا معوق(از 7 تا 18 ماه) و یا مشکوک الوصول(بیش از 18 ماه) منتقل شده باشد.

ضمناً شرکت‌هایی که پس از سررسید گذشته یا معوق شدن تسهیلات مورد نظر و پس از گذشت مدتی بیش از 2 ماه نسبت به تأدیه تعهدات خود اقدام می‌نمایند، نیز جزء گروه مشتریان بدحساب می باشند.


جدول 1 – توصیف برخی متغیرهای کیفی به تفکیک خوش حساب و بدحساب

متغیرهای کیفی

شرح

فراوانی

درصد

خوش حساب

بدحساب

 

صنعتی

112

37 %

83

29

زمینه فعالیت

خدماتی

97

33 %

62

35

 

بازرگانی

91

30 %

74

17

 

پرداخت شده

148

50 %

89

59

وضعیت مالیات

پرداخت نشده

13

4 %

6

7

 

در دست رسیدگی

48

16 %

30

18

 

عدم افشاء

91

30 %

69

22

 

سهامی عام

20

7 %

14

6

نوع شرکت

سهامی خاص

234

78 %

152

82

 

بامسئولیت محدود

46

15 %

41

5

 

دیپلم

19

6 %

11

8

 

فوق دیپلم

29

10 %

20

9

مدرک تحصیلی

لیسانس

200

67 %

152

48

 

فوق لیسانس

40

13 %

35

5

 

دکترا

12

4 %

10

2

* منبع: یافته‌های پژوهشگر

با توجه به موضوع مورد مطالعه لازم است متغیرهایی در نظر گرفته شود که با بررسی آن‌ها بتوان توان مالی شرکت‌های مورد بررسی و در نهایت رتبه‌بندی آن‌ها را از این لحاظ تعیین کرد. در واقع باید متغیرهایی انتخاب شود که دارای بیشترین رابطه با توان مالی است. به‌منظور شناسایی متغیرهایی که بیشترین را با توان مالی دارند، پژوهش­ که تاکنون در این زمینه انجام شده است مورد بررسی قرار گرفت که در جدول 2 به متغیرهای مورد استفاده در برخی از آن تحقیقات داخلی اشاره شده است.

جدول 2 – متغیرهای مورد استفاده در برخی از تحقیقات داخلی

محقق - سال

موضوع تحقیق

متغیرهای مورد استفاده

تقوی، لطفی و سهرابی

( 1386)

مدل ریسک اعتباری و رتبه‌بندی مشتریان حقوقی

نوع شرکت، سابقه همکاری با بانک، سابقه فعالیت، مبلغ تسهیلات، سوابق اعتباری مشتریان، نسبتهای مالی استخراج شده از صورت‌های مالی شرکت‌ها

عرب مازار و رویین تن

( 1385)

عوامل مؤثر بر ریسک اعتباری مشتریان بانکی

مبلغ وام، سرمایه شرکت، داشتن گزارش حسابرسی،نسبت جاری، نسبت آنی، سابقه همکاری با بانک،سابقه داشتن بدهی های معوق به بانک، نوع شرکت

میرزایی، نظریان و باقری

( 1389)

بررسی عوامل مؤثر بر ریسک اعتباری اشخاص حقوقی بانک‌ها

تعداد کل حسابهای بانکی، نوع فعالیت، نوع تسهیلات، سابقه همکاری، نسبتهای مالی

نادعلی، نصرت آبادی و عباسیان

( 1389)

مقایسه الگوریتم های درخت ژنتیکی و کلونی مورچگان جهت دسته بندی مشتریان اعتباری بانک

نوع مصرف وام، زمینه فعالیت، نوع قرارداد وام، سطح تحصیلات مدیر، نوع بازپرداخت، نوع شرکت، تعداد کارکنان، نسبتهای مالی شرکت‌ها

صفری، ابراهیمی و شیخ

( 1388)

مدیریت ریسک اعتباری مشتریان حقوقی در بانک‌های تجاری

میزان تسهیلات،، داشتن گزارش حسابرسی،داشتن مجوز کسب،مالکیت محل فعالیت، سابقه بازپرداخت، نسبتهای مالی

* منبع: یافته‌های پژوهشگر         (ادامه جدول 2)

8- روش‌های تحلیل داده‌ها و آزمون فرضیه‌ها

در این تحقیق پس از جمع آوری داده‌های شرکت های دریافت کننده تسهیلات بانک مورد نظر از پایگاه داده مربوطه و پس از آن، پالایش داده‌ها، به شناسایی متغیرهای تأثیرگذار در ارزیابی وضعیت مالی شرکت ها پرداخته که این کار از طریق مصاحبه با کارشناسان و مستندات علمی، انجام می‌گردد. بعد از این مرحله برای تمامی مشتریان نمونه انتخاب شده، با توجه به تعریفی که از خوش حساب یا بدحساب بودن شرکت ها بر اساس وضعیت مالی ارزیابی شده توسط صورت های مالی وجود دارد، یک برچسب مربوط به آن بخش(طبقه) با همان تعریف در نظر گرفته می‌شود.

در مرحله بعد با استفاده از تکنیک های داده کاوی مورد نظر و با کمک نرم افزارهای مربوطه، شرکت ها را بر اساس ویژگی‌های شان و اطلاعات صورت‌های مالی آن‌ها ارزیابی نموده، بعد با تسهیلات اعطاء شده تطبیق میدهیم تا میزان تفاوت در تصمیم‌گیری در اعطای تسهیلات توسط بانک‌ها مشخص شود که در نهایت این مدل جهت تصمیم‌گیری راجع به اعطاء یا عدم اعطای تسهیلات استفاده خواهد شد.

برای ساخت مدل لازم است ابتدا تکنیک مدل‌سازی و نرم افزارهای لازم برای اعمال تکنیک ها انتخاب شود. برای اعمال تکنیک ها در تحقیق حاضر از نرم افزارهای  Microsoft SQL Server V 2008 وMicrosoft Excel V 2007 وSPSS Clementine V 12 استفاده شده است.

در نمودار2 نحوه ساخت الگوریتم های مورد مطالعه نمایش داده شده است.

 

نمودار 2-  نحوه ساخت الگوریتم در نرم افزار SPSS Clementine
* منبع: یافته‌های پژوهشگر

در رابطه با نحوه ساخت مدل‌ها در هریک از فرضیه‌های مربوطه توضیحاتی ارائه شده است. اما در مورد مدل‌های تحقیق به اختصار در ذیل توضیحاتی ارائه شده است:

الف) ماشین بردار پشتیبان

متد دیگری که در سال‌های گذشته در زمینه ارزیابی وضعیت اعتبار مشتریان بسیار مورد توجه محققان بوده است، ماشین بردارپشتیبان است. این متد یک متد ریاضی قوی در دسته بندی است. متدی شبیه به شبکه های عصبی که به جای خط جدا کننده بدنبال بهترین خط جدا کننده است که دارای حداکثر حاشیه باشد. یعنی بهترین خط جدا کننده ای که با نزدیکترین نقطه کم‌ترین فاصله را داشته باشد(کیونگ،تایک،هیونگ[29]،2005، 130). در ماشین بردارپشتیبان انتخاب بهینه ویژگی‌ها در دقت مدل تأثیر بسزایی دارد از این رو در سال‌های گذشته بسیاری از تحقیقات بر روی ماشین بردارپشتیبان، بر روی انتخاب بهینه پارامترها متمرکز می باشند.

تکنیک های یادگیری ماشینی بخشی از علم هوش مصنوعی به شمار می آیند. هوش مصنوعی به طور مؤثر و موفقی در گستره وسیعی از شاخه های تجاری همچون بازاریابی، حسابداری، سیستمهای اطلاعاتی مدیریت و مدیریت تولید بکار گرفته می‌شود. در اکثر تحقیقات از روش‌های یادگیری ماشینی برای پیش بینی تغییرات آتی سهام، بحران های مالی، ورشکستگی، شناسایی کلاهبرداری کارت های اعتباری بکار گرفته می‌شود.

ب) درخت تصمیم

درخت تصمیم یکی از ابزارهای قوی و متداول برای دسته بندی و پیش بینی می­باشد. در طبقه بندی نمونه به روش درخت تصمیم‌گیری، به این صورت عمل نمی‌شود که امتیازی به هر شاخص داده شده و سپس مقادیر شاخص‌ها با هم جمع شود. در مقابل در این روش، مشتریان به گروه‌هایی تقسیم می شوند که هر گروه در داخل خود از نظر ریسک قصور در اعتبار کاملاً همگن می‌باشد و بین گروه‌ها نیز از حیث ریسک قصور در اعتبار، ناهمگنی زیادی مشاهده می‌شود. درخت تصمیم‌گیری بر خلاف شبکه های عصبی به تولید قانون می پردازد. یعنی درخت تصمیم‌گیری پیش بینی خود را در قالب یک سری قوانین توضیح می دهد در حالیکه در شبکه های عصبی تنها پیش بینی نهایی بیان می‌شود و چگونگی آن در خود شبکه پنهان باقی می ماند.(کارپتین[30]،1999، 110)

درختان تصمیم‌گیری تنها مقادیر ویژگی‌های گسسته را توسط متغیر هدف(ویژگی کلاس یا ویژگی وابسته) پیش گویی می کند. این پیش گویی توسط متغیر کلاس که ویژگی هدف یا ویژگی وابسته نیز نامیده می‌شود، صورت می‌گیرد. مقادیر ویزگی هدف، وابسته به مقادیر متغیرهای(ویژگی‌های) مستقل(توصیف کننده) و وجود آن‌ها در ساختار درخت تصمیم‌گیری است (هیگر و پاو[31]،2003، 6).

ج) شبکه عصبی

این شبکه ها ابزارهایی هستند که در موارد پیش بینی، خوشه بندی و تخمین کاربرد دارند. جذابیت شبکه های عصبی در این است که آن‌ها بوسیله مدل‌سازی ارتباطات عصبی مغز انسان در کامپیوترهای دیجیتالی پلی برای فاصله موجود ایجاد می‌کنند.

برای شناخت الگوهایی که در داده‌ها وجود دارند بسیار مفید هستند، خصوصاً در مواقعی که نوع رابطه بین هدف(به‌عنوان مثال ارزیابی وضعیت اعتباری وام گیرنده) و متغیرهای ورودی(مثلا ویژگی‌های جمعیتی، نسبتهای مالی، روند اقتصادی، کیفیت مدیریت و....) نامشخص و یا پیچیده باشد. یک شبکه عصبی بر اساس سه ویژگی داده‌های ورودی، وزن ها و لایه های پنهان مشخص می‌شود(ساندرز و آلن،2002، 12). برای ایجاد شبکه های عصبی چندین روش وجود دارد که شبکه عصبی پرسپترون، بویژه پرسپترون چند لایه[32]، در زمره ی کاربردی ترین شبکه های عصبی مصنوعی می‌باشند. این شبکه ها می‌توانند با گزینش شماره لایه ها و سلول های عصبی(نرون ها)، که اغلب زیاد نیستند، یک نگاشت غیر خطی را با دقت دلخواه انجام دهد. همچنین این روش به‌عنوان " طبقه بند جامع[33] " شناخته می‌شود به این دلیل که از لحاظ تئوریکی قادر به طبقه بندی هر فرآیند تصمیم‌گیری است.

شبکه های عصبی روش محاسبه ای متفاوت با روش‌های متداول می باشند. محاسباتی که با روش‌های معمولی انجام می‌شود از نوع برنامه ریزی شده است و در آن‌ها الگوریتم ها و مجموعه هایی از قواعد به کار می روند تا مسأله را حل کنند. در این روش‌ها اگر الگوریتمی در دست نباشد یا الگوریتم پیچیده باشد، راه حلی برای مسأله وجود نخواهد داشت. اما در محاسباتی که شبکه عصبی اجرا می‌کند به الگوریتم و مجموعه قواعد نیاز نیست.

9- نتایج آزمون و یافته‌های فرضیه اصلی

فرضیه اصلی مطرح می کند که مدل‌های منتج از تکنیک های داده کاوی جهت اعتبارسنجی مبتنی بر صورت های مالی از کارآیی مناسبی برخوردار می باشند.

این فرضیه که هدف آن بررسی کارآیی تکنیک های داده کاوی در اعتبارسنجی مشتریان اعتباری بانک به‌منظور ارزیابی آن‌ها میباشد از اهمیت ویژه ای در این تحقیق برخوردار است. زیرا در صورتیکه با استفاده از این مدل‌ها می‌توان قبل از اعطای تسهیلات، مشتریان را ارزیابی به تبع آن می‌توان تسهیلات اعتباری را به مشتریان واجد شرایط اعطا نمود. به‌منظور آزمون این فرضیه ابتدا با استفاده از پیشینه پژوهشی و با استفاده از ایده های محقق متغیرهای کیفی و کمی و نسبتهای مالی انتخاب گردیدند. سپس با استفاده از نرم افزار SPSS Clementine کارآیی مدل‌ها در پیش بینی وضعیت اعتباری مشتریان بانک بررسی گردید.

نتایج حاصل از بررسی در هر سه مدل، کارآیی این تکنیک ها را در اعتبارسنجی نشان داد. از آنجایی که تکنیک‌های داده کاوی از رابطه خطی پیروی نمی کنند مانند روش‌های آماری و این محدودیت را برطرف نموده است و با توجه به میزان صحت طبقه بندی آن‌ها، این فرضیه تأیید می‌گردد. بدین معنی که با استفاده از تکنیک‌های داده کاوی می‌توان مشتریان را بر اساس صورت‌های مالی اعتبارسنجی نمود.

9-1- روش آزمون فرضیه فرعی اول

فرضیه فرعی1: مدل منتج از تکنیک ماشین بردار پشتیبان جهت اعتبارسنجی مبتنی بر صورتهای مالی از کارآیی مناسبی برخودار است.

برای آزمون این فرضیه از نرم افزار SPSS Clementine استفاده گردید. بدین صورت که ابتدا داده‌های خام را جمع آوری و طبقه بندی نموده، سپس در قالب SQL وارد نرم افزار گردید. بعد فیلتر را در راه آن گذاشته تا پاکسازی و پیش پردازش روی داده‌های انجام شود. بعد بر اساس یک تایپ متغیرهای ورودی و خروجی را مشخص کرده و بر اساس ایجاد پارتیشن، مقدار داده‌های آزمون و آموزش را مشخص می‌شود که در این تحقیق 75 درصد را به‌عنوان داده‌های آموزش و 25 درصد را برای داده‌های آزمون انتخاب می‌گردد. بعد الگوریتم ماشین بردار پشتیبان(SVM) را ساخته و در آن هدف(تعیین وضعیت اعتباری) و متغیرهای ورودی را آورده سپس الگوریتم را اجرا نموده تا مدل ماشین بردار ساخته شود. سایر مشخصات پارامترهای این الگوریتم عبارت است از: نوع کرنل: ار بی اف(RBF)- پارامتر تنظیم: 10 - صحت رگرسیونی: 0.1 - گاما: 1 - گاما ار بی اف: 0.1 - بایاس: 0 - درجه: 3

9-1-1- یافته ها و نتایج آزمون فرضیه فرعی اول

میزان صحت مدل ماشین بردار پشتیبان(SVM) در مجموعه داده‌های آموزش 69.14 % میباشد. درصدهای مربوط به آزمون مربوط به صحت طبقه بندی و معیاری برای ارزیابی اعتبار و صحت مدل می‌باشد که در این تکنیک 74.50 % می‌باشد. همچنین تعداد داده‌های آموزش مدل 444 تراکنش و تعداد داده‌های آزمون در این مدل 149 تراکنش برآورد شد.

پیش بینی های مورد انتظار برای 149 مشتری در مجموعه داده‌های آزمون برای مدل ماشین بردار پشتیبان در جدول 3 مشاهده می‌شود.

جدول 3 - عملکرد پیش بینی مدل ماشین بردار پشتیبان در دوره آزمون

شرح

خوش حساب

بدحساب

مجموع

موارد تشخیص به‌عنوان خوش حساب

91

21

112

موارد تشخیص به‌عنوان بدحساب

17

20

37

مجموع

108

41

149

تعداد پیش بینی درست

91

20

111

درصد دقت مدل

84.25

48.78

74.50

درصد خطای مدل

15.75

51.22

25.50

* منبع: یافته‌های پژوهشگر         (ادامه جدول 3 )

یافته های تحقیق حاکی از این است که از مجموع 108 مشتری خوش حساب، تعداد 91 مشتری به‌عنوان خوش حساب و 17 مشتری(به اشتباه) به‌عنوان بدحساب تشخیص داده شده اند به طوری که دقت الگو در این خصوص 84.25 درصد محاسبه شده است. به همین ترتیب از 41 مشتری بدحساب، 20 مشتری به‌عنوان بدحساب و 21 مشتری(به اشتباه) خوش حساب تشخیص داده شده اند و دقت الگو در این حالت حدود 48.78 درصد می‌باشد. بنابراین میانگین دقت پیش بینی در این مدل 74.50 درصد است.

با توجه به یافته ها، این مدل از میزان صحت بالایی برخوردار می‌باشد چون میزان کارآیی در این تحقیق 70% تعیین شده است، در نتیجه این فرضیه تأیید می‌شود و از کارآیی مناسبی برای اعتبارسنجی برخوردار می‌باشد.

9-1-2- روش آزمون فرضیه فرعی دوم

فرضیه فرعی 2: مدل منتج از تکنیک درخت تصمیم(C5.0) جهت اعتبارسنجی مبتنی بر صورت های مالی از کارآیی مناسبی برخودار است.

درختان تصمیم‌گیری دارای الگوریتم های مختلفی هستند از جمله: C5.0 و CHAID و C&R و QUEST و C4.0 و C4.5.در این مقاله از بهترین الگوریتم و آخرین نوع آن یعنی الگوریتم(C5.0) که نتایج بهتری همراه با بالاترین دقت تصمیم‌گیری و صحت را دارد استفاده خواهیم کرد.

الگوریتم درخت تصمیم‌گیری با انتخاب آزمونی شروع می‌شود که بهترین جداسازی را برای دسته ها انجام دهد. مهمترین هدف از انجام دسته بندی، به دست آوردن مدلی برای پیش بینی میباشد. بدین منظور از مجموعه ای از داده‌ها به نام " داده‌های آموزشی " که مجموعه ای از متغیرها و رکوردها است استفاده می کنیم. در مراحل بعدی، همین کار برای گره های پایین تر با داده‌های کمتر صورت می‌گیرد تا بهترین قانون ها حاصل شود. سرانجام درخت آن قدر بزرگ می‌شود تا دیگر نتوان جداسازی بهتری برای داده‌های گره انجام داد(آذر،احمدی،وحید بسط،1389،21). در این مرحله باید اثربخشی درخت ایجاد شده اندازه گیری شود. برای این کار از یک مجموعه رکوردها یا داده‌های آزمایشی استفاده می‌شود که متفاوت با داده‌های اولیه که درخت را ایجاد کرده اند میباشد. معیاری که اندازه گیری می‌شود هم عبارت است از درصد داده‌هایی که به طور صحیح دسته بندی می شوند و دسته پیش بینی شده با دسته واقعی آن‌ها یکسان است.

9-1-2-1- یافته ها و نتایج آزمون فرضیه فرعی دوم

میزان صحت مدل درخت تصمیم(C5.0) در مجموعه داده‌های آموزش 94.37 % می‌باشد. درصدهای مربوط به آزمون مربوط به صحت طبقه بندی و معیاری برای ارزیابی اعتبار و صحت مدل می‌باشد که در این تکنیک 91.95 % می‌باشد.. همچنین تعداد داده‌های آموزش مدل 444 تراکنش و تعداد داده‌های آزمون در این مدل 149 تراکنش برآورد شد.

پیش بینی های مورد انتظار برای 149 مشتری در مجموعه داده‌های آزمون برای مدل درخت تصمیم در جدول زیر مشاهده می‌شود.

جدول 4 - عملکرد پیش بینی مدل درخت تصمیم در دوره آزمون

شرح

خوش حساب

بدحساب

مجموع

موارد تشخیص به‌عنوان خوش حساب

105

9

114

موارد تشخیص به‌عنوان بدحساب

3

32

35

مجموع

108

41

149

تعداد پیش بینی درست

105

32

137

درصد دقت مدل

97.22

78.04

91.95

درصد خطای مدل

2.78

21.96

8.05

* منبع: یافته‌های پژوهشگر                (ادامه جدول 4)

یافته های تحقیق حاکی از این است که از مجموع 108 مشتری خوش حساب، تعداد 105 مشتری به‌عنوان خوش حساب و 3 مشتری(به اشتباه) به‌عنوان بدحساب تشخیص داده شده اند به طوری که دقت الگو در این خصوص 97.22 درصد محاسبه شده است. به همین ترتیب از 41 مشتری بدحساب، 32 مشتری به‌عنوان بدحساب و 9 مشتری(به اشتباه) خوش حساب تشخیص داده شده اند و دقت الگو در این حالت حدود 78.04 درصد میباشد. بنابراین میانگین دقت پیش بینی در این مدل 91.95 درصد است.

با توجه به یافته ها، این مدل از میزان صحت بالایی برخوردار می‌باشد و قدرت پیش بینی آن هم بین سایر مدل‌ها از میزان قابل قبولی برخوردار است و اینکه توانست متغیرهای با اهمیت را شناسایی نماید در نتیجه این فرضیه تأیید شد و از کارآیی مناسبی برای اعتبارسنجی برخوردار می‌باشد.

9-1-3- روش آزمون فرضیه فرعی سوم

فرضیه فرعی 3: مدل منتج از تکنیک شبکه های عصبی جهت اعتبارسنجی مبتنی بر صورتهای مالی از کارآیی مناسبی برخودار است.

مدل انتخابی از نوع پرسپترون چند لایه است این مدل‌ها کاربرد موفقیت آمیزی در حل برخی از مسائل مخصوصاً مسائل رتبه‌بندی داشته اند. این مدل جزء شبکه های پیشخور چند لایه است که مجموعه ای از واحدهای گیرنده، لایه ورودی را تشکیل می دهند و یک یا چند لایه پنهانی از گره های محاسباتی وجود دارد و همچنین یک لایه خروجی گره محاسباتی در انتها قرار دارد.

تعداد نرون ها در لایه ورودی به سادگی برابر با تعداد متغیرها در مجموعه داده‌هایی است که ورودی شبکه را تشکیل می دهند. با توجه به هدف تحقیق که طبقه بندی متقاضیان به دو گروه است، یک نرون در لایه خروجی به کار گرفته می‌شود که دو کد مختلف را به متقاضیان خوب و بد اختصاص می دهد. همچنین شبکه دارای یک لایه میانی است که باید در مورد تعداد نرون ها در این لایه تصمیم‌گیری شود.

 

9-1-3-1- یافته ها و نتایج آزمون فرضیه فرعی سوم

میزان صحت مدل شبکه عصبی(MLP) در مجموعه داده‌های آموزش 94.55 % می­باشد. درصدهای مربوط به آزمون مربوط به صحت طبقه بندی و معیاری برای ارزیابی اعتبار و صحت مدل می‌باشد که در این تکنیک 93.46% می‌باشد. همچنین تعداد داده‌های آموزش مدل 440 تراکنش و تعداد داده‌های آزمون در این مدل 153 تراکنش برآورد شد.

پیش بینی های مورد انتظار برای 149 مشتری در مجموعه داده‌های آزمون برای مدل شبکه عصبی در جدول 5 مشاهده می‌شود.

جدول 5- عملکرد پیش بینی مدل شبکه عصبی در دوره آزمون

شرح

خوش حساب

بدحساب

مجموع

موارد تشخیص به‌عنوان خوش حساب

104

6

110

موارد تشخیص به‌عنوان بدحساب

4

39

43

مجموع

108

45

153

تعداد پیش بینی درست

104

39

143

درصد دقت مدل

96.29

86.66

93.46

درصد خطای مدل

3.71

13.34

6.54

* منبع: یافته‌های پژوهشگر        

یافته‌های تحقیق حاکی از این است که از مجموع 108 مشتری خوش حساب، تعداد 104 مشتری به‌عنوان خوش حساب و 4 مشتری(به اشتباه) به‌عنوان بدحساب تشخیص داده شده اند به طوری که دقت الگو در این خصوص 96.29 درصد محاسبه شده است. به همین ترتیب از 45 مشتری بدحساب، 39 مشتری به‌عنوان بدحساب و 6 مشتری(به اشتباه) خوش حساب تشخیص داده شده اند و دقت الگو در این حالت حدود 86.66 درصد میباشد. بنابراین میانگین دقت پیش بینی در این مدل 93.46 درصد است.

با توجه به یافته ها، این مدل از میزان صحت بالایی برخوردار می‌باشد و قدرت پیش بینی آن هم بین سایر مدل‌ها از بقیه بالاتر می‌باشد و درجه صحت طبقه بندی آن اختلاف معناداری با سایر مدل‌ها دارد و اینکه توانست متغیرهای با اهمیت را شناسایی نماید در نتیجه این فرضیه تأیید شد و از کارآیی مناسبی برای اعتبارسنجی برخوردار می­باشد.

10-نتایج مقایسه کارآیی مدل‌ها

برای سنجش کارآیی مدل‌های ارائه شده، صحت نتایج این مدل‌ها در جدول 6 مقایسه گردیده است:

جدول 6-  مقایسه تطبیقی صحت الگوریتم ها

الگوریتم

SVM

C5.0

MLP

صحت

74.50 %

91.95 %

93.46 %

* منبع: یافته‌های پژوهشگر

همانطور که در(6) مشخص است، هر سه مدل مورد مطالعه ( SVM، C5.0 و MLP ) در این تحقیق از لحاظ صحت پیش بینی از قدرت بالایی برخوردار می‌باشد که در این بین الگوریتم شبکه عصبی(MLP) نسبت به دو الگوریتم دیگر از قدرت بالاتری برخوردار است.

11- نتیجه‌گیری

با توجه به اهمیت شناسایی ریسک نکول و یافتن راهکارهایی برای مدیریت و کنترل آن، دسترسی به مدل‌هایی که با دقت بالا بتواند این رخداد را پیش بینی نماید، نقش مهمی به لحاظ اقتصادی و عملی در بقا و سلامت بانک‌ها دارد. در این پژوهش سه مدل مختلف برای پیش بینی ریسک نکول برآورد گردید و یافته های حاصل مقایسه شدند.

در حالی که نتایج پژوهش حاضر نشان‌دهنده ی این واقعیت است که امکان پیش بینی ریسک اعتباری مشتریان در هنگام اعطای تسهیلات اعتباری از راه مختصات مشتریان به‌عنوان متغیرهای پیش بین و استفاده آن‌ها در مدل‌های آماری و شبکه های عصبی وجود دارد. نتایج حاکی از این است که در بین سه مدل طراحی شده، به ترتیب مدل شبکه عصبی پرسپترون و درخت تصمیم از کارآیی بالایی برای پیش بینی ریسک اعتباری مشتریان(یعنی پیش بینی احتمال عدم بازپرداخت مشتریان) برخوردار هستند.

به طور کلی نتایج مستقیم حاصل از اجرای تحقیق را می‌توان به صورت زیر خلاصه نمود:

-  شبکه عصبی، مشتریان را با دقت 93.46 درصد در دو دسته از پیش تعیین شده طبقه بندی نمود.

-  درخت تصمیم، مشتریان را با دقت 91.95 درصد در دو دسته از پیش تعیین شده طبقه بندی نمود.

-  ماشین بردار پشتیبان، مشتریان را با دقت 74.50 درصد در دو دسته از پیش تعیین شده طبقه بندی نمود.

-  شبکه عصبی دقت بالاتری نسبت به درخت تصمیم و ماشین بردار پشتیبان و سایر الگوریتم های طبقه بندی داده کاوی دارد.

- ماشین بردار پشتیبان در مقایسه با شبکه عصبی و درخت تصمیم، کارآیی پایین تری به لحاظ دقت تفکیک مشتریان(در دو طبقه مورد نظر) دارد.

- براساس متغیرهای کمی و کیفی می‌توان مشتریان حقوقی بانک را از نظر ریسک اعتباری دسته بندی و امتیازدهی نمود که از بین این متغیرها، مبلغ وام، نسبت جاری، نسبت مالکانه، نسبت بدهی، بازده سرمایه در گردش، نسبت دارایی جاری، نسبت تسهیلات دریافتی کوتاه- مدت به فروش، نسبت تسهیلات دریافتی به دارایی، بازده فروش بیشترین سهم را در تفکیک مشتریان به دو گروه شرکت‌های با ریسک اعتباری بالا و شرکت‌های با ریسک اعتباری پایین دارند.

نتایج حاصل از این تحقیق مبنی بر عملکرد برتر شبکه های عصبی نسبت به سایر مدل‌های طبقه بندی، با نتایج تحقیقات قبلی شامل آلمر و بروفسکی(1998)، فلاح شمس(1385)، عیسی زاده(1387)، انصاری(1388) منطبق است، اما با نتایج گوکاسیان و همکاران(2007)، قدس الهی(1389)، نادعلی(1389)، هداوندی(1388) هماهنگ نیست. ولی در یک موضوع همگی باهم در اشتراک هستند و آن هم برتری تکنیک های داده کاوی نسبت به روش‌های آماری و قضاوتی می‌باشد.

در نهایت با توجه به جنبه های کاربردی پژوهش حاضر، پیشنهادهای حاصل از تحقیق به ترتیب زیر مطرح می‌شود:

1- به سرمایه‌گذاران و اعتباردهندگان به ویژه بانک‌ها و مؤسسات مالی پیشنهاد می‌شود که جهت تصمیم‌گیری در مورد اعطای وام و انتخاب بهترین متقاضی اعتبار از بین چندین گزینه مختلف، از تکنیک شبکه عصبی و نسبتهای مالی منتخب در این تحقیق، استفاده نمایند.

2- با استقرار این سیستم و تعیین میزان ریسک مشتریان، این امکان برای سیستم بانکی فراهم خواهد شد که نرخ سود تسهیلات اعطایی هر مشتری را نه بر اساس بخش اعتباری بلکه بر اساس ریسک هر مشتری مشخص نمایند.

3- طراحی و برقراری سیستم نرم افزاری مدل شبکه های عصبی و درخت تصمیم در پیش بینی ریسک اعتباری و اتصال آن به پایگاه اطلاعاتی برای تعیین درجه ریسک اعتباری هریک از مشتریان در هر لحظه از زمان جهت استفاده تمامی شعب بانک‌ها و مؤسسات مالی.

4- الزامی نمودن بانک‌ها به اخذ صورت‌های مالی از مشتریان متقاضی اعتبار( که توسط حسابرس مستقل حسابرسی شده اند) بر اساس دستورالعمل اجرایی، در زمینه اعطای تسهیلات و تهیه گزارشهای ویژه مربوط، توسط واحدهای تجاری وام گیرنده.

5- بورس اوراق بهادار با بهره‌گیری از رتبه‌بندی( با استفاده از تکنیک‌های داده کاوی ) می‌تواند در راستای جلوگیری از بروز بحران های مالی گریبان گیر شرکت‌ها، سرمایه‌گذاران و همچنین اعتباردهندگان و یا برای کل بازار، اقدام کند.

6- طراحی نرم افزار جهت بکارگیری مدل شبکه های عصبی در بانک‌های کشور و بازنگری و به روز کردن این مدل‌ها با اعلام اطلاعات مالی جدید مشتریان در هر سال مالی.

 



* بورسیه دکتری و عضو هیئت علمی دانشگاه آزاد اسلامی واحد تهران مرکزی، نویسنده اصلی و مسئول مکاتبات.                                                                  a.keyghobadi@iauctb.ac.ir 

** کارشناس ارشد حسابداری، دانشگاه آزاد اسلامی واحد تهران مرکزی.

 

 

[2]. Data Mining

[3]. Liner Probability Model

[4]. Logit & Probit Model

[5]. Discriminate Analysis Model

[6]. Mathematical Planning

[7]. Nearest Neighbors Model

[8]. Analytical Hierarchy Process

[9]. Expert System

[10]. Genetic Algorithm

[11]. Support Vector Machine

[12]. Decision Tree

[13]. Neural Network

[14]. Jon Mory  

[15]. Fisher

[16]. Durand

[17]. Beaver  

[18]. Goukasian And Seaman

[19]. Composite Paynet Rating Score

[20]. Conventional Demographic Variables

[21]. Companys Prior Leasing

[22]. Borrowing History

[23]. Elmer And Borowski

[24]. Multi Layer Perceptron  

[25]. Basic Research

[26]. Applied Research

[27]. Field Research

[28].Cochran

[29]. Shin S. Kyung, Lee S.Taik, & Kim J.Hyun

[30]. Corporation

[31]. D heygere, T,Goethals, P.L & Pauw , N.D

[32]. MLP or Back Propagution

[33]. Universal Classifier

اخباری، مهدیه، (1387)، "رتبه‌بندی اعتباری مشتریان حقوقی بانک‌ها با رویکرد هوش مصنوعی"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی اصفهان.

ایزد پناهی، نگهدار، (1372)، "میزان اتکای بانک های تجاری به اطلاعات صورت های مالی در اعطای تسهیلات به واحد های اقتصادی در ایران"، پایان نامه کارشناسی ارشد،دانشگاه علامه طباطبائی.

تهرانی، رضا و میرفیض فلاح شمس، (1384)، "طراحی و تبیین مدل ریسک اعتباری در نظام بانکی کشور"، مجله علوم انسانی و اجتماعی دانشگاه شیراز، 2 (43):60-45.

حائری مهریزی، علی اصغر، (1382)، "داده کاوی: مفاهیم و روش‌ها و کاربردها"، پایان نامه کارشناسی ارشد، دانشکده اقتصاد دانشگاه علامه طباطبائی.

سوری، داود، (1384)، "یک مدل سنجش اعتبار برای مشتریان اشخاص حقوقی یک بانک، کاربردی از روش بیزین"، مجموعه مقالات شانزدهمین همایش بانکداری اسلامی، 484-488.

مدرس، احمد و سید مرتضی ذکاوت، (1381)، "مدل‌های ریسک اعتباری مشتریان بانک(مطالعه موردی)"، فصل نامه حسابرس، 19(14): 58-54.

میرعمادی، سید علی اکبر، (1386)، "بررسی رابطه‌ی بین نسبت‌های مالی(متغیرهای حسابداری) و ریسک اعتباری مشتریان بانک‌ها"، پایان نامه کارشناسی ارشد،دانشگاه تربیت مدرس.

Abdi. H.(2007)," Discriminant Correspondence Analysis" in: N.J. Salkind(Ed.):Encyclopedia of Measurement and Statistics.Thousand Oaks(CA):Sage,PP.270-275.

Abdou H. Pointon J.(2008), " Neural Nets Versus Conventional Techniques in Credit Scoringin Egyptian Banking". Expert Systems with Applications.doi:10.1016/j.eswa,P.1.

Cheng-Lung Huang et al.;(2006), " Credit Scoring with a Data Mining Based on Support Vector Mashines", Expert System with Application 33,PP.847-856.

E. Khandani, Amir. J. Kim, Adlar.and W. Lo, Andrew.(2010)," Consumer Credit-Risk Models via Machine Learning Algorithms".Journal of Banking & Finance 34,PP.2767-2787.

Elmer , P. J & D. M. Borowski.(1988), " An Expert System and Neural Networks Approach To Financial Analysis ", Financial Management ,12(5):pp.66-76.

Goukasian, L. & S. Seaman.(2009)," Sttrategies for Predicting Equipment Lease Default", Journal of Equipment Lease Financing , 27(1):pp. 1-7.

Hassan Sabzevari, Mehdi Soleymani, Eaman Noorbakhsh,(2007)," A Comparison Between Statistical and Data Mining Methods for Credit Scoring in Case of Limited Available Data", Credit Research Center Conference, UK.s.n,PP.1-7.

Hussein A.Abdou.(2010), " Genetic Programming for Credit Scoring: The Case of Egyptian Public Sector Banks", Expert System with Application,36:pp.11402-11417,doi:10.1016/j.esw.

Nanni L., Lumini A.(2009)," An Experimental Comparison of Ensemble of Classifiers for Bankruptcy Prediction and Credit Scoring". Expert Systems with Applications.Vol.36,PP.1-4.

Weimin Chen, Guocheng Xiang, Youjin Liu, Kexi Wang.(2012)," Credit risk Evaluation by Hybrid Data Mining Technique", Systems Engineering Procedia, Volume3,issue(2012),PP.194-200.

Xu,X,Zhou.C,&Wang,Z.(2008)," Credit Scoring Algorithm based on Link Analysis Ranking with Support Vector Machine",Expert Systems With Applications. Vol.36 Issue 2, March, 2009 ,PP. 2625-2632.

Ye, Jieping. Janardan, Ravi.and Li, Qi.(2011), " Two-Dimensional Linear Discriminant Analysis", Vol.44, No.10-11, PP.2565-2575.