سودمندی رگرسیون‌های تجمیعی و روش‌های انتخاب متغیرهای پیش‌بین بهینه در پیش‌بینی بازده سهام

نوع مقاله: مقاله علمی پژوهشی

نویسندگان

1 استاد حسابداری، دانشگاه شیراز، شیراز، ایران

2 دانشجوی دکتری حسابداری، دانشگاه شیراز، شیراز، ایران

چکیده

مقاله حاضر به بررسی سودمندی رگرسیون‌های تجمیعی و روش‌های انتخاب متغیرهای پیش‌بین بهینه (شامل روش مبتنی بر همبستگی و ریلیف) برای پیش‌بینی بازده سهام شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران می‌پردازد. به‌منظور ارزیابی عملکرد رگرسیون تجمیعی، معیارهای ارزیابی (شامل میانگین قدرمطلق درصد خطا، مجذور مربع میانگین خطا و ضریب تعیین) مربوط به پیش‌بینی این روش، با رگرسیون خطی و شبکه‌های عصبی مصنوعی مقایسه شده است. همچنین به منظور ارزیابی عملکرد روش‌های انتخاب متغیرهای بهینه پیش‌بین، معیارهای ارزیابی حاصل از پیش‌بینی با استفاده از متغیرهای انتخاب شده توسط این روش‌ها با معیارهای حاصل از پیش‌بینی با استفاده از کلیه متغیرها مقایسه شده است. یافته‌های تجربی مربوط به بررسی 101 شرکت پذیرفته شده در بورس اوراق بهادار تهران در سال‌های 1383 الی 1392 حاکی از عملکرد بهتر روش تجمیعی نسبت به رگرسیون خطی و شبکه‌های عصبی مصنوعی است. افزون بر این، یافته‌ها حاکی از آن بود که پیش‌بینی با استفاده از متغیرهای انتخاب شده در روش‌های مبتنی بر همبستگی و ریلیف، به طور معناداری عملکرد پیش‌بینی را نسبت به استفاده از کلیه متغیرها افزایش می‌دهد.
Abstract
Present study investigates the usefulness of ensemble regression and feature selection methods (including correlation-based feature selection and Relief) in predicting stock returns of companies listed on Tehran Stock Exchange. For performance evaluation of ensemble regression, evaluation criteria (including mean absolute percentage error, root mean squared error and coefficient of determination) of this method compared with linear regression and artificial neural networks. Also, for performance evaluation of feature selection methods, evaluation criteria of these methods compared with using all variables. The experimental results of investigating 101 companies listed in Tehran Stock Exchange in 2004-2013 indicate that ensemble regression outperforms the linear regression and artificial neural networks. Furthermore, the results show that selected variables with correlation-based feature selection and Relief result in better prediction in compare with using all variables.
 
Keywords: Stock Returns Prediction, Ensemble Regression, Feature Selection Methods.

کلیدواژه‌ها


سودمندی رگرسیون‌های تجمیعی وروش‌های انتخاب متغیرهای پیش‌بین بهینه در پیش‌بینی بازده سهام

 

 

محمدحسین ستایش

تاریخ دریافت: 03/07/1395           تاریخ پذیرش: 08/09/1395

[1]

مصطفی کاظم‌نژاد[2]

 

 

چکیده

مقاله حاضر به بررسی سودمندی رگرسیون‌های تجمیعی و روش‌های انتخاب متغیرهای پیش‌بین بهینه (شامل روش مبتنی بر همبستگی و ریلیف) برای پیش‌بینی بازده سهام شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران می‌پردازد. به‌منظور ارزیابی عملکرد رگرسیون تجمیعی، معیارهای ارزیابی (شامل میانگین قدرمطلق درصد خطا، مجذور مربع میانگین خطا و ضریب تعیین) مربوط به پیش‌بینی این روش، با رگرسیون خطی و شبکه‌های عصبی مصنوعی مقایسه شده است. همچنین به منظور ارزیابی عملکرد روش‌های انتخاب متغیرهای بهینه پیش‌بین، معیارهای ارزیابی حاصل از پیش‌بینی با استفاده از متغیرهای انتخاب شده توسط این روش‌ها با معیارهای حاصل از پیش‌بینی با استفاده از کلیه متغیرها مقایسه شده است. یافته‌های تجربی مربوط به بررسی 101 شرکت پذیرفته شده در بورس اوراق بهادار تهران در سال‌های 1383 الی 1392 حاکی از عملکرد بهتر روش تجمیعی نسبت به رگرسیون خطی و شبکه‌های عصبی مصنوعی است. افزون بر این، یافته‌ها حاکی از آن بود که پیش‌بینی با استفاده از متغیرهای انتخاب شده در روش‌های مبتنی بر همبستگی و ریلیف، به طور معناداری عملکرد پیش‌بینی را نسبت به استفاده از کلیه متغیرها افزایش می‌دهد.

 

واژه‌های کلیدی: پیش‌بینی بازده سهام، رگرسیون تجمیعی، روش‌های انتخاب متغیرهای پیش‌بین بهینه.

 

1- مقدمه

در مفاهیم نظری گزارشگری مالی، به نقش اطلاعات مالی و سودمندی آن در تصمیم‌گیری‌های استفاده‌کنندگان از صورت‌های مالی اشاره شده است. بر اساس مفاهیم نظری، اطلاعات حسابداری برای مفید بودن در تصمیم‌گیری باید حائز ویژگی‌های مربوط بودن و قابلیت اتکا باشد (کمیته تدوین استانداردهای حسابداری ایران، 1389، 762). از طرفی، سودمندی اطلاعات صورت‌های مالی، مشروط به توان تبیین و پیش‌بینی ارزش شرکت بوده و ارزش شرکت نیز به‌صورت مستقیم تحت تأثیر بازده فعلی وآتی آن است. در صورتی که اطلاعات حسابداری توان پیش‌بینی نداشته و در ارزیابی وقایع گذشته، حال و نسبت به تصمیم‌گیری آینده مؤثر نباشد، سودمندی آن نیز مورد سؤال قرار می‌گیرد (ثقفی و شعری، 1383، 96). با توجه به اهمیت قیمت و بازده سهام در سرمایه‌گذاری، تاکنون مدل‌ها و نظریه‌های مختلفی شامل مدل قیمت‌گذاری دارایی‌های سرمایه‌ای، مدل‌های عاملی، مدل آربیتراژ، تحلیل‌های فنی و بنیادی برای تبیین و پیش‌بینی آن ارائه شده است. یافته‌های پژوهش‌های تجربی نیز حاکی از آن است که پیش‌بینی قیمت و بازده سهام، بخش عمده‌ای از پژوهش‌های انجام شده را به خود اختصاص داده است (کوثاری[i]، 2001، 208 و نمازی و ناظمی، 1384، 144).

در اغلب پژوهش‌های انجام شده در بورس اوراق بهادار تهران، به‌رغم معایب و مشکلات روش‌های خطی، از این روش‌ها برای پیش‌بینی بازده سهام استفاده شده است و فقط در چند پژوهش (به‌عنوان نمونه، آذر و کریمی، 1388 و همت‌فر و همکاران،1390) روش غیرخطی شبکه‌های عصبی مصنوعی[ii] مورد استفاده قرار گرفته است. یافته‌های این پژوهش‌ها حاکی از عملکرد بهتر این روش نسبت به روش خطی است. با وجود عملکرد مناسب شبکه‌های عصبی مصنوعی، یافته‌های برخی مطالعات نظری و تجربی انجام شده در حسابداری، حاکی از عملکرد بهتر سایر روش‌های غیرخطی از قبیل رگرسیون بردارهای پشتیبان[iii] و رگرسیون‌های تجمیعی[iv] نسبت به شبکه‌های عصبی مصنوعی است (به‌عنوان نمونه، مین[v] و لی[vi]، 2005؛ موکامالا و همکاران[vii]، 2006؛ آلفارو و همکاران[viii]، 2008؛ لی و تاو[ix]،2010؛ سان و همکاران[x]، 2011). با این وجود، تاکنون پژوهشی که با استفاده از رگرسیون تجمیعی به پیش‌بینی بازده سهام در بورس اوراق بهادار تهران پرداخته باشد، مشاهده نشد. افزون‌بر این، یافته‌های پژوهش لو (2010) حاکی از آن است که انتخاب متغیرهای پیش‌بین و روش‌های آن، نسبت به انتخاب مدل پیش‌بینی، تأثیر بیشتری بر میانگین دقت پیش‌بینی دارد. علی‌رغم اهمیت متغیرهای پیش‌بین در پیش‌بینی، در پژوهش‌های انجام شده در زمینه پیش‌بینی بازده، هدف و تأکید اصلی، ارائه مدل‌های دقیق برای پیش‌بینی بوده و پژوهشی که به انتخاب متغیرهای پیش‌بین[xi] و روش‌های مناسب آن در داخل و خارج از کشور بپردازد، مشاهده نگردید.

پیش‌بینی بازده سهام در تصمیم‌گیری‌های مالی از اهمیت بسزایی برخوردار است و به طور وسیعی در ادبیات حسابداری و مالی مورد مطالعه قرار گرفته است. در اغلب پژوهش‌های انجام شده در بورس اوراق بهادار تهران، از روش‌های خطی و در پژوهش‌های اندکی نیز از شبکه‌های عصبی مصنوعی برای پیش‌بینی بازده سهام استفاده شده است. افزون بر این، در پژوهش‌های انجام شده در این زمینه، هدف و تأکید اصلی، ارائه مدل‌های دقیق برای پیش‌بینی بازده بوده و کمتر به انتخاب متغیرهای پیش‌بین و روش‌های مناسب آن پرداخته شده است. با توجه به اهمیت پیش‌بینی بازده سهام ، این مقاله ، به بررسی سودمندی روش‌های انتخاب متغیرهای پیش‌بین بهینه و روش غیرخطی رگرسیون تجمیعی در پیش‌بینی بازده سهام شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران می‌پردازد.

 

2- مبانی نظری و پیشینه پژوهش

شارپ، لینتر و ... در دهه 1960 مدل قیمت‌گذاری دارایی‌های سرمایه‌ای را ارائه کردند. علی‌رغم تأیید نسبی مدل قیمت‌گذاری دارایی‌های سرمایه‌ای در پژوهش‌های اولیه، یافته‌های برخی از پژوهش‌های بعدی، با مدل مزبور متناقض بود. به طور کلی، شواهد تجربی حاکی از آن بود که بتای بازار به طور کامل بازده مورد انتظار سهام را تبیین نمی‌کند. در این راستا، تلاش‌های زیادی در زمینه توسعه مدل مزبور انجام شد. یکی از مهم‌ترین راهکارهای رفع مشکلات مدل مزبور مطرح کردن عوامل دیگر در فرآیند ایجاد بازده است. در این راستا، رأس در دهه 1970، نظریه قیمت‌گذاری آربیتراژ را پایه‌گذاری کرد. پژوهش برای انتخاب طرح‌های سرمایه‌گذاری و سبد اوراق بهادار در مسیر متفاوتی ادامه یافت و سرانجام نتایج فاما و فرنچ در دهه 1990 در قالب مدل سه‌عاملی (عامل صرفریسکبازار، عاملاندازهو عاملارزش) برای پیش‌بینی بازده سهام ارائه شد. اگرچه مدل سه عاملی بهتر ازمدل قیمت‌گذاریدارایی‌های سرمایه‌ای، بازده مورد انتظار را تبیین می‌کرد، ولیکن پژوهش‌های زیادی در زمینه یافتن عوامل مؤثر دیگری در تبیین و پیش‌بینی بازده سهام جهت دستیابی به مدل جامع‌تر انجام شده است (به‌عنوان نمونه، الهورانی وهمکاران، 2003؛ براونوهمکاران، 2008؛ اسلامی بیدگلی و هنردوست، 1391؛ احمدپورو عظیمیان‌معز، 1391 و ایزدی‌نیا و همکاران، 1393).

گروهی از دانشمندان مالی که در جستجوی روش‌های علمی جدیدتری هستند، معتقدند نظریه بی‌نظمی و پویایی‌های غیرخطی می‌تواند مقدمه ارائه نظریه‌های علمی تازه‌ای در مدیریت مالی باشد. تناقض‌های آشکار میان نظریه‌های موجود و دنیای واقعی موجب شده تا دانشگاهیان و صاحب‌نظران نسبت به اعتبار نظریه‌های مدرن مالی موجود، فرضیه بازار کارا و به‌ویژه مدل یک متغیره شارپ تردید کنند. (به نقل از عبده‌تبریزی و گنابادی، 1375، 17). گروهی دیگر از صاحب‌نظران به پدیده آشفتگی توجه می‌کنند. آن‌ها با استفاده از فنون جدید ریاضی، بازار را سیستمی، پیچیده و در حال تحول می‌دانند. این گروه، مانند ریاضی‌دانان و فیزیک‌دانان اعتقاد دارند چنانچه هر پدیده‌ای به‌درستی مشاهده و بررسی شود، وقایع به ظاهر تصادفی آن، تبیین‌پذیر است و اگر در خور پیش‌بینی نباشد، حداقل قابل درک خواهد بود. طرفداران الگوی آشفتگی معتقدند که رفتار قیمت‌ها به صورت غیرخطی است. حرکات قیمت سهام ناشی از عوامل بسیار زیادی است که در هر لحظه از زمان بر آن‌ها تأثیر می‌گذارد. آن‌ها در واقع معتقدند که به تعداد سرمایه‌گذاران، عوامل مؤثر بر قیمت سهام وجود دارد (همان مأخذ).

برای اولین بار در ادبیات، پژوهش‌های مرامور[xii] و مرامور-کوستا[xiii] (1997) و مرامور و پاهور[xiv] (1998) نشان داد که رابطه نسبت‌های مالی و بازده سهام، غیرخطی است. مرامور و مرامور-کوستا (1997) به بررسی رابطه بین بازده سهام و نسبت‌های مالی شرکت‌های اسلوانیایی پرداختند و برخلاف یافته‌های اغلب پژوهش‌های قبلی که به بررسی خطی رابطه بین نسبت‌های مالی و بازده سهام می‌پرداختند، وجود رابطه غیرخطی بین نسبت‌های مالی و بازده سهام را تأیید کردند. یافته‌های پژوهش مرامور و پاهور (1998) در آمریکا و ژاپن نیز وجود رابطه غیرخطی را تأیید کرد. پس از انجام این پژوهش‌ها، مطالعات زیادی به بررسی رابطه خطی و غیرخطی بین متغیرهای حسابداری، بازار، اقتصادی و سایر متغیرها با بازده سهام پرداختند. یافته‌های پژوهش کاناس[xv] و یانوپولس[xvi] (2001)، اولسون و موسمن (2003) در شرکت‌های کانادایی، عمران[xvii] و رجب[xviii] (2004) در شرکت‌های مصری، مک‌میلان[xix] (2007) در کشورهای انگلیس، آمریکا، فرانسه و ژاپن، بویاسیگلو[xx] و آوسی[xxi] (2010) در ترکیه، جیسن و همکاران[xxii] (2013) در بورس ژوهانسبورگ نیز حاکی از عملکرد بهتر روش‌های غیرخطی نسبت به روش‌های خطی بود. در بورس اوراق بهادار تهران نیز یافته‌های پژوهش‌هایخالوزاده و خاکی‌صدیق (1377)، راعی و چاوشی (1382)، آذر و کریمی (1388)، همت‌فر و همکاران (1390) و عباسی و باقری (1390) این نتایج را تأیید می‌کند.

تاکنون پژوهشی که به بررسی انتخاب متغیرهای پیش‌بین و روش‌های آن و هم‌چنین پیش‌بینی بازده سهام شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران با استفاده از رگرسیون غیرخطی تجمیعی پرداخته باشد، انجام نشده است. در اغلب پژوهش‌های انجام شده در بورس اوراق بهادار تهران، به پیش‌بینی خطی بازده سهام بر اساس متغیرهایی (عمدتاً حسابداری و در برخی موارد متغیرهای بازار و اقتصادی) پرداخته شده است (به‌عنوان نمونه، دستگیر و خدابنده، 1382؛ ثقفی و شعری، 1383؛ ثقفی و سلیمی، 1384؛ نمازی و محمدتبار کاسگری، 1386؛ و دستگیر و همکاران، 1391). پژوهش‌های اندکی (به‌عنوان نمونه، آذر و کریمی، 1388 و همت‌فر و همکاران،1390) نیز با استفاده از روش غیرخطی شبکه‌های عصبی به پیش‌بینی بازده سهام می‌پردازد. یافته‌های این پژوهش‌ها حاکی از عملکرد بهتر روش غیرخطی نسبت به روش خطی است. با این وجود پژوهشی که در آن از سایر روش‌های غیرخطی استفاده شده باشد یا به مقایسه روش‌های غیرخطی پرداخته شده باشد، مشاهده نگردید. افزون براین، پژوهشی که در بورس اوراق بهادار تهران به بررسی روش‌های انتخاب متغیرهای پیش‌بین و مقایسه آن پرداخته باشد انجام نشده است. در این راستا، پژوهش حاضر به پیش‌بینی بازده سهام با استفاده از رگرسیون غیرخطی تجمیعی و مقایسه روش‌های انتخاب متغیر مبتنی بر همبستگی و ریلیف و تأثیر آن بر عملکرد پیش‌بینی می‌پردازد.

مرحله انتخاب متغیرهای پیش‌بین، عموماً قبل از آموزش مدل‌های پیش‌بینی انجام می‌شود. با این وجود، در اغلب پژوهش‌های داخلی و خارجی انجام شده در حسابداری، این مرحله نادیده گرفته شده و متغیرهای پیش‌بین به‌صورت نظام‌مند انتخاب نشده است. این امر به انتخاب متغیرهای پیش‌بین غیربهینه و در برخی موارد، متغیرهای پیش‌بین نامناسب منجر می‌شود. در این پژوهش‌ها، متغیرهای پیش‌بین، بدون ضابطه و صرفاً با توجه به پژوهش‌های گذشته انتخاب شده است (تسای، 2009، 121 و ستایش و همکاران، 2012، 269).

 انتخاب متغیرهای مناسب جهت رسیدن به بهترین نتیجه در پیش‌بینی، از مباحث چالش برانگیز در دو دهه اخیر بوده است. از دیدگاه تئوری، یادگیری براساس تعداد متغیرهای پیش‌بین بیشتر باعث می‌شود تا دقت پیش‌بینی بالا رود. با این وجود، شواهد تجربی بیانگر آن است که این امر همواره صادق نیست؛ زیرا تمام متغیرها، برای تشخیص وپیش‌بینی مهم نیستند و یا برخی از آن‌ها به‌طور کلی در پیش‌بینی نامربوط هستند (لیندنبام و همکاران[xxiii]، 2004، 130). با توجه به این‌که عامل‌های بسیاری از جمله کیفیت داده‌ها در موفقیت یک الگوریتم یادگیری مؤثر است، اگر داده‌ها حاوی متغیرها و یا اطلاعات تکراری و نامربوط[xxiv] باشند و یا حاوی اطلاعات نویزی[xxv] و نامطمئن باشند، اخذ دانش از آن داده‌ها مشکل می‌شود (هل[xxvi]، 2000، 360). افزون بر این، کاهش تعداد متغیرهای پیش‌بین نامربوط یا اضافی، علاوه بر کاهش زمان اجرای الگوریتم‌های آموزشی، به مفهومی عمومی‌تر منجر می‌شود. سایر مزایای بالقوه انتخاب متغیرهای پیش‌بین شامل تسهیل درک و تجسم داده‌ها، کاهش الزامات اندازه‌گیری و ذخیره اطلاعات، کاهش اضافه‌بار ابعاد[xxvii] و بهبود عملکرد پیش‌بینی و فراهم کردن بینش بهتر در مورد مفهوم زیربنایی از پیش‌بینی دنیای واقعی است (تسای، 2009، 122).

دو جنبه مهم در روش‌های مختلف کاهش ابعاد (متغیرها) وجود دارد:

  • استخراج متغیرهای پیش‌بین[xxviii]:

استخراج متغیرهای پیش‌بین یا به عبارت دیگر تبدیل متغیرهای پیش‌بین[xxix] فرآیندی است که K متغیر جدید حاصل می‌شود که حاصل ترکیب N متغیر پیش‌بین اولیه هستند. شناخته شده ترین الگوریتم‌های استخراج متغیرهای پیش‌بین شامل تحلیل مولفه‌های اصلی، تحلیل عاملی و تحلیل ممیزی[xxx] است.

  • انتخاب متغیرهای پیش‌بین:

در مقابل الگوریتم‌های استخراج متغیرهای پیش‌بین، الگوریتم‌های انتخاب متغیر پیش‌بین، به انتخاب بهترین K متغیر از بین N متغیر اصلی می‌پردازد و بقیه متغیرهای کم اهمیت‌تر حذف می‌شود.

شایان ذکر است که در انتخاب متغیرها، متغیرهای اصلی بدون تغییر، انتخاب می‌شود اما در استخراج متغیرها، متغیرها به صورت تغییریافته استفاده می‌شوند. روش‌های مبتنی بر همبستگی و ریلیف از مهم‌ترین روش‌های انتخاب متغیر در پیش‌بینی متغیرهای پیوسته محسوب می‌شود که در این پژوهش نیز استفاده شده است. دلایل انتخاب این روش‌ها به شرح زیر است:

1- یافته‌های پژوهش‌های انجام شده (از قبیل روبنیک- سیکونجا[xxxi] و کوننکو[xxxii] (1997)، هال، 1999؛ کارگودا و همکاران، 2010؛ ستایش و همکاران، 2012؛ کوپرینسکا و همکاران، 2015) حاکی از عملکرد بهتر روش‌های مزبور نسبت به سایر روش‌های انتخاب متغیر است.

2- روش‌های مزبور از روش‌های انتخاب متغیر در مسائل پیش‌بینی است که متغیرهای اولیه بدون تغییر، انتخاب می‌شود و لیکن در روش‌های استخراج متغیرها، متغیرها به صورت تغییریافته استفاده خواهد شد. همچنین، روش‌های مزبور در مسائل پیش‌بینی (با متغیر وابسته پیوسته) کاربرد دارد، در حالی که برخی از روش‌های انتخاب متغیر، صرفاً در مسائل طبقه‌بندی (با متغیر وابسته اسمی از قبیل ورشکستگی) کاربرد دارد. به‌عنوان نمونه، علی‌رغم عملکرد بهتر روش rough-setsFuzzy نسبت به روش ریلیف (ستایش و همکاران، 2012) روش مزبور صرفاً در مسائل طبقه‌بندی کاربرد دارد. در ادامه به تشریح روش‌های انتخاب متغیر مبتنی بر همبستگی و ریلیفپرداخته می‌شود.

ایده اصلی روش مبتنی بر همبستگی این است که متغیرهایی بهینه محسوب می‌شوند که با متغیر وابسته همبستگی بالا و با سایر متغیرهای پیش‌بین همبستگی نداشته یا همبستگی ناچیزی داشته باشد. این روش یک الگوریتم کاملاً خودکار است، یعنی محدودیتی برای شناسایی آستانه[xxxiii] یا تعداد متغیرهایی که باید انتخاب شود، اعمال نمی‌کند. با این وجود، در صورت تمایل، اعمال آستانه یا تعداد متغیرها به‌راحتی امکان پذیر است (هال، 1999، 69).

روش انتخاب متغیر ریلیف از جمله روش‌های انتخاب متغیرهای پیش‌بین مبتنی بر معیار فاصله است. در ریلیف، وزنی که میزان ارتباط هر ویژگی را با طبقه نشان می‌دهد، به‌وسیله فاصله اقلیدسی بین نمونه‌ها تعیین می‌شود و وزن هر ویژگی نشان‌دهندهٔ قابلیت جداسازی طبقه‌ها به‌وسیله آن متغیر پیش‌بین می‌باشد. در این روش، اگر یک ویژگی به ازای نمونه‌های درون یک طبقه، مقدار یکسان و به ازای نمونه‌های دیگر طبقه‌ها مقادیر مختلفی داشته باشد، وزن بالاتری می‌گیرد. ریلیف از بین داده‌های آموزشی یک نمونه را به‌صورت تصادفی انتخاب می‌کند و سپس فاصله اقلیدسی آن نمونه تا نزدیک‌ترین نمونه از طبقه مشابه و نزدیک‌ترین نمونه از طبقه متفاوت را به‌دست می‌آورد و سپس این فاصله‌ها را برای به‌روز کردن وزن هر متغیر به‌کار می‌برد. در نهایت، الگوریتم آن دسته از متغیرهایی را انتخاب می‌کند که وزن آن‌ها از یک حد آستانه از پیش تعریف‌شده به‌وسیله کاربر، بیشتر است (آتیا[xxxiv]، 2001، 930).

ریلیف از جمله روش‌های انتخاب ویژگی فیلتر[xxxv] است که اساساً با رتبه‌بندی نزولی متغیرها عمل می‌کند و به علت سادگی و مؤثر بودن در افزایش دقت طبقه‌بندی، در بسیاری از موارد استفاده می‌شود. رتبه‌ای که ریلیف به هر متغیر می‌دهد بر اساس میزان نقش آن متغیر در جداسازی نمونه‌های متفاوت همسایه است. این الگوریتم برای هر نمونه آموزشی به دنبال نزدیک‌ترین همسایه که با آن، هم طبقه (کلاس) است می‌شود که به این نزدیک‌ترین همسایه، نزدیک‌ترین برخورد[xxxvi] گفته می‌شود. سپس نزدیک‌ترین همسایه که کلاس آن با کلاس نمونه آموزشی، مخالف است را پیدا می‌کند که به این همسایه، نزدیک‌ترین خطا[xxxvii] گفته می‌شود. رتبه‌ای که به هر متغیر داده می‌شود بر اساس نسبت مجموع فاصله نمونه‌های آموزشی تصویر شده روی هر متغیر از نزدیک‌ترین برخورد همسایه برای هر نمونه آموزشی به مجموع فاصله نزدیک‌ترین همسایه خطا برای هر نمونه آموزشی است (آتیا، 2001، 930).

روش ریلیف که در ابتدا به‌وسیله کرا[xxxviii] و رندل[xxxix] (1992) ارائه شد، را می‌توان فقط برای مسائل طبقه‌بندی با دو گروه (مثلاً ورشکسته در مقابل غیرورشکسته) استفاده کرد. روبنیک- سیکونجاو کوننکو (1997) روش ریلیف را برای استفاده در داده‌های خروجی پیوسته بسط دادند. در پژوهش حاضر نیز با توجه به پیوسته بودن متغیر وابسته (بازده سهام) از مدل بسط یافته ریلیف برای انتخاب متغیرهای پیش‌بین (مستقل) استفاده خواهد شد.

روش‌های غیرخطی از قبیل شبکه‌های عصبی، چندین مزیت مهم در مقایسه با مدل‌های آماری از قبیل رگرسیون خطی دارند. معایب رگرسیون خطی نسبت به روش‌های غیرخطی (از قبیل شبکه‌های عصبی) به شرح زیر است (دی‌تاین و همکاران[xl]، 2003، 237-238):

  • ماهیت خطی رگرسیون: یک عیب مهم رگرسیون‌های خطی این است که رگرسیون هیچ شاخص مستقیمی مبنی بر این‌که آیا داده‌ها در حالت خطی به بهترین صورت نشان داده می‌شود را ارائه نمی‌کند. با توجه به ماهیت علوم اجتماعی، در بسیاری از حالت‌ها تحلیل آماری خطی نامناسب است.
  • از پیش مشخص کردن مدل: استفاده از مدل‌های رگرسیون، مستلزم از پیش مشخص کردن مدل پایه است. این کار باعث حل آسان‌تر مسأله می‌شود ولیکن، نیازمند حدس‌های زیاد است.
  • مفروضات رگرسیون: عملکرد مدل‌های رگرسیون خطی وابسته به مفروضات گوناگونی از قبیل عدم وجود روابط خطی چندگانه و توزیع نرمال باقیمانده‌ها است.
  • عدم انطباق پذیری: رگرسیون چند متغیره در حالتی که اجزای مدل را نتوان به‌وسیله حدس مشخص کرد، دارای خاصیت انطباق‌پذیری با داده‌ها نیست.

 شبکه‌های عصبی مصنوعیو رگرسیون تجمیعی از مهم‌ترین روش‌های غیرخطی محسوب می‌شوند که در ادامه به تشریح آن‌ها پرداخته می‌شود.

شبکه‌های عصبی یک تکنیک پردازش اطلاعات مبتنی بر روش سیستم‌های عصبی بیولوژیکی مانند مغز است. طی سال‌های گذشته، شبکه‌های عصبی به‌عنوان یک فناوری ظاهر شده است که می‌تواند الگوی داده‌ها را شناسایی و مدل‌سازی کند، کاری که با روش‌های آماری به سهولت امکان‌پذیر نیست. مفهوم بنیادی شبکه‌های عصبی، ساختار سیستم پردازش اطلاعات است که از تعداد زیادی واحدهای پردازشی (نورون[xli]‌) مرتبط با شبکه‌ها تشکیل شده‌اند. سلول عصبی بیولوژیکی یا نورون، واحد سازنده سیستم عصبی در انسان است. یک نورون ازبخش‌های اصلی زیر تشکیل شده است (جعفریه و همکاران، 1385، 63):

1) بدنه سلولی[xlii] که هسته در آن است و سایر قسمت‌های سلولی از آن منشأ گرفته است.

2) هسته.

3) آکسون[xliii] که وظیفه آن انتقال اطلاعات از سلول عصبی است.

4) دندریت[xliv] که وظیفه آن انتقال اطلاعات از سلول‌های دیگر به سلول عصبی است.

نگاه مدرن به شبکه‌های عصبی، در دهه 1940 و با شروع به کار وارن مک کیولاچ[xlv] و والتر پیتز[xlvi] آغاز شد. آن‌ها نشان دادند که شبکه‌ای از نرون‌های عصبی دارای قابلیت محاسبه هر تابع ریاضی و یا منطقی می‌باشند. فعالیت آن‌ها در این زمینه را می‌توان به‌عنوان مبدأ علم شبکه‌های عصبی مصنوعی در نظر گرفت. اولین کاربرد عملی شبکه‌های عصبی در اواخر دهه 1950 شکل گرفت. در این سال‌ها شبکه‌های پرسپترون و قواعد یادگیری آن به‌وسیله فرانک روزنبلات[xlvii] (1958) ابداع شد. روزنبلات و همکاران (1958) ضمن ساختن یک شبکه پرسپترون نشان دادند که این شبکه‌ها دارای توانایی تشخیص الگو می‌باشند. این موفقیت‌ها باعث به وجود آمدن علاقه به پژوهش در این زمینه در بین پژوهش‌گران شد. با این وجود، شبکه‌های عصبی پرسپترون، تنها قابلیت حل مجموعه محدودی از مسائل را دارا بودند (کیا، 1388، 74).

یکی از مهم‌ترین شبکه‌های عصبی، شبکه‌های عصبی پرسپترون چند لایه است که بر مبنای یادگیری با سرپرست است. ساختار پایه شبکه عصبی بر مبنای پرسپترون چند لایه، یک لایه ورودی، یک یا چند لایه مخفی و یک لایه خروجی است. هرکدام از این لایه‌ها از یک یا چندین گره تشکیل شده است. لایه ورودی به تعداد متغیرهای مستقل دارای گره است و به همین ترتیب نیز لایه خروجی به تعداد متغیرهای وابسته دارای گره می‌باشد. اما مشخص کردن ساختار لایه پنهان، دشوار است (هوگلاند[xlviii]، 2012، 9657). برای آموزش این شبکه عصبی از قانون یادگیری پس‌انتشار خطا استفاده می‌شود. الگوریتم پس انتشار خطا، نوع خاصی از الگوریتم حداقل میانگین مربعات[xlix] به شمار می‌رود. مانند قاعده یادگیری حداقل میانگین مربعات، الگوریتم پس‌انتشار نیز بر مبنای تخمین بیشترین کاهش گرادیان عمل می‌کند. شاخص کارایی در این الگوریتم، میانگین مربعات خطاهاست. تنها تفاوت حداقل میانگین مربعات و پس‌انتشار در نحوه محاسبه مشتقات است. در مورد یک شبکه تک لایه خطی، خطا یک تابع خطی صریح از وزن‌های شبکه است و مشتقات بر حسب وزن‌های آن به‌راحتی قابل محاسبه است. در شبکه‌های چند لایه با تابع انتقال غیرخطی، رابطه بین وزن‌های شبکه و خطا بسیار پیچیده‌تر است و در راستای محاسبه مشتقات نیاز به استفاده از قاعده زنجیری[l] وجود دارد (کیا، 1388، 271). با توجه به این که روش پرسپترون چند لایه پس انتشار خطا بیشترین کاربرد را در حوزه مالی دارد، در پژوهش حاضر نیز از این روش استفاده شده است.

هدف رگرسیون‌های تجمیعی، ترکیب چندین مدل برای افزایش دقت پیش‌بینی در مسائل یادگیری با وجود یک متغیر هدف عددی است. این رویکرد، بخش قابل‌توجهی از پژوهش‌های اخیر را به خود اختصاص داده است. فرآیند یادگیری تجمیعی دارای سه مرحله ایجاد[li]، هرس کردن[lii] و تجمیع است. در مرحله ایجاد، مجموعه‌ای از مدل‌های پیش‌بینی ایجاد می‌شود. تعدادی مدل اضافی نیز اغلب در این مرحله به‌وجود می‌آید. در مرحله دوم، از طریق حذف برخی از مدل‌های ایجاد شده قبلی، تجمیع هرس می‌شود و در نهایت، یک راهبرد برای ترکیب مدل‌های پایه، تعریف می‌شود. سپس از این راهبرد برای به‌دست آوردن پیش‌بینی از تجمیع برای موارد جدید براساس پیش‌بینی‌های مدل‌های پایه استفاده می‌شود. مزیت رویکرد ترکیبی نسبت به مدل‌های انفرادی، افزایش استحکام (ثبات[liii]) نتایج و دقت است (مندس- موریا و همکاران[liv]، 2012، 10).

یکی از انواع مشهور رگرسیون تجمیعی، رگرسیون بگینگ[lv] است که بر پایه تجمیع چند مرتبه (تکرار) یک روش پیش‌بینی و استفاده از این پیش‌بین‌ها به‌عنوان یک پیش‌بین تجمیعی عمل می‌کند. به هر یک از پیش‌بینی‌کننده‌ها داده‌های آموزشی متفاوتی ارائه می‌شود که این داده‌ها به‌صورت تصادفی از مجموعه داده‌های آموزشی انتخاب می‌شوند. بنابراین، امکان تکرار انتخاب یک داده در یکی از مجموعه‌های ایجاد شده وجود دارد. هر یک از پیش‌بینی‌کننده‌ها با یکی از مجموعه‌های ایجاد شده آموزش می‌بیند. نتیجه نهایی در تصمیم‌گیری برای داده جدید بر مبنای اکثریت در رأی‌گیری مشخص می‌شود (بریمن[lvi]، 1996، 123).

از مزایای طبقه‌بندی‌کننده‌های تجمیعی می‌توان به سادگی در پیاده‌سازی و ترکیب چند روش پیش‌بینی که ترکیب آن‌ها باعث ایجاد یک روش غیرخطی می‌شود اشاره کرد. از دیگر مزایای طبقه‌بندی‌کننده‌های تجمیعی، استفاده از هر روش پیش‌بینی دلخواه است. افزون بر این، روش مزبور، کاهش میزان واریانس خطا را در پی خواهد داشت و بر اساس پژوهش‌های انجام شده، افزون بر واریانس خطا، میزان سوگیری (بایاس) را نیز کاهش می‌دهد (هانگ و همکاران، 2009، 5299)

در این پژوهش، طبق پیش‌فرض نرم‌افزار مورد استفاده (وکا) از 10 بار تکرار درخت تصمیم برای تجمیع روش پیش‌بینی استفاده شده است. درخت تصمیم، در اغلب کاربردهای بگینگ استفاده و کاربرد آن به نتایج مطلوبی منجر شده است و به راحتی برای متغیرهای کمی استفاده می‌شود (آلفارو و همکاران، 2008، 118 و لئو و هانگ، 2010، 36). افزون بر این، درخت تصمیم، پیش‌فرض نرم افزار وکا می‌باشد.

 

3- فرضیه‌های پژوهش

براساس مبانی نظری و پیشینه پژوهش، فرضیه‌هایی به شرح زیر تدوین شده است:

1- تفاوت معناداری بین عملکرد روش‌های پیش‌بینی، در پیش‌بینی بازده سهام شرکت‌ها وجود دارد.

1- 1- تفاوت معناداری بین عملکرد روش‌های غیرخطی رگرسیون تجمیعی و شبکه‌های عصبی مصنوعی، در پیش‌بینی بازده سهام شرکت‌ها وجود دارد.

1-2- تفاوت معناداری بین عملکرد روش غیرخطی رگرسیون تجمیعی و رگرسیون خطی، در پیش‌بینی بازده سهام شرکت‌ها وجود دارد.

1-3- تفاوت معناداری بین عملکرد روش غیرخطی شبکه‌های عصبی مصنوعی و رگرسیون خطی، در پیش‌بینی بازده سهام شرکت‌ها وجود دارد.

2- انتخاب متغیرهای پیش‌بین بهینه، تأثیر معناداری بر عملکرد روش‌های پیش‌بینی دارد.

2-1- روش انتخاب متغیر مبتنی بر همبستگی، تأثیر معناداری بر عملکرد پیش‌بینی رگرسیون تجمیعی دارد.

2-2- روش انتخاب متغیر ریلیف، تأثیر معناداری بر عملکرد پیش‌بینی رگرسیون تجمیعی دارد.

2-3- روش انتخاب متغیر مبتنی بر همبستگی، تأثیر معناداری بر عملکرد پیش‌بینی رگرسیون خطی دارد.

2-4- روش انتخاب متغیر ریلیف، تأثیر معناداری بر عملکرد پیش‌بینی رگرسیون خطی دارد.

2-5- روش انتخاب متغیر مبتنی بر همبستگی، تأثیر معناداری بر عملکرد پیش‌بینی شبکه‌های عصبی مصنوعی دارد.

2-6- روش انتخاب متغیر ریلیف، تأثیر معناداری بر عملکرد پیش‌بینی شبکه‌های عصبی مصنوعی دارد.

4- روش پژوهش

این پژوهش کاربردی است. طرح پژوهش آن از نوع شبه‌تجربی و با استفاده از رویکرد پس‌رویدادی (از طریق اطلاعات گذشته) است. از روش پس‌رویدادی زمانی استفاده می‌شود که محقق پس از وقوع رویدادها به بررسی موضوع می‌پردازد. افزون بر این، امکان دستکاری متغیرهای مستقل وجود ندارد (نمازی، 1389، 35).

در این پژوهش برای جمع‌آوری داده‌ها و اطلاعات از روش‌های کتابخانه‌ای و میدانی استفاده شده است. مبانی نظری پژوهش از کتب، مجلات و سایت‌های تخصصی فارسی و لاتین گردآوری شده و داده‌های مالی مورد نیاز با مراجعه به سایت سازمان بورس اوراق بهادار تهران، صورت‌های مالی شرکت‌ها و همچنین با استفاده از نرم‌افزارهای تدبیرپرداز و ره‌آورد نوین گردآوری شده است. در مرحله اول با بررسی ادبیات و پیشینه پژوهش (شامل حدود 250 مقاله فارسی و انگلیسی)، 200 متغیر پیش‌بین اولیه شناسایی شد. از بین متغیرهای شناسایی شده، 52 متغیری که بیشتر در ادبیات مربوط به تبیین یا پیش‌بینی بازده سهام استفاده شده و داده‌های مورد نیاز برای سنجش آن‌ها از طریق پایگاه‌های اطلاعاتی سازمان بورس و اوراق بهادار و همچنین نرم‌افزارهای تدبیرپرداز و ره‌آورد نوین در دسترس بود، انتخاب شد. در این راستا، سعی شد که هم متغیرهای حسابداری (اقلام مبتنی بر ترازنامه، صورت سود و زیان و صورت جریان وجوه نقد) و هم متغیرهای بازار استفاده و محتوای اطلاعاتی آن‌ها مدنظر قرار گیرد. بنابراین، ابعاد سودآوری، کارایی، اهرم مالی، نقدینگی، نسبت‌های مبتنی بر هر سهم، نسبت‌های مبتنی بر جریان وجوه نقد و نسبت‌های بازار در نظر گرفته شده است. جدول 1، میانگین این متغیرها را در شرکت‌های مورد بررسی نشان می‌دهد. در این جدول، متغیرهایی که به صورت تغییرات (∆) نشان داده شده است، بیانگر درصد رشد سالانه متغیر مزبور می‌باشد. بتای هر سهم نیز از تقسیم کوواریانس بازده سهم و بازده بازار به واریانس بازده بازار به‌دست آمده است. برای محاسبه بتا در سال t از اطلاعات ماهانه بازده سهام و بازده بازار برای پنج سالهمنتهی به سال t استفاده شده است. اقلام تعهدی نیز تفاوت بین سود عملیاتی و جریان نقد حاصل از فعالیت‌های عملیاتی است. در ادامه، با استفاده از روش‌های انتخاب متغیرهای پیش‌بین در نرم‌افزار وکا، از بین 52 متغیر ذکر شده، متغیرهای بهینه، انتخاب شده است. در جدول 2، هفت متغیر بهینه انتخاب شده در روش مبتنی بر همبستگی ارائه شده است. روش انتخاب متغیر ریلیف نیز کلیه متغیرهای پیش‌بین را رتبه‌بندی می‌کند. در این پژوهش، به منظور قابلیت مقایسه بهتر با روش مبتنی بر همبستگی از هفت متغیر اول (بهتر) رتبه‌بندی شده در این روش استفاده می‌شود که این متغیرها به ترتیب رتبه در جدول 2 ارائه شده است.

کلیه متغیرهای مستقل این پژوهش که نحوه انتخاب آن در بخش قبل توضیح داده شد در جدول 1 ارائه شده است. متغیرهای مستقل بهینه انتخاب شده توسط روش‌های مبتنی بر همبستگی و ریلیف نیز در جدول 2 ارائه شده است.

 

متغیر وابسته در این پژوهش، بازده سهام است که مشابه پژوهش‌های پیشین، طبق رابطه 1 (به‌عنوان نمونه، دستگیر و خدابنده، 1382، 106 و ثقفی و شعری، 1383، 98) از تقسیم مجموع عایدات یک سهم در طول دوره مالی بر قیمت سهم در ابتدای دوره، محاسبه می‌شود. عایدات شامل افزایش قیمت سهم و سود نقدی پرداخت شده است و با توجه به تأثیر افزایش سرمایه، بازده سهام تعدیل خواهد شد.

(1) بازده سهام

 

 

 

 به منظور افزایش دقت محاسبه، بازده سهام به‌صورت ماهانه محاسبه و میانگین هندسی بازده ماهانه برای یک سال، به‌عنوان بازده سالانه درنظر گرفته شده است. بازده میانگین هندسی، بازده‌های تجمعی و ترکیبی مربوط به گذشته را اندازه‌گیری می‌کند. در طول چند دوره، میانگین هندسی، میانگین نرخ رشد صحیح‌تری نسبت به میانگین حسابی را نشان می‌دهد (فبوزی و مارکویتز، 2002، 114 و 115؛ پینتو و همکاران، 2010، 49 و تهرانی و نوربخش، 1386، 126 و 128).

جامعه آماری این پژوهش، کلیه شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران طی دوره زمانی 1383 الی 1392 می‌باشد. از این جامعه، بدون انجام نمونه‌گیری، شرکت‌های حائز شرایط زیر به عنوان نمونه انتخاب شده است:

1)   تا پایان اسفندماه سال 1382 در بورس اوراق بهادار تهران پذیرفته شده باشند.

2)   سال مالی آن‌ها منتهی به پایان اسفندماه بوده و در دوره زمانی مورد بررسی، تغییری در آن ایجاد نشده باشد.

3)   ارزش دفتری حقوق صاحبان سهام آن‌ها در دوره مورد بررسی، مثبت باشد.

4)   شرکت‌ها طی دوره مورد بررسی، فعالیت مستمر داشته و سهام آن‌ها بدون وقفه با اهمیت مورد معامله قرار گرفته باشد (حداقل 40 مبادله در سال).

5)   جزء شرکت‌های تولیدی باشد.

6)   اطلاعات مالی مورد نیاز برای انجام این پژوهش را در دوره زمانی 1383 الی 1392 به‌طور کامل ارائه کرده باشند.

تعداد کل شرکت‌های پذیرفته شده تا پایان سال 1382، بالغ بر 371 شرکت بود. تعداد 124 شرکت پذیرفته شده، به‌دلیل غیرتولیدی بودن یا پایان دوره مالی غیر از اسفندماه، از مجموع شرکت‌ها حذف شد. از 247 شرکت باقی‌مانده، 51 شرکت دارای حقوق صاحبان سهام منفی، مبادلات 36 شرکت، کمتر از 40 مرتبه در سال و اطلاعات 59 شرکت در دسترس نبود. با توجه به بررسی‌های انجام شده، تعداد 101 شرکت در دوره زمانی 1383 الی 1392 حائز شرایط فوق بوده و مورد بررسی قرار گرفته است.

 

5- روش آزمون فرضیه‌ها

پس از مشخص شدن متغیرهای بهینه به‌وسیله هر یک از روش‌های انتخاب متغیر، از روش رگرسیون خطی و روش‌های غیرخطی رگرسیون تجمیعی و شبکه‌های عصبی مصنوعی برای پیش‌بینی بازده سهام استفاده شده است. در این راستا، از پیش‌فرض‌های نرم‌افزار وکا استفاده شده است. شایان ذکر است که در این پژوهش، از داده‌های یک سال قبل شرکت‌ها برای پیش‌بینی بازده سهام استفاده شده است. به‌منظور ارزیابی عملکرد رگرسیون تجمیعی در پیش‌بینی بازده سهام، معیارهای ارزیابی (شامل میانگین قدرمطلق درصد خطا[lvii]، مجذور مربع میانگین خطا[lviii] و ضریب تعیین) مربوط به پیش‌بینی این روش با روش‌های متداول شبکه‌های عصبی مصنوعی و رگرسیون خطی مقایسه می‌شود. معیارهای مزبور، متداول‌ترین معیارهای ارزیابی عملکرد در مسائل پیش‌بینی محسوب می‌شود که نحوه محاسبه آن در جدول 3 ارائه شده است.

 بالاتر بودن ضریب تعیین و پایین‌تر بودن دو معیار دیگر بیانگر عملکرد بهتر پیش‌بینی است. علی‌رغم وجود معیارهای ارزیابی عملکرد متداول دیگر در این زمینه، به‌دلیل این‌که به‌راحتی از سه معیار بالا قابل محاسبه است، از ارائه آن خودداری شده است. به‌عنوان نمونه، مربعمجذورمیانگینخطا (RMSE)، ریشه دوم مربع میانگین خطا (MSE) است و مربع میانگین خطای استاندارد نرمال شده (NMSE) و ضریب تعیین مکمل یکدیگرند (اسمیت و گوپتا، 2002، 9).

جدول 1- متغیرهای مستقل (پیش‌بین) و میانگین آن

ردیف

نام متغیر

نحوه سنجش

میانگین

ردیف

نام متغیر

نحوه سنجش

میانگین

1

Size

Log MV(t-1)

46/12

27

∆ OPM

∆ (OI/S)

054/0

2

E/Pt

NI/Pt

241/0

28

NPM

NI/S

17/0

3

BV/MV

BV/MV

184/0

29

∆ NPM

∆ (NI/S)

005/0

4

Lev

TL/TA

673/0

30

R (t-1)

R (t-1)

261/0

5

TL/E

TL/E

058/2

31

Cov

OI/Int

959/395

6

ROA

NI /TA

145/0

32

OCF

OCF/MV(t-1)

112/0

7

∆ ROA

∆ (NI /TA)

801/12-

33

∆ OCF

∆ OCF/MV(t-1)

031/0

8

ROE

NI/E

315/0

34

IRFEF

IRFEF /MV(t-1)

002/0

9

∆ ROE

∆ (NI/E)

445/7-

35

ICF

ICF/MV(t-1)

069/0-

10

Beta

Beta

345/0

36

FCF

FCF/MV(t-1)

354/0-

11

EPS

EPS

579/799

37

∆ S

∆ S

294/24

12

DPS

DPS

114/479

38

∆ A

∆ A

960/21

13

EPS/P(t-1)

EPS/p(t-1)

316/0

39

∆ E

∆ E

872/24

14

DPS/P(t-1)

DPS/p(t-1)

191/0

40

OI / TA

OI / TA

171/0

15

∆ DPS

∆ DPS

296/0

41

∆ OI / TA

∆ (OI / TA)

125/0

16

CR

CA/CL

674/1

42

ACC

ACC / MV(t-1)

082/0

17

QR

(CA-Inv) / CL

875/0

43

Turn

TV/ OS

142/0

18

Inv Turn

COGS/ Inv(ave)

108/4

44

NT

NT

8672

19

∆ Inv Turn

∆ COGS/ Inv(ave)

154/0

45

DPR

DPS / EPS

621/0

20

FA Turn

S/FA

143/5

46

OI

OI / MV(t-1)

143/0

21

∆ FA Turn

∆ S/FA

094/0

47

∆ OI

∆ OI

699 /11

22

TA turn

S/TA

808/0

48

NI

NI / MV(t-1)

127/0

23

∆ TA turn

∆ S/TA

147/0

49

∆ NI

∆ NI

321/22

24

GPM

GP/S

264/0

50

CI

CI / MV(t-1)

156/0

25

∆ GPM

∆ GP/S

064/0

51

∆ CI

∆ CI

254/26

26

OPM

OI/S

211/0

52

WC/TA

WC/TA

062/0

MV: ارزش بازار شرکت P: قیمت BV: ارزش دفتری TL: کل بدهی‌ها TA: کل دارایی‌ها E: حقوق صاحبان سهام NI: سود خالص Beta: ریسک سیستماتیک EPS: سود هر سهم DPS: سود تقسیمی هر سهم CA: دارایی‌های جاری CL: بدهی‌های جاری Inv: موجودی کالا COGS: بهای تمام شده کالای فروش رفته S: فروش FA: دارایی‌های ثابت GP: سود ناخالص OI: سود عملیاتی R: بازده سهام Int: هزینه‌های مالی OCF: جریان نقد عملیاتی IRFEF: بازده سرمایه گذاری‌ها و سود پرداختی بابت تأمین مالی ICF: جریان نقد فعالیت‌هایسرمایه‌گذاری FCF: جریان نقد فعالیت‌های تأمین مالی ACC: اقلام تعهدی TV: حجم مبادلات OS: تعداد سهام منتشره NT: تعداد دفعات مبادله CI: سود جامع WC: سرمایه در گردش

منبع: یافته‌های پژوهشگر

 

جدول 2- متغیرهای بهینه انتخاب شده در روش‌های مبتنی بر همبستگی و ریلیف

روش مبتنی بر همبستگی

روش ریلیف

ردیف

نام متغیر

ردیف

نام متغیر

ردیف

نام متغیر

ردیف

نام متغیر

1

Beta

5

∆S

1

E/P

5

∆ NI

2

∆ DPS

6

∆OI

2

GPM

6

∆ OI

3

Lev

7

R (t-1)

3

∆ S

7

∆ ROA

4

GPM

 

 

4

R (t-1)

 

 

منبع: یافته‌های پژوهشگر

 

جدول 3- معیارهای ارزیابی عملکرد پیش‌بینی مورد استفاده

نام معیار

نحوه سنجش

مربعمجذورمیانگینخطا (RMSE)

 

ضریب تعیین ( )

 

میانگین قدرمطلق درصد خطا (MAPE)

 

Zp: مقدار پیش‌بینی شده، dp: مقدار واقعیđ: میانگین مقادیر

منبع: اسمیت و گوپتا، 2002، 9 و آذر و کریمی، 1388، 8

 

افزون‌بر این، به‌منظور ارزیابی عملکرد روش‌های مختلف انتخاب متغیر بهینه، معیارهای ارزیابی (میانگین قدرمطلق درصد خطا، مجذور مربع میانگین خطا و ضریب تعیین) حاصل از هر یک از روش‌های انتخاب متغیر با یکدیگر و همچنین با معیارهای ارزیابی حاصل از عدم انجام مرحله انتخاب متغیرهای پیش‌بین در هر یک از روش‌های خطی و غیرخطی مقایسه می‌شود. منظور از عدم انجام مرحله انتخاب متغیرهایپیش‌بین، پیش‌بینی با استفاده از کلیه متغیرهای پیش‌بین (قبل از کاهش تعداد متغیرها) است. انتخاب متغیرهای بهینه پیش‌بین و پیش‌بینی بازده سهام با استفاده از روش‌های خطی و غیرخطی مختلف به‌وسیله نرم‌افزارهای Weka نسخه 7-3 و MATLAB نسخه 8، انجام شده است. به‌منظور آزمون فرضیه‌های پژوهش نیز از آزمون t زوجی (براساس صد دقت حاصل از اجرای روایی متقابل 10 بخشی[lix] با 10 بار تکرار در هر روش پیش‌بینی) در نرم‌افزار SPSS نسخه 21 استفاده شده است.

در این پژوهش به منظور ارزیابی عملکرد رگرسیون تجمیعی و کسب نتایج تجربی قابل مقایسه، معیارهای عملکرد (شامل میانگین قدرمطلق درصد خطا، مجذور مربع میانگین خطا و ضریب تعیین) این روش غیرخطی با روش غیرخطی شبکه‌های عصبی مصنوعی و رگرسیون خطی مقایسه شده است. دلایل استفاده از شبکه‌های عصبی پرسپترون چندلایه با الگوریتم آموزشی پس انتشار خطا به عنوان مبنای مقایسه به شرح زیر است:

1)   در دهه‌های اخیر، شبکه‌های عصبی مصنوعی به‌طور وسیعی برای پیش‌بینی‌های مالی استفاده شده است (آلفارو و همکاران، 2008، 110، راوی کومار و راوی، 2007)، به‌طوری که، حدود 95% از مطالعات تجاری کاربردی از پرسپترون چندلایه استفاده کرده‌اند و مشهورترین روش آموزشی نیز پس‌انتشار خطا است (تسای، 2009، 123).

2)   یافته‌های پژوهش‌های تجربی بیانگر دقت بالای این مدل هوش مصنوعی است. این مدل‌ها قادر به شناسایی روابط غیرخطی هستند و عملکرد خوبی در صورت وجود اطلاعات دارای پارازیت که اغلب در پیش‌بینی‌های مالی و حسابداری رخ می‌دهد از خود نشان می‌دهند (راوی کومار و راوی، 2007؛ آلفارو و همکاران، 2008،110؛ و تسای، 2009، 123).

دلیل اصلی مقایسه عملکرد رگرسیون تجمیعی با رگرسیون خطی نیز مقایسه عملکرد روش غیرخطی مزبور با روش خطی است که در اغلب پژوهش‌های حسابداری و مالی استفاده می‌شود.

در روش holdout که در اغلب پژوهش‌های حسابداری و مالی (به‌ویژه در ایران) استفاده شده است، داده‌ها به دو دسته به نام مجموعه آموزشی و مجموعه آزمایشی تقسیم می‌شود. این روش دارای محدودیت‌های بارزی است. اول آن‌که تعداد داده‌های کمتری برای آموزش در اختیار روش پیش‌بینی خواهد بود، زیرا تعدادی از آن برای مرحله آزمایش کنار گذاشته می‌شود. بنابراین، ممکن است دقت مدل حاصل، کمتر از زمانی باشد که تمام داده‌ها برای آموزش استفاده می‌شوند. دوم آن‌که ممکن است مدل پیش‌بینی تا حد زیادی وابسته به ترکیب مجموعه‌های داده‌های آموزشی و آزمایشی باشد. هرچه اندازه مجموعه داده‌های آموزش کوچک‌تر باشد، واریانس مدل بیشتر خواهد بود. از طرف دیگر اگر اندازه مجموعه داده‌های آموزشی خیلی بزرگ باشد، دقت تخمین با توجه به اندازه کوچک‌تر مجموعه داده‌های آزمون از قابلیت اطمینان کمتری برخوردار خواهد بود. چنین تخمینی دارای بازه اطمینان زیادی خواهد بود. در نهایت، مجموعه داده‌های آموزشی و آزمایشی از یکدیگر مستقل نیستند، زیرا هر دو، زیرمجموعه‌ای از مجموعه اولیه داده‌ها هستند. طبقه‌بندی داده‌های بیشتر در یکی از مجموعه داده‌های آموزش یا آزمایشی سبب کمبود داده‌های مجموعه دیگر خواهد شد. بنابراین، روش مزبور، روش مناسبی نخواهد بود (کوهاوی، 1995: 1138).

در این پژوهش، به منظور بررسی تعمیم‌پذیری پیش‌بینی‌های انجام شده از روایی متقابل 10 بخشی استفاده می‌شود. روایی متقابل 10 بخشی برای برآورد نرخ خطای واقعی کاملاً قابل‌اتکا و کافی است (هو[lx]، 2010، 2535). در این روش، نمونه اصلی به 10 دسته نمونه فرعی مختلف تقسیم می‌شود. 9 نمونه فرعی به‌عنوان نمونه‌های آموزشی استفاده می‌شود و نمونه فرعی باقی‌مانده به‌عنوان نمونه آزمایشی، مورد آزمون قرار می‌گیرد. این شیوه تا حدی تکرار می‌شود که هر یک از 10 نمونه فرعی به‌عنوان نمونه آزمایشی مورد آزمون قرار گیرد. مزیت روش مزبور، این است که تمام نمونه‌ها در نهایت هم به‌عنوان داده‌های آموزشی و هم به‌عنوان آزمایشی استفاده خواهد شد. افزون براین، استفاده از روایی متقابل، از بروز مشکل بیش‌برازش و مشکلات مربوط به نتایج برون‌نمونه‌ای نتایج جلوگیری می‌کند. به‌طور کلی، در این پژوهش، با استفاده از روش‌های پیش‌بینی رگرسیون تجمیعی، شبکه‌های عصبی و رگرسیون خطی، بازدهآتی سهام پیش‌بینی شده است. در این راستا، از روایی متقابل 10 بخشی با 10 بار تکرار استفاده شد که منجر به ایجاد 100 معیار ارزیابی در مورد هر روش پیش‌بینی می‌شود و معیارهای ارزیابی ارائه شده در این پژوهش، میانگین این 100 عدد است. شایان ذکر است که بهتر بودن معیارهای ارزیابی (مثلاً بالاتر بودن ضریب تعیین) یک روش پیش‌بینی نسبت به روش دیگر، دال بر برتری روش مزبور نمی‌باشد و ممکن است تفاوت بین دو روش از نظر آماری معنادار نباشد. بنابراین، از آماره t زوجی به منظور بررسی معنادار بودن تفاوت بین دو روش از نظر آماری استفاده شده است.

 

6- یافته‌های پژوهش

جدول‌های 4 الی 6 معیارهای ارزیابی (شامل میانگین قدرمطلق درصد خطا، مجذور مربع میانگین خطا و ضریب تعیین) مربوط به پیش‌بینی بازده سهام را بر اساس روش‌های رگرسیون تجمیعی (ER)، شبکه‌های عصبی مصنوعی (ANN) و رگرسیون خطی (LR) در سه حالت، با استفاده از 52 متغیر پیش‌بین (All)، با متغیرهای انتخابی در روش‌های مبتنی بر همبستگی (Corr) و ریلیف (R) نشان می‌دهد. با توجه به نتایج این جدول‌ها، در هر سه حالت، عملکرد رگرسیون تجمیعی بهتر از شبکه‌های عصبی مصنوعی و رگرسیون خطی است. همچنین عملکرد شبکه‌های عصبی مصنوعی بهتر از رگرسیون خطی است.

 

جدول 4- عملکرد روش‌های مختلف پیش‌بینی با استفاده از کلیه متغیرهای پژوهش

LR

ANN

ER

روش پیش‌بینی معیار عملکرد

247/89

857/63

243/49

مجذور مربع میانگین خطا

512/0

245/0

191/0

میانگین قدرمطلق درصد خطا

041/0

238/0

384/0

ضریب تعیین

منبع: یافته‌های پژوهشگر

 

جدول 5- عملکرد روش‌های مختلف پیش‌بینی با استفاده از متغیرهای انتخاب شده در روش مبتنی بر همبستگی

LR

ANN

ER

روش پیش‌بینی معیار عملکرد

895/84

857/53

195/40

مجذور مربع میانگین خطا

467/0

214/0

121/0

میانگین قدرمطلق درصد خطا

114/0

387/0

586/0

ضریب تعیین

منبع: یافته‌های پژوهشگر

جدول 6- عملکرد روش‌های مختلف پیش‌بینی با استفاده از متغیرهای انتخاب شده در روش ریلیف

LR

ANN

ER

روش پیش‌بینی معیار عملکرد

617/75

561/41

517/37

مجذور مربع میانگین خطا

342/0

154/0

097/0

میانگین قدرمطلق درصد خطا

167/0

472/0

694/0

ضریب تعیین

منبع: یافته‌های پژوهشگر

 

در ادامه، برای آزمون فرضیه اول و بررسی وجود تفاوت معنادار بین عملکرد پیش‌بینی میان هر جفت روش پیش‌بینی، از آزمون t زوجی استفاده شده است. در این راستا، از دقت‌های حاصل از 10 بار تکرارِ روایی مقطع 10 بخشی (روایی مقطع 10 بخشی با 10 بار تکرار) استفاده شد که منجر به ایجاد 100 دقت در مورد هر روش پیش‌بینی می‌شود. آماره آزمون و مقدار احتمال مربوطه حاکی از وجود تفاوت معنادار در مورد کلیه معیارهای عملکرد بین هر جفت روش پیش‌بینی مورد مقایسه در هر سه حالت بود. جدول‌های 7 الی 9 نتایج این آزمون و مقدار احتمال مربوطه را برای معیار ضریب تعیین نشان می‌دهد. با توجه به آماره t و مقدار احتمال مربوطه (05/0p<)، تفاوت معناداری بین ضریب تعیین هر جفت روش پیش‌بینی مورد مقایسه در هر سه حالت مورد بررسی وجود دارد. بنابراین، فرضیه اول پژوهش (و فرضیه‌های فرعی آن)، تأیید می‌شود. بنابراین، با توجه به بهتر بودن معیارهای عملکرد رگرسیون تجمیعی نسبت بهشبکه‌های عصبی مصنوعی و رگرسیون خطی و معنادار بودن آن، می‌توان نتیجه گرفت که روش غیرخطی مزبور، به طور معناداری بهتر از رگرسیون خطی و شبکه‌های عصبی مصنوعی، بازده سهام را پیش‌بینی می‌کند. همچنین، با توجه به بهتر بودن معیارهای عملکرد شبکه‌های عصبی مصنوعی نسبت به رگرسیون خطی و معنادار بودن تفاوت آن، چنین استنباط می‌شود که این روش غیرخطی به طور معناداری، بهتر از روش خطی بازده سهام را پیش‌بینی می‌کند.

 

جدول 7- نتایج آزمون t و مقدار احتمال مربوطه در حالت استفاده از کلیه متغیرها

 

LR

ANN

ER

ER

-

-

-

ANN

285/3

(000/0)

-

-

LR

721/8

(000/0)

548/7

(000/0)

-

منبع: یافته‌های پژوهشگر

 

جدول 8- نتایج آزمون t و مقدار احتمال مربوطه در حالت استفاده از روش انتخاب متغیر مبتنی بر همبستگی

 

LR

ANN

ER

ER

-

-

-

ANN

742/5

(000/0)

-

-

LR

848/9

(000/0)

894/7

(000/0)

-

منبع: یافته‌های پژوهشگر

 

جدول 9- نتایج آزمون t و مقدار احتمال مربوطه در حالت استفاده از روش انتخاب متغیر ریلیف

 

LR

ANN

ER

ER

-

-

-

ANN

981/5

(000/0)

-

-

LR

429/11

(000/0)

357/8

(000/0)

-

منبع: یافته‌های پژوهشگر

 

 به‌منظور آزمون فرضیه دوم، معیارهای عملکرد هر روش پیش‌بینی در حالت استفاده از 52 متغیر پیش‌بین با حالت استفاده از متغیرهای انتخابی توسط روش‌های مبتنی بر همبستگی و ریلیف مقایسه می‌شود. اگر عملکرد هر روش پیش‌بینی (بر اساس جدول‌های 4 الی 6) در حالت استفاده از روش‌های انتخاب متغیر نسبت به استفاده از 52 متغیر، بهتر و تفاوت مربوط از نظر آماری (بر اساس جدول‌های 10 الی 12) معنادار باشد، می‌توان استنباط کرد که روش‌های انتخاب متغیر تأثیر مثبت و معناداری بر عملکرد روش پیش‌بینی دارد. نتایج مربوط به مقایسه معیار ضریب تعیین هر روش پیش‌بینی در حالت استفاده از 52 متغیر و استفاده از دو روش انتخاب متغیر در جدول‌های 10 الی 12 ارائه شده است. با توجه به آماره t و مقدار احتمال مربوطه (05/0p<)، هر دو روش انتخاب متغیر تأثیر مثبت و معناداری بر ضریب تعیین پیش‌بینی دارد. بدین معنا که پیش‌بینی با استفاده از متغیرهای انتخابی هر دو روش نسبت به استفاده از کلیه متغیرها (52 متغیر) منجر به عملکرد بهتر (ضریب تعیین بالاتر) در پیش‌بینی می‌شود. همچنین، روش انتخاب متغیر ریلیف، تأثیر بیشتری بر عملکرد روش‌های پیش‌بینی دارد. بدین معنا که عملکرد (ضریب تعیین) پیش‌بینی با استفاده از متغیرهای انتخابی روش ریلیف نسبت به پیش‌بینی با استفاده از متغیرهای انتخابی روش مبتنی بر همبستگی، بهتر (ضریب تعیین، بالاتر) است. بنابراین، فرضیه دوم پژوهش نیز تأیید می‌شود.

جدول 10- نتایج آزمون t و مقدار احتمال مربوطه با استفاده از رگرسیون تجمیعی

 

All

Corr

R

All

-

-

-

Corr

393/3

(000/0)

-

-

R

357/6

(000/0)

127/5

(000/0)

-

منبع: یافته‌های پژوهشگر

 

جدول 11- نتایج آزمون t و مقدار احتمال مربوطه با استفاده از شبکه‌های عصبی مصنوعی

 

All

Corr

R

All

-

-

-

Corr

521/5

(000/0)

-

-

R

452/5

(000/0)

217/3

(000/0)

-

منبع: یافته‌های پژوهشگر

 

جدول 12- نتایج آزمون t و مقدار احتمال مربوطه با استفاده از رگرسیون خطی

 

All

Corr

R

All

-

-

-

Corr

163/3

(000/0)

-

-

R

879/3

(000/0)

159/3

(000/0)

-

منبع: یافته‌های پژوهشگر

 

 به‌منظور ارزیابی نقش صنعت در پیش‌بینی بازده سهام، آزمون‌های انجام شده، به تفکیک گروه‌های صنعت نیز انجام شد. شایان ذکر است که با توجه به محدودیت‌های اعمال شده در نمونه آماری، تعداد شرکت‌های انتخابی برخی از صنایع اندک و برخی صنایع در نمونه آماری فاقد نماینده بوده و بنابراین با صنایع تقریباً مشابه ترکیب گردیده است. در نهایت، شرکت‌های مورد بررسی در 8 گروه صنعت، طبقه‌بندی شد. جدول 13 گروه‌های صنایع مربوط به شرکت‌های مورد مطالعه و فراوانی آن‌ها در پژوهش حاضر را نشان می‌دهد.

 

جدول 13- گروه‌بندی صنایع و فراوانی آن‌ها در نمونه آماری

ردیف

گروه صنایع

صنایع زیرمجموعه

فراوانی

1

ماشین‌آلات و تجهیزات

ماشین‌آلات و تجهیزات، ماشین‌آلات دستگاه‌های برقی

8

2

خودرو و ساخت قطعات

خودرو و ساخت قطعات

14

3

غذایی و آشامیدنی

محصولات غذایی و آشامیدنی، قند و شکر

7

4

سیمانی

سیمان، آهک و گچ

9

5

دارویی

مواد و محصولات دارویی

21

6

فلزات

فلزات اساسی، ساخت محصولات فلزی، استخراج کانه‌های فلزی

13

7

شیمیایی، نفتی، لاستیک و پلاستیک

محصولات شیمیایی، فرآورده‌های نفتی، لاستیک و پلاستیک

17

8

کاشی و سرامیک، منسوجات، محصولات چوبی و کاغذی و سایر محصولات کانی غیرفلزی

کاشی و سرامیک، سایر محصولات کانی غیرفلزی، منسوجات، محصولات چوبی، محصولات کاغذی و استخراج سایر معادن

12

مجموع

101

منبع: یافته‌های پژوهشگر

 

جدول 14، نتایج ضریب تعیین پیش‌بینی در روش‌های مختلف پیش‌بینی با استفاده از متغیرها یا عامل‌های متفاوت را برای شرکت‌های مورد بررسی در هر گروه صنعت نشان می‌دهد. دلیل استفاده از ضریب تعیین، این است که معیار مزبور، معروف‌ترین و پرکاربردترین معیار ارزیابی مدل‌های مختلف پیش‌بینی است (اسمیت و گوپتا، 2002: 8).

با توجه به نتایج ارائه شده در جدول 14، ضریب تعیین پیش‌بینی نسبت به پیش‌بینی تجمعی کل شرکت‌ها، در برخی موارد، افزایش و برخی موارد، کاهش یافته است. به نظر می‌رسد که کاهش تعداد شرکت‌های مورد بررسی منجر به کاهش ضریب تعیین و همگن‌تر شدن شرکت‌های مورد بررسی منجر به بهبود عملکرد پیش‌بینی می‌شود. دلیل دیگر کاهش ضریب تعیین در برخی موارد نسبت به پیش‌بینی با استفاده از کل شرکت‌ها (جداول 4 الی 6)، این است که پیش‌بینی با تعداد نمونه‌های آموزشی اندک در دوره زمانی ده ساله (با شرایط سیاسی، اقتصادی و اجتماعی مختلف) انجام شده است. افزون براین، با توجه به نتایج ارائه شده در جدول 14، ضریب تعیین پیش‌بینی در گروه صنعت دارویی، اغلب موارد، افزایشیافته است. به‌نظر می‌رسد با توجه به این که گروه مورد بررسی صرفاً از شرکت‌های دارویی و از تعداد نسبتاً قابل توجهی شرکت تشکیل شده است و احتمالاً نوسان‌پذیری کمتری نسبت به شرایط سیاسی، اقتصادی و اجتماعی دارد، همگن‌تر شدن شرکت‌های مورد بررسی، (نسبت به بررسی کل شرکت‌های نمونه)، نقش بیشتری در مقایسه با کاهش تعداد شرکت‌های مورد بررسی داشته و منجر به بهبود عملکرد پیش‌بینی در اغلب موارد می‌شود. دلیل احتمالی کاهش در ضریب تعیین پیش‌بینی با استفاده از روش خطی، عدم احراز مفروضات رگرسیون خطی است.

 

جدول 14- نتایج ضریب تعیین در گروه صنایع متفاوت

LR

ANN

ER

روش‌پیش‌بینی

متغیرها

 

LR

ANN

ER

روش‌پیش‌بینی

متغیرها

 

022/0

246/0

375/0

All

خودرو و ساخت قطعات

023/0

246/0

391/0

All

ماشین‌آلات و تجهیزات

128/0

394/0

592/0

Corr

136/0

357/0

582/0

Corr

126/0

493/0

701/0

R

182/0

491/0

653/0

R

035/0

241/0

365/0

All

سیمانی

035/0

221/0

387/0

All

غذایی و آشامیدنی

103/0

392/0

592/0

Corr

103/0

357/0

574/0

Corr

144/0

478/0

683/0

R

144/0

447/0

681/0

R

033/0

223/0

365/0

All

فلزات

032/0

241/0

394/0

All

دارویی

097/0

381/0

593/0

Corr

112/0

412/0

601/0

Corr

173/0

479/0

687/0

R

174/0

484/0

703/0

R

014/0

217/0

361/0

All

کاشی و سرامیک

024/0

241/0

357/0

All

شیمیایی، نفتی

091/0

363/0

574/0

Corr

081/0

346/0

592/0

Corr

115/0

469/0

701/0

R

182/0

463/0

684/0

R

 

 

7- بحث و نتیجه‌گیری

پیش‌بینی بازده سهام در تصمیم‌گیری‌های مالی از اهمیت بسزایی برخوردار است و همواره به عنوان موضوعی حیاتی مدنظر بوده و به طور وسیعی در ادبیات حسابداری و مالی مورد مطالعه قرار گرفته است. مرحله انتخاب متغیرهای پیش‌بین به عنوان یکی از مراحلی است که باید قبل از پیش‌بینی استفاده شود و گامی مؤثر در انتخاب اطلاعات ارزشمندتر در بین اطلاعات وسیع است. به عبارت دیگر، هدف این مرحله، فیلتر کردن اطلاعات نامربوط یا اضافی است و در نتیجه می‌تواند عملکرد مدل را با کاهش تلاش برای آموزش، بهبود بخشد. علی رغم اهمیت مرحله انتخاب متغیرهای پیش‌بین قبل از پیش‌بینی، این مرحله کمتر در ادبیات پیش‌بینی بازده سهام بررسی شده است و بیشتر مطالعات بر ایجاد مدل‌های پیش‌بینی اثربخش‌تر با قابلیت‌های پیش‌بینی بهتر، (بدون توجه به انتخاب متغیرهای پیش‌بین)، تأکید داشته‌اند. افزون بر این، در اغلب پژوهش‌های انجام شده در بورس اوراق بهادار تهران، از روش‌های خطی و در پژوهش‌های اندکی نیز از شبکه‌های عصبی مصنوعی برای پیش‌بینی بازده سهام استفاده شده است و علی‌رغم برتری نظری و تجربی سایر روش‌های غیرخطی از قبیل رگرسیون تجمیعی، تاکنون از این روش‌ها استفاده نشده است. در این راستا، پژوهش حاضر بر پیش‌بینی بازده سهام با استفاده از متغیرهای منتخب توسط روش‌های انتخاب متغیرهای پیش‌بین بهینه و روش غیرخطی رگرسیون تجمیعی تأکید دارد.

یافته‌های تجربی بررسی 101 شرکت پذیرفته شده در بورس اوراق بهادار تهران در دوره زمانی 1383 الی 1392 حاکی از آن بود که عملکرد رگرسیون تجمیعی (شامل میانگین قدرمطلق درصد خطا، مجذور مربع میانگین خطا و ضریب تعیین) به طور معناداری بهتر از رگرسیون خطی و شبکه‌های عصبی مصنوعی است. این موضوع حتی بدون استفاده از روش‌های انتخاب متغیر (و در صورت استفاده از 52 متغیر پیش‌بین) نیز صادق است. عملکرد شبکه‌های عصبی مصنوعی نیز به طور معناداری بهتر از رگرسیون خطی بوده است. بنابراین، روش‌های غیرخطی به طور معناداری بازده سهام را بهتر از رگرسیون خطی پیش‌بینی می‌کند. یافته‌های بررسی عملکرد و سودمندی روش‌های انتخاب متغیرهای پیش‌بین بهینه نیز حاکی از آن است که عملکرد پیش‌بینی بازده با متغیرهای انتخاب شده توسط روش‌های مبتنی بر همبستگی و ریلیف به طور معناداری بهتر از پیش‌بینی با استفاده از کلیه متغیرها (و عدم استفاده از روش‌های انتخاب متغیرهای بهینه) است. در این راستا، متغیرهای انتخاب شده در روش ریلیف عملکرد پیش‌بینی بازده را بیشتر از روش مبتنی بر همبستگی بهبود می‌دهد. بنابراین، استفاده از روش غیرخطی رگرسیون تجمیعی و بدون استفاده از روش‌های انتخاب متغیرهای پیش‌بین، عملکرد پیش‌بینی به طور معناداری بهبود می‌یابد، که این موضوع حاکی از سودمندی روش غیرخطی مزبور است. همچنین، در صورت استفاده از متغیرهای پیش‌بین بهینه انتخاب شده نسبت به استفاده از 52 متغیر اولیه، عملکرد پیش‌بینی به طور معناداری افزایش می‌یابد که این موضوع بیانگر سودمندی این روش‌هاست. دلیل این امر، مسأله اضافه‌بار ابعاد می‌باشد. به نظر می‌رسد اضافه کردن متغیرهای بیشتر، پارازیت (نویز) و در نتیجه خطا را افزایش می‌دهد و اضافه کردن متغیرها تنها تا یک حد معین می‌تواند به بهبود پیش‌بینی کمک کند و اضافه کردن بیشتر متغیرها منجر به مسأله اضافه‌بار ابعاد می‌شود.

به طور کلی، نتایج پژوهش حاکی از برتری معنادار روش‌های غیرخطی رگرسیون تجمیعی و شبکه‌های عصبی نسبت به رگرسیون خطی در پیش‌بینی بازده سهام است. این نتیجه، با یافته‌هایپژوهش‌هایخارجیمرامورومرامور-کوستا (1997)، مراموروپاهور (1998)، کاناسویانوپولس (2001)، اولسونو موسمن (2003)، عمران و رجب (2004)، مک‌میلان (2007)، بویاسیگلو و آوسی (2010)، جیسن و همکاران (2013) و با پژوهش‌های داخلی خالوزاده و خاکی‌صدیق (1377)، راعی و چاوشی (1382)، آذر و کریمی (1388)، همت‌فر و همکاران (1390)، عباسی و باقری (1390) هماهنگ است. نتایج این پژوهش مبنی بر سودمندی روش‌های انتخاب متغیرها و وجود تفاوت معنادار بین میزان سودمندی روش‌های مختلف انتخاب متغیر، با یافته‌های پژوهش‌های تسای (2009) و ستایش و همکاران (2012) هماهنگ است.

با توجه به یافته‌های این پژوهش، پیشنهادهای زیر ارائه می‌شود:

  • با توجه به نتایج آزمون فرضیه‌های فرعی مربوط به فرضیه اصلی اول، دال بر برتری روش غیرخطی تجمیعی نسبت به روش غیرخطی شبکه‌های عصبی و همچنین برتری این دو روش غیرخطی نسبت به رگرسیون خطی، به سرمایه‌گذاران و سایر استفاده کنندگان پیشنهاد می‌شود در تصمیم‌گیری‌های سرمایه‌گذاری مبنی بر خرید و فروش سهام، کاهش خطر سبد سرمایه‌گذاری و ارزیابی ریسک شرکت و سایر تصمیم‌گیری‌ها از رگرسیون تجمیعی استفاده کنند.

با توجه به نتایج حاصل از آزمون فرضیه‌های فرعی مربوط به فرضیه اصلی دوم، مبنی بر این که متغیرهای انتخابی روش ریلیف بهتر از متغیرهای انتخابی روش همبستگی و همچنین این متغیرهای انتخابی بهتر از کلیه متغیرها (52 متغیر) بازده سهام را پیش‌بینی می‌کند، به سرمایه‌گذاران و سایر استفاده‌کنندگان پیشنهاد می‌شود که در پیش‌بینی بازده سهام، مرحله انتخاب متغیرهای پیش‌بین را انجام دهند و صرفاً بر اساس پژوهش‌های گذشته متغیرهای پیش‌بین را انتخاب نکنند. استفاده از روش ریلیف، برای انتخاب متغیرهای پیش‌بین توصیه می‌شود



1- استاد حسابداری، دانشگاه شیراز، شیراز، ایران ، نویسنده اصلی.

2- دانشجوی دکتری حسابداری، دانشگاه شیراز، شیراز، ایران، مسئول مکاتبات.  Mkazemi5166@gmail.com



[i]. Kothari

[ii]. Artificial Neural Networks (ANN)

[iii]. Support Vector Regression (SVR)

[iv]. Ensemble Regression

[v]. Min

[vi]. Lee

[vii]. Mukkamala et al.

[viii]. Alfaro et al.

[ix]. To

[x]. Sun et al.

[xi]. Feature (Variable) Selection

[xii]. Mramor

[xiii]. Mramor-Kosta

[xiv]. Pahor

[xv]. Kanas

[xvi]. Yannopoulos

[xvii]. Omran

[xviii]. Ragab

[xix]. McMillan

[xx]. Boyacioglu

[xxi]. Avci

[xxii]. Gysen et al.

[xxiii]. Lindenbaum

[xxiv]. Redundant

[xxv]. Noisy

[xxvi]. Hall

[xxvii]. Curse of Dimensionality

[xxviii]. Feature Extraction

[xxix]. Feature Transformation

[xxx]. Discriminant Analysis

[xxxi]. Robnik-Sikonja

[xxxii]. Kononenko

[xxxiii]. Threshold

[xxxiv]. Atiya

[xxxv]. Filter

[xxxvi]. Nearest Hit

[xxxvii]. Nearest Miss

[xxxviii]. Kira

[xxxix]. Rendell

[xl]. DeTienne et al.

[xli]. Neuron

[xlii]. Cell Body

[xliii]. Axon

[xliv]. Dendrite

[xlv]. Waren McCulloch

[xlvi]. Walter Pitts

[xlvii]. Frank Rosenblatt

[xlviii]. Hoglund

[xlix]. Least Mean Square (LMS)

[l]. Chain Rule

[li]. Generation

[lii]. Pruning

[liii]. Robustness

[liv]. Mendes-Moreia et al.

[lv]. Bagging

[lvi]. Breiman

[lvii]. Mean Absolute Percentage Error

[lviii]. Root Mean Squared Error

[lix]. 10-Fold Cross Validation

[lx]. Hu

1)    آذر، عادل و سیروس کریمی، (1388)، "پیش‌بینی بازده سهام با استفاده از نسبت‌های حسابداری با رویکرد شبکه‌های عصبی"، تحقیقات مالی، دوره 11، شماره 28، صص 3-20.

2)    احمدپور، احمد و امیرحسین عظیمیان معز، (1391)، "بررسی ارتباط رشد دارایی‌ها با بازده سهام در بورس اوراق بهادار تهران"، پژوهشنامه اقتصادی، دوره 12، شماره 3 - صص 27 -42.

3)     اسلامی بیدگلی، غلامرضا، شهاب‌الدین شمس و هستی چیت‌سازان، (1386)، "نظریه‌های مالی نوین، (رابرت هاگن)"، تهران، انتشارات دانشگاه تهران.

4)    اسلامی بیدگلی، غلامرضا و اعظم هنردوست، (1391)، "مدل سه عاملی فاما و فرنچ و ریسک نقدشوندگی: شواهدی از بازار بورس اوراق بهادار تهران"، دانش سرمایه گذاری، سال 1، شماره 2، صص 97-116.

5)    ایزدی نیا، ناصر، منیژه رامشه و سعید یادگاری، (1391)، "پیش‌بینی بازده سهام براساس حجم معاملات سهام"، فصلنامه حسابداری مالی، شماره 16، صص 160-174.

6)    ایزدی نیا، ناصر، محمد ابراهیمی و امین حاجیان نژاد، (1393)، "مقایسه مدل اصلی سه عاملی فاما و فرنچ با مدل اصلی چهار عاملی کارهارت در تبیین بازده سهام شرکت‌های پذیرفته‌شده در بورس اوراق بهادار تهران"، مجله مدیریت دارایی و تأمین مالی، جلد 2، شماره 3، صص 17-28.

7)     تهرانی، رضا و عسکر نوربخش، (1386)، "مدیریت سرمایه‌گذاری"، (چارلز پی جونز)، تهران، انتشارات نگاه دانش، چاپ 3،

8)     تهرانی، رضا و عسکر نوربخش، (1387)، "مدیریت مالی پیشرفته"، (توماس کاپلند؛ ای، وستون، جان فرد و کولدیپ شاستری)، تهران، انتشارات نگاه دانش، چاپ اول.

9)    ثقفی، علی و محمدجواد سلیمی، (1384)، "متغیرهای بنیادی حسابداری و بازده سهام"، مجله علوم انسانی و اجتماعی دانشگاه شیراز، دوره 22، شماره 2، پیاپی 43، صص 61-74.

10)  ثقفی، علی و صابر شعری، (1383)، "نقش اطلاعات بنیادی حسابداری در پیش‌بینی بازده سهام"، فصلنامه مطالعات حسابداری، شماره 8، صص 87-120.

11)  جعفریه، حمیدرضا، نگار معتمدی و الهه ملایی، (1385)، "شبکه‌های عصبی و الگوریتم‌های ژنتیک در تجارت"، ماهنامه تدبیر، سال 18، شماره 177، صص 62-68.

12)  خالوزاده، حمید و علی خاکی‌صدیق (1377)، "پیش‌بینی و الگوسازی فرآیند رفتار قیمت‌ها در بورس اوراق بهادار تهران در هم‌سنجی مدل‌های خطی و غیرخطی"، مدرس علوم انسانی، شماره 6، صص 45-59.

13)  دستگیر، محسن، ندا تاجی و رحمان ساعدی، (1391)، "رابطه بین متغیرهای حسابداری با بازده سهام با استفاده از مدل بازده ژانگ"، پژوهشنامه حسابداری مالی و حسابرسی، سال 4، شماره 13، صص 43-64.

14)  دستگیر، محسن و رامین خدابنده، (1382)، "بررسی ارتباط بین محتوای اطلاعاتی اجزای اصلی صورت گردش وجه نقد با بازده سهام"، مجله علوم انسانی و اجتماعی دانشگاه شیراز، دوره 19، شماره 2، پیاپی 38، صص 100-112.

15)  راعی، رضا و کاظم چاوشی، (1382)، "پیش‌بینی بازده سهام در بورس اوراق بهادار تهران: مدل شبکه‌های عصبی مصنوعی و مدل عاملی"، تحقیقات مالی، سال پنجم، شماره 15، صص 97-120.

16)  عباسی، ابراهیم و سحر باقری، (1391)، "پیش‌بینی بازده سهام با استفاده از مدل‌های غیرخطی آستانه ‌ای و بررسی نقش حجم معاملات در بهبود عملکرد اینمدل‌ها"، تحقیقات مالی، شماره 32، صص 91-108.

17)  عبده تبریزی، حسین و محمود گنابادی، (1375)، "تردید در اعتبار مدل‌های مالی"، ح‍س‍ابدار، شماره 115، صص 13-20.

18)  کمیته تدوین استانداردهای حسابداری ایران، (1389)، "استانداردهای حسابداری"، تهران، انتشارات سازمان حسابرسی،.

19)  کیا، مصطفی، (1388)، "طراحی شبکه‌های عصبی، (مارتینتی هاگان، هاوارد بی دیموث، مارک بیل)"، تهران، کیان رایانه سبز، چاپ 1،.

20)  نمازی، محمد، (1389)، "پژوهش‌های تجربی در حسابداری: دیدگاه روش‌شناختی، (رشاد عبدالخلیق، بیپین ب. آجین کیا)"، شیراز، انتشارات دانشگاه شیراز، چاپ 2.

21)  نمازی، محمد و امین ناظمی، (1384)، "بررسی تحلیلی تحقیقات انجام شده در بورس اوراق بهادار تهران"، تحقیقات مالی، شماره 19، صص 135-166.

22)  نمازی، محمد و حسن محمدتبار کاسگری، (1386)، "به‌کارگیری مدل چندعاملی برای توضیح بازده سهام شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران"، مجله علوم انسانی و اجتماعی دانشگاه شیراز، دوره 26، شماره 1، پیاپی 50، صص 157-180.

23)  همت‌فر، محمود، سید علی‌اکبر حسینی، فرهاد شاه ویسی و یوسف نجفی، (1390)، "روابط خطی و غیرخطی بین متغیرهای حسابداری و بازده سهام شرکت‌های صنعت خودرو و ساخت قطعات"، پژوهشنامه حسابداری مالی و حسابرسی، سال 3، شماره 12، صص 137-154.

24)   Alfaro, E., Garcia, N., Gamez, M., and D. Elizondo., (2008), “Bankruptcy Forecasting: An Empirical Comparison of AdaBoost and Neural Networks”. Decision Support Systems, Vol. 45, PP. 110–122.

25)   Al-Horani, A., Pope, P. F., and A. W. Stark., (2003), “Research and Development Activity and Expected Returns in The United Kingdom”. European Finance Review, Vol. 7, No. 1, PP. 27-46.

26)   Atiya, A. F., (2001), “Bankruptcy Prediction for Credit Risk Using Neural Networks: A Survey and New Results”. IEEE Transactions on Neural Networks, Vol. 12, No. 4, PP. 929-935.

27)   Boyacioglu, M. A., and D. Avci., (2010) , “An Adaptive Network-Based Fuzzy Inference System (ANFIS) for The Prediction of Stock Market Return: The Case of The Istanbul Stock Exchange”. Expert Systems with Applications, Vol. 37, PP. 7908 – 7912.

28)   Breiman, L., (1996), “Bagging Predictors”. Machine Learning, Vol. 24, PP. 123-140.

29)   DeTienne, K. B., DeTienne, D. H., and S. A. Joshi., (2003), “Neural Networks as Statistical Tools for Business Researchers”. Organizational Research methods, Vol. 6, No. 2, PP. 236-265.

30)   Fabozzi, F. J., and H. M. Markowitz., (2002), “The Theory and Practice of Investment Management”. John Wiley & Sons.

31)   Fama, E. F., (1991), “Efficient Capital Markets: II”. The Journal of Finance, Vol. 46, No. 5, PP. 1575–1617.

32)   Gysen, M., Huang, C. S., and R. Kruger., (2013), “The Performance of Linear Versus Non-Linear Models in Forecasting Returns on The Johannesburg Stock Exchange”. International Business & Economics Research Journal, Vol. 12, No. 8, PP.985-994.

33)   Hall, M. A., (2000), “Correlation-Based Feature Selection for Discrete and Numeric Class Machine Learning”.In Proceedings of The Seventeenth International Conference on Machine Learning (June 29 - July 02). P. Langley, Ed. Morgan Kaufmann Publishers, San Francisco, CA, PP. 359-366.

34)   Hall, M. A., (1999), “Correlation-Based Feature Selection for Machine Learning”. Ph.D Thesis, University of Waikato.

35)   Hoglund, H., (2012), “Detecting Earnings Management Using Neural Networks”.Expert Systems with Applications, Vol. 39, No. 10, PP. 9564-9570.

36)   Hu, Y.C., (2010), “Analytic Network Process for Pattern Classification Problems using Genetic Algorithms”. Information Sciences, Vol. 180, PP. 2528–2539.

37)   Hung, C., and J. Chen., (2009), “A Selective Ensemble Based on Expected Probabilities for Bankruptcy Prediction”. Expert Systems with Applications, Vol. 36, pp. 5297–5303.

38)   Kanas, A., and A. Yannopoulos., (2001), “Comparing Linear and Nonlinear Forecasts for Stock Returns”. International Review of Economics and Finance, Vol. 10, PP. 383-398.

39)   Kira, K., and L. A. Rendell., (1992), “A Practical Approach toFeature Selection”. Proceedings of International Conference on Machine Learning, PP. 249 -256.

40)   Kohavi, R. (1995). “A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection”, IJCAI'95 Proceedings of The 14th International Joint Conference on Artificial Intelligence, PP. 1137-1143.

41)   Kothari, S. P., (2001), “Capital Markets Research in Accounting”. Journal of Accounting and Economics, Vol. 31, PP. 105-231.

42)   Koprinskaa, I.; Ranaa, M.; and V. G. Agelidisb., (2015), “Correlation and instance based feature selection for electricity load forecasting. Knowledge-Based Systems”, Vol. 82, PP. 29–40.

43)   Lee, M. C., and C. To., (2010), “Comparison of Support Vector Machine and Back Propagation Neural Network in Evaluating the Enterprise Financial Distress”. International Journal of Artificial Intelligence & Applications, Vol. 1, No.3, PP. 31-43.

44)   Lindenbaum, M., Markovitch, S., and D. Rusakov., (2004),“Selective Sampling for Nearest Neighbor Classifiers”. Machine Learning, Vol. 2, PP. 125-152.

45)   Liu, H., and S.Huang,. (2010), “Integrating GA with Boosting Methods for Financial Distress Predictions”. Journal of Quality, Vol. 17, No. 2, PP.131-157.

46)   Lo, S. C., (2010), “The Effects of Feature Selection and Model Selection on The Correctness of Classification”. Proceedings of the 2010 IEEE IEEM, PP. 989-993.

47)   McMillan, D. G., (2007), “Non-Linear Forecasting of Stock Returns: Does Volume Help?”. International Journal of Forecasting, Vol. 23, PP. 115-126.

48)   Mendes-Moreia, J., Soares, C., Jorge, A. M., and J. F. D. Sousa., (2012), “Ensemble Approaches for Regression: A Survey”. ACM Computing Surveys, Vol. 45, No. 1, PP. 10- 40.

49)   Min, J. H., and Y. Lee., (2005), “Bankruptcy Prediction Using Support Vector Machine with Optimal Choice of Kernel Function Parameters”. Expert Systems with Applications, Vol. 28, PP. 603–614.

50)   Mramor, D., and M. Pahor., (1998), “Testing Nonlinear Relationship between Excess Rate of Return on Equity and Financial Rations”. 23rd Meeting of the EURO Working Group on Financial Modelling, PP. 119-134.

51)   Mramor, D., and N. Mramor-Kosta., (1997), “Accounting Ratios as Factors of Rate of Return on Equity”. New Operational Approaches for Financial Modelling, Physica -Verlag Heidelberg, PP. 335-348.

52)   Mukkamala, S., Sung, A. H., Ribeiro, B., and A. Vieira., (2006), “Computational Intelligent Techniques for Financial Distress Detection”. Journal of Computational Intelligence Research, Vol. 2, No. 1, PP. 60-65.

53)   Olson, D., and C. Mossman., (2003), “Neural Network Forecasts of Canadian Stock Returns Using Accounting ratios”. International Journal of Forecasting, Vol. 19, PP. 453–465

54)   Omran, M., and A. Ragab., (2004), “Linear Versus Non-Linear Relationships between Financial Ratios and Stock Returns: Empirical Evidence from Egyptian Firms”. Review of Accounting and Finance, Vol. 3, No. 2, PP.84-102.

55)   Pinto, J., Henry, E., Robinson, T. R., and J. D. Stowe., (2010), “Equity Asset Valuation”. 2 th Edition. John Wiley & Sons,.

56)   Ravi Kumar, P., and V. Ravi., (2007), “Bankruptcy Prediction in Banks and Firms Via Statistical and Intelligent Techniques - A Review”. European Journal of Operational Research, Vol. 180, PP. 1-28.

57)   Robnik-Sikonja, M., and I. Kononenko., (1997), “An Adaptation of Relief for Attribute Estimation in Regression”. Machine Learning, Proceedings of 14th International Conference on Machine Learning (ICML'97), PP. 296–304.

58)   Roll. R., (1997), “A Critique of The Asset Pricing Theory's Tests Part I: On Past and Potential Testability of The Theory”. Journal of Financial Economics. Vol. 4, No. 2, PP. 129-176.

59)   Setayesh, M. H., Kazemnezhad, M., Nikouei, M. A., and S. Azadi., (2012), “The Effectiveness of Fuzzy-Rough Set Feature Selectionin The Prediction of Financial Distress: A Case of Iranian Context”. Wulfenia Journal, Vol. 19, No. 10, PP. 268-287.

60)   Smith, K., and J. Gupta., (2002), “Neural Networks in Business: Techniques and Applications”. Idea Group Publishing,

61)   Stambaugh, R., (1982), “On the Exclusion of Assets from Tests of The Two-Parameter Model: A Sensitivity Analysis”. Journal of Financial Economics, Vol. 10, No. 3, PP. 237-268.

62)   Sun, Z., (2004), "PEG Ratios and Stock Returns”. Ph.D Thesis, University of Toronto.

63)   Tsai, C., (2009), “Feature Selection in Bankruptcy Prediction”. Knowledge-Based Systems, Vol. 22, PP. 120–127.

 

 

 

یادداشت‌ها