Document Type : پژوهشی

Authors

1 - MSc student of watershed management, Faculty of Agriculture and Natural Resources, Ardakan University

2 Academic Staff / Ardakan University

3 - Assistance Professor, Faculty of Agriculture and Natural Resources, Ardakan University

Abstract

The main purpose of this study is an inquiry into the functions of daily, monthly, and annual scales of sediment data in their estimations using machine learning models. For this purpose, suspended sediment load data for three temporal, daily, monthly, and annual, scales at Ohio station, located in the USA, between the years of 1992 and 2014 were selected. In order to choose the best model, some machine learning base models such as artificial neural networks,  error back propagation as well as radial basis function, k-nearest neighbor, M5 decision tree, Gaussian process, support vector machine (SVR), evolutionary support vector machine (ESVM), and linear regression (LR)  models were run and evaluated. The results of this study showed that the k-nearest neighbor with RMSE=5.28, the data Gaussian process model with RMSE=8.7, and the Gaussian process model with a RMSE=7.2 were respectively the best models for the daily, monthly, and annual data. The comparison of the models' assessment also suggested that the predicted annual data were more accurate than the monthly and daily data.
 
 

Keywords

مقدمه

پدیده رسوب یکی از عوامل ایجاد بحران‌های کمی و کیفی آب‌های سطحی محسوب می‌شود. رسوبات حمل شده توسط جریان، حجم آب خالص ورودی به مخازن را تحت تأثیر قرار داده و با گذشت زمان از حجم مخازن و سدها می‌کاهد. برآورد بار رسوبی معلق که جریان مشخص قادر به حمل آن باشد، از موضوعات اصلی تحقیقات رسوب بوده که در بسیاری از پروژه‌های مهندسی همچون برنامه‌ریزی و طراحی منابع ذخیره­­ی آب، برآورد بار معلق سالانه برای آبگیرهای رودخانه، طراحی و نگهداری کانال‌های آبیاری پایدار، حفاظت سواحل و لایروبی کانال‌ها حائز اهمیت است (کیگیزگلو[1]، 2003: 185). بار رسوب معلق با اندازه‌گیری مستقیم و معادله انتقال رسوب تعیین می‌گردد.

اگرچه اندازه‌گیری بار رسوبی رودخانه قابل اعتماد‌تر است اما این کار هزینه‌بر بوده و برای تمام طول رودخانه میسر نمی‌باشد. معادلات انتقال رسوب نیز نیاز به اطلاعات دقیق‌تری از جریان و بستر رودخانه داشته که گردآوری آنها نیاز به انجام عملیات‌ صحرایی فراوانی دارد (ازتورک و همکاران[2]، 2001: 644). لذا به‌ کارگیری روش‌هایی که به ‌طور غیر­مستقیم و با استفاده از پارامترهای مؤثر در بار رسوب، بتوان آن را برآورد نمود کمک شایانی در زمینه­ی پیش‌بینی بار رسوب خواهد کرد.

روش‌های داده­ی کاوی ابزارهای هوشمندی برای برقراری این رابطه­ی غیرخطی می‌باشند (آلپ و کیگیزگلو[3]، 2007: 2). روش‌های داده‌کاوی یکی از روش‌هایی است که امروزه در مطالعات فرآیندهای هیدرولوژی و اقلیمی بسیار مورد استفاده قرار گرفته‌است و ابزار هوشمند به ‌منظور برقراری ارتباط بین پارامترهای اقلیمی و هیدرولوژیکی است (چنگ و همکاران[4]، 2015: 87؛ رسولی و کانون[5]، 2012: 284؛ بهتچریا و سلمتین[6]، ۲۰۰۵: 381) با وجود توانمندی بالای تکنیک‌های یادگیری ماشین به نظر می‌رسد پایه‌ی زمانی انواع داده‌های رسوب رفتار متفاوتی را نسبت به مدل‌های شبیه‌سازی خود نشان می‌دهند. تا کنون در مطالعات مختلف به بررسی و مدل‌سازی بار رسوبی در سری‌های زمانی روزانه، ماهانه و سالانه پرداخته شده است، به ‌طور مثال کومار و همکاران[7] (2016) از بین سری‌های زمانی، داده‌های روزانه را انتخاب و به برآورد بار رسوب معلق روزانه با استفاده از روش‌های یادگیری ماشین پرداختند. برای این منظور، از مدل‌های شبکه­ی عصبی مصنوعی، شبکه‌های عصبی تابع پایه­ی شعاعی، حداقل ماشین‌بردار پشتیبانی مربع، رگرسیون چند خطی و مدل درخت تصمیم، مانند طبقه‌بندی و درخت رگرسیون و مدل درختی M5 استفاده گردید. نتایج نشان داد که تمام مدل‌‌ها قادر به شبیه‌سازی رسوب معلق می‌باشند و مدل حداقل ماشین‌بردار پشتیبانی مربع با دقت 89/0 به خوبی قادر به مدل‌سازی رسوب معلق روزانه می‌باشد.

ذونعمت کرمانی و همکاران[8] (2016) به مدل‌سازی غلظت رسوب معلق روزانه براساس مدل‌های داده محور پرداختند. آنان نیز در مطالعه‌ی خود مدل‌های شبکه­ی عصبی مصنوعی، ماشین‌بردار رگرسیون و منحنی سنجه­ی رسوب مورد مقایسه قرار دادند. نتایج براساس معیارهای ارزیابی در این مدل‌ها بیانگر آن بود که مدل ماشین‌بردار رگرسیون با تابع پایه‌ی شعاعی دارای عملکرد مناسب‌تری به‌منظور پیش‌بینی بار رسوبی معلق می‌باشد.

در مطالعه‌ای دیگر لفدنی و همکاران[9](2013) از شبکه‌های عصبی مصنوعی و ماشین بردار پشتیبان به‌ منظور پیش‌بینی بار رسوب معلق روزانه استفاده نمودند. نتایج به ‌دست آمده نشان داد که مدل ماشین‌بردار رگرسیون با استفاده از آزمون گاما دارای عملکرد مناسبی در پیش‌بینی بار رسوبی معلق می‌باشد. مدل‌سازی رسوبات معلق ماهانه نیز مطالعه‌ی یوسفی و پورشرعیاتی (1392) مورد بررسی قرار گرفت. آنان با بررسی سه شبکه Fitting و Forward Back prop Cascade و پیشخور پس انتشار خطا به تعیین الگوریتم مناسب جهت برآورد بار معلق پرداختند. آنان در نتایج خود بیان نموده­اند که از میان سه شبکه، شبکه­ی عصبی Fitting نتایج بهتری را ارائه داده­­است.

مقایسه‌سری‌های زمانی و فصلی در مطالعه‌ی کیاء و عمادی (1392) مورد توجه قرار گرفت. نتایج مدل سالانه نشان داد که این مدل نسبت به سایر حالات به مدل مناسب این ایستگاه نزدیک­تر است، البته در این مطالعه تفکیک زمانی فصلی داده‌ها به دو فصل سیلابی و غیرسیلابی نشان داد که با تفکیک داده‌ها مدل‌ها نتایج بهتری را ارائه می‌نمایند.

آنچه مشخص است این است که دقت مدل‌ها در پیش‌بینی بار رسوبی در سری‌های زمانی با توجه به حجم داده‌ها متفاوت بوده و مدل بر روی هر یک از سری‌های زمانی نتایج متفاوتی را ارائه می‌دهد. در این مطالعه با تهیه­ی داده‌های دبی و رسوب معلق مربوط به سری‌های‌های زمانی روزانه، ماهانه و سالانه در یک حوضه­ی ثابت به بررسی میزان دقت مدل‌ها در پیش‌بینی بار رسوبی معلق در سری‌‌های زمانی روزانه، ماهانه و سالانه پرداخته شده‌است. از طرفی با توجه به گستردگی مدل‌های یادگیری ماشین در این مطالعه به بررسی توانمندی هشت مدل متفاوت پرداخته شد و قابلیت ‌آن‌ها با استفاده از معیارهای مناسب مورد ارزیابی قرار گرفت.

مواد و روش‌ها

معرفی منطقه­ی مورد مطالعه

منطقه­ی مطالعاتی ایستگاه هیدرومتری واقع در ایالت اوهایو می‌باشد. مساحت حوضه 92/72 کیلومتر مربع بوده و دوره­ی آماری مورد نظر از سال 1992 تا سال 2013 (21 سال) بوده که تعداد 7873 داده­ی رسوب و دبی در این مدت برداشت گردیده است (USGS). متوسط دبی عبوری از این رودخانه 09/1 مترمکعب بر ثانیه و متوسط رسوب حمل شده ۹/۲۳ میلی‌گرم بر لیتر می‌باشد (شکل 1).

 

شکل (1) حوضه و ایستگاه مورد مطالعه واقع در ایالت اوهایو

در این مطالعه از داده‌های دبی و رسوب روزانه، ماهانه و سالانه برداشت شده در ایستگاه هیدرومتری در سرشاخه‌های رودخانه­­ی اوهایو استفاده شده است.

مدل‌های مورد استفاده

در این مرحله داده‌های آماده شده با استفاده از تکنیک‌ها و عملیات‌ داده­کاوی مورد کاوش قرار گرفـتند تا الگوهای مورد ‌نظر کشف گردند. این مدل‌ها عبارتـند از: مدل‌های رگرسیون خطی، شـبکه‌های عصبی پیش‌خور پس انتشار و تابـع پایـه­ی شعاعی، K نزدیک‌ترین همسایه، ماشین‌بردار پشتیبان، ماشین‌بردار پشتیبان تکاملی و مدل درخت تصمیم M5.

ـ شبکه­ی عصبی پس انتشار خطا

شبکه­ی عـصبی پس انتشار خطا حداقل شامل سـه لایـه­ی ورودی، خروجی و لایه­ی

 مخفی است. هر نرون در یک لایه وزن ورودی را از لایه­ی قبلی دریافت کرده آن را به ‌عنوان خروجی نرون در لایه­ی بعدی انتقال می‌دهد. هورنیک[10]، 1989: 359). نتایج شبکه با نتایج واقعی مقایسه شده و خطای شبکه توسط معادله محاسبه می‌شود. روند آموزش تا زمانی که خطا به مقدار قابل قبولی برسد ادامه می‌یابد.

رابطه (1)

 

رابطه (2)

 

رابطه (3)

 

در این روابط : پاسخ نرون : تابع متحرک غیرخطی، : مجموع وزن‌های ورودی، : نرون ورودی، : وزن هر نرون ورودی،  مقدار مشاهده شده نرون : بایاس، : خطای بین مقدار مشاهداتی و پاسخ شبکه می‌باشد (روشنگر و پرهیزجوان، 1393: 178).

ـ شبکه­ی عصبی با تابع پایه‌ی شعاعی

شبکه­ی عصبی تابع پایه‌ی شعاعی به‌ عنوان یک شبکه­­ی سه­لایه که در آن لایه­ی پنهان به صورت ثابت واجد تابع تبدیل غیرخطی با پارامترهای غیرقابل تنظیم است، شناخته می‌شود. برای هر گره، فاصله­ی اقلیدسی میان مرکز و بردار ورودی به وسیله­ی تابع غیرخطی که خروجی گره‌ها در لایه­ی پنهان را تخمین می‌زند، محاسبه می‌شود. سپس لایه­ی خروجی این نتایج را در یک نگاشت خطی ترکیب می‌کند.

ـ K نزدیک‌ترین همسایه[11]

الگوریتم k نزدیک‌ترین همسایه شامل انتخاب تعداد مشخصی از بردار داده‌ها و سپس باز نمونه‌گیری تصادفی از آن مجموعه برای شبیه‌سازی دوره­ی زمانی متعاقب یک دوره­ی معین می‌باشد. از مزایای استفاده از این الگوریتم در پیش‌بینی‌ها می‌توان به اجرای ساده، عدم نیاز به مرحله­ی تخمین‌ پارامترها، قابلیت مدل‌سازی غیرخطی، مؤثر بودن و عملکرد با بازدهی بالا در برخورد با تعداد دسته‌های زیاد از داده‌ها می‌باشد (عزمی و عراقی­نژاد، ۱۳۹۱: 110).

ـ مدل درختی M5p

این مدل زیر مجموعه‌ای از روش‌های یادگیری ماشینی و داده‌کاوی است. ساختار یک مدل درختی شامل ریشه، گره‌های داخلی و برگ می‌باشد. برای اولین بار کوینلان (1992) مدل درخت تصمیم موسوم به M5 را  برای پیش‌بینی داده‌های پیوسته ارائه نمود. این مدل، بر خلاف مدل‌های درخت تصمیم معمول که کلاس یا رده‌های گسسته را به ‌عنوان خروجی ارائه می‌کنند، یک مدل خطی چندمتغیره را برای داده‌ها در هر گره از مدل درختی می‌سازد. تشکیل ساختار مدل‌های درخت تصمیم‌گیری شامل مراحل ایجاد درخت و هرس کردن آن است (ویتن و فرانک، 2005). معیار تقسیم برای الگوریتم مدل M5 ارزیابی انحراف معیار مقادیر کلاسی است که به‌ عنوان کمیتی از خطا به یک گره می‌رسد و کاهش مورد انتظار در این خطا را به عنوان نتیجه آزمون هر صفت در آن گره محاسبه می‌نماید. کاهش انحراف معیار (SDR) از رابطه­ی (4) به دست می‌آید:

رابطه­ی (4)

 

که در آن T، بیانگر یک سری نمونه‌هایی است که به گره می‌رسد. Ti بیانگر نمونه‌هایی است که i امین خروجی سری پتانسیلی را دارند و sd بیانگر انحراف معیار است (آلبرگ و همکاران، 2012: 71). به دلیل فرآیند انشعاب، داده‌های قرار گرفته در گره‌های فرزند، انحراف معیار کم‌تری نسبت به گره مادر داشته و بنابراین خالص‌تر هستند. پس از حداکثرسازی تمامی انشعاب‌های ممکن M5 صفتی را انتخاب می‌کند که کاهش مورد انتظار را بیشینه نماید (ظهیری و قربانی، 1392: 121).

ـ فرآیند گوسی (GP)[12]

فرآیند گوسی یک روش یادگیری ماشینی غیرپارامتری قوی برای ایجاد مدل‌های احتمال­گرایانه جامع از مسائل دنیای واقعی است. به ‌طور رسمی، یک فرآیند گوسی تولید داده‌هایی می‌کند که در طول این طیف قرار دارد به طوری که هر زیرمجموعه متناهی دامنه­ی یک توزیع گوسی چندمتغیره را دنبال می‌کند.

ـ ماشین‌بردار پشتیبان  (SVM)[13]

روش ماشین‌بردار پشتیبان از روش‌های یادگیری ماشینی است که بر مبنای تئوری یادگیری آماری vapnik در دهه‌ی ۹۰ میلادی توسط Vapnik و همکاران ارائه شد. در ماشین بردار پشتیبان از اصول کمینه کردن ریسک ساختاری استفاده شده؛ در حالی‌ که سایر روش‌ها از اصول کمینه کردن تجربی بهره می‌برند (نظری و همکاران[14]، 2011).

این روش بر پایه­ی نظریه­ی یادگیری محاسباتی توسعه­یافته است (هانگ و چنگ[15]، 2007: 516). در حالتی که داده‌ها به‌ صورت خطی به شکل رابطه­ی (5) قابل ارائه‌اند:

رابطه­ی (5)

 

در رابطه­ی (5)، پارامترهای ابر صفحه هستند. اگر داده‌ها به صورت خطی تفکیک‌پذیر نباشند، رابطه­ی (5) به رابطه­ی (6) تغییر می‌یابد:

رابطه­ی (6)

 

K(X,Xi)تابع کرنلی است که، برای ایجاد تابع ماشین‌هایی با انواعی مختلف از سطوح تصمیم‌گیری غیرخطی در فضای داده‌ها، ضرب‌های داخلی تولید می‌کند.

ـ ماشین بردار پشتیبان تکاملی (ESVM)

مدل ماشین بردار تکاملی یک استراتژی تکاملی را به‌منظور بهینه‌سازی به ‌کار می‌برد. در واقع این مدل یک الگوریتم تکاملی را برای حل مشکل بهینه‌سازی دوگانه ارائه می‌دهد. ESVM با تجزیه و تحلیل فرکانس از ویژگی‌های انتخاب شده، یک مجموعه­ی کوچک از ویژگی‌های مؤثر را شناسایی کرده و از این رو باعث بهبود دقت طبقه‌بندی می‌گردد (هانگ و چنگ، 2007: 517).

در مدل‌های فوق، فرآیند مدل‌سازی بار رسوبی معلق در سری‌های زمانی روزانه، ماهانه و سالانه انجام شد. بدین ترتیب که مجموعه­ی داده‌های دبی روزانه، ماهانه و سالانه به عنوان ورودی مدل به نرم­افزار رپید ماینر وارد شد و سپس مقادیر بار رسوبی معلق در هر یک از بازه‌های زمانی برآورد گردید.

ـ ارزیابی مدل

یک روش جایگزین برای زیرنمونه‌برداری تصادفی روش Cross-Validation  ست. در این روش هر رکورد داده‌ای یک بار در مرحله آموزش و یک بار در مرحله تست استفاده می‌گردد. حالت عمومی‌تر این روش k-fold cross-validation نام دارد که آن مقدار k برابر N، یعنی برابر اندازه مجموعه داده‌های اولیه قرار می‌گیرد. این حالت Leave-One-Out نامیده می‌‌‌شود. مزیت این حالت در آن است که از بیشترین تعداد داده‌های ممکن برای مرحله­ی آموزش استفاده می‌کند. (صنیعی آباده و همکاران، ۱۳۹۳: 192). در این مطالعه نیز به‌منظور ارزیابی مدل از روش Leave-One-Out استفاده شد.

به ‌منظور ارزیابی نتایج از معیارهای ارزیابیRoot mean squared error (RMSE) و Correlation coefficient (r) استفاده شد.

رابطه­ی (7)

 

رابطه­ی (8)

 

که در این معادلات oi مقادیر مشاهده‌ای،  pi داده‌های پیش‌بینی شده،  میانگین داده‌های پیش‌بینی شده،  میانگین داده‌های مشاهده شده، تعداد داده‌ها می‌باشد. با توجه به مقادیر بار رسوبی واقعی و مقادیر پیش‌بینی شده توسط مدل‌های اعمال شده فرآیند ارزیابی مدل‌ها صورت گرفت.

بحث و نتایج

خلاصه­ی آماری داده‌های دبی و رسوب در مقیاس زمانی مختلف در جدول (۱) ارائه شده است.

جدول (۱) خلاصه­ی آماری داده‌های دبی (فوت مکعب بر ثانیه) و رسوب (میلی‌گرم بر لیتر)

ضریب تغییرات

انحراف از معیار

میانگین

حداکثر

حداقل

نوع داده

سری زمانی

3/۲

6/۹4

6/41

۲۰۰۰

01/0

دبی

روزانه

1/۲

3/۵2

4/۲5

۸۱۹

4/۰

رسوب

0/۱

4/۴۳

7/۳۹

۴/۳۰۷

005/0

دبی

ماهانه

۸0/۰

۵/۱۹

4/۲۴

۱۰۰

۷/۰

رسوب

3/۰

5/۱۳

0/۳9

9/۷۰

۵/۱۸

دبی

سالانه

3/۰

1/۷

3/24

8/۴۲

۹/۱۲

رسوب

نتایج کلی حاکی از توانمندی تمامی مدل‌ها در پیش‌بینی بار رسوبی معلق است. این در جالی است که مدل K نزدیک‌ترین همسایه با مقدار 5/28=RMSE و 83/0r= و پس از آن مدل درختی M5 بهترین مدل پیش‌بینی بار رسوبی معلق روزانه می‌باشد (شکل‌های 2 و 3).

 

MODEL

FFNN

RBFNN

KNN

LR

RMSE

3/39

9/35

5/28

33

R

۸/0

7/0

۸۳/0

8/0

 

شکل (2) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق روزانه: توسط مدل‌های الف: شبکه عصبی مصنوعی پس انتشار خطا، ب: شبکه­ی عصبی تابع پایه‌ی شعاعی، ج: رگرسیون خطی، د: k نزدیک­ترین همسایه

 

MODEL

GP

M5

ESVM

SVM

RMSE

9/۳۱

7/29

6/۳۲

9/۳۴

r

8/0

8/0

۷۸/0

8/0

 

شکل (3) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق روزانه: توسط مدل‌های الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشین‌بردار پشتیبان، د: ماشین‌بردار پشتیبان تکاملی

نتایج اعمال مدل‌ها بر روی سری زمانی ماهانه نیز نشان داد که مدل فرآیند گوسی  با مقدار8/7= RMSE و 91/0R= و K نزدیک‌ترین همسایه با مقدار با مقدار 1/=8RMSE و 91/0 R=دارای بیشترین دقت در پیش‌بینی بار رسوب معلق ماهانه می‌باشد. همچنین نتایج نشان می‌دهد که دقت و همبستگی تمامی مدل‌ها نیز نسبت به سری روزانه افزایش پیدا کرده است. مقادیر پراکنش داده‌های واقعی و پیش‌بینی شده داده‌های ماهانه و نتایج ارزیابی انواع مدل‌ها در شکل‌های 4 و 5 نشان داده شده است.

 

MODEL

FFNN

RBFNN

KNN

LR

RMSE

4/۱۱

8/11

1/8

۳/۱0

r

87/0

79/0

91/0

84/0

 

شکل (4) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق ماهانه: توسط مدل‌های الف: شبکه­ی عصبی مصنوعی پس انتشار خطا، ب: شبکه­ی عصبی تابع پایه‌ی شعاعی، ج: رگرسیون خطی،  د: k نزدیک­ترین همسایه

 

MODEL

GP

M5

SVM

ESVM

RMSE

۸/۷

7/9

6/۱0

۷/۳۵

r

91/0

86/0

84/0

45/0

 

شکل (5) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق ماهانه: توسط مدل‌های الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشین‌بردار پشتیبان، د: ماشین‌بردار پشتیبان تکاملی

همچنین در بررسی مدل‌ها در داده‌های سالانه نتایج نشان داد که مدل فرآیند گوسی و K نزدیک‌ترین همسایه با مقادیر RMSE به ترتیب 7/2 و 8/3 دارای بیشترین دقت در پیش‌بینی بار رسوب سالانه می‌باشد. مقادیر پراکنش داده‌های واقعی و پیش‌بینی شده داده‌های سالانه و نتایج ارزیابی انواع مدل‌ها در شکل‌های 6 و 7 نشان داده شده است.

 

MODEL

FFNN

RBFNN

KNN

LR

RMSE

۸/۶

4/5

۸/۳

5/۴

r

75/0

62/0

83/0

76/0

 

شکل (6) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق سالانه: توسط مدل‌های الف: شبکه­ی عصبی مصنوعی پس انتشار خطا،ب: شبکه­ی عصبی تابع پایه‌ی شعاعی، ج: رگرسیون خطی،  د: k نزدیک­ترین همسایه

 

MODEL

GP

M5

SVM

ESVM

RMSE

۷/۲

5/4

6/۴

4/۱۶

r

93/0

76/0

76/0

60/0

 

شکل (7) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق ماهانه: توسط مدل‌های الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشین‌بردار پشتیبان، د: ماشین‌بردار پشتیبان تکاملی

بررسی مقادیر شاخص‌های ارزیابی در هر سه سری مجموعه داده‌ها بیانگر آنست که میزان دقت مدل‌ها در پیش‌بینی داده‌های سالانه بیش‌تر بوده و در سری داده‌های روزانه مدل‌ها از دقت کمتری برخوردار بوده‌اند. نمودار مقایسه­ی شاخص ارزیابی RMSE در شکل (8) ارائه شده است.

 

شکل (8) مقادیر RMSE مدل‌های مختلف بر روی داده‌های رسوب معلق‌ روزانه، ماهانه و سالانه

نتیجه­گیری

سری‌های زمانی مختلف با توجه به ماهیت­شان نیازمند مدل‌‌سازی خاص خود هستند. در این پژوهش به‌ منظور بررسی و ارزیابی کارایی مدل­ها در پیش­بینی در سری‌های زمانی مختلف از هشت مدل‌ مختلف استفاده شد. از آنجا که بالا بودن قدرت جریان موجب حمل رسوب بیشتر است لذا در این مطالعه از پارامتر دبی متناظر به ‌منظور مدل‌سازی بار معلق استفاده شد. با اعمال مدل‌های داده‌کاوی بر داده‌های رسوب روزانه مشخص شد که مدل‌های k نزدیک­ترین همسایه و مدل درختی M5، به ترتیب با مقادیر RMSE 5/28 و 7/29 بیشترین دقت را دارند.

در بررسی سری داده‌های ماهانه رفتار مدل متفاوت بوده به طوری ­که در این سری زمانی مدل‌های فرآیند گوسی و k نزدیک­ترین همسایه با مقادیر RMSE به ترتیب 8/7 و 1/8 دارای بیشترین دقت بودند. در مجموع دقت مدل‌ها نسبت به سری روزانه بیشتر بوده است. اعمال مدل‌ها بر روی داده‌های سالانه نیز نشان داد که مدل‌های فرآیند گوسی و k نزدیک­ترین همسایه با مقادیر RMSE 7/2 و 8/3 دارای دقت بالاتری می‌باشند.

در مجموع بررسی مقادیر دقت در سری‌های زمانی مختلف نشان داد که دقت مدل‌ها بر روی داده‌های سالانه نسبت به سایر سری‌های زمانی افزایش یافته است. مطالعات کیاء و عمادی (1392) نیز در تأیید این نتایج است. یکی از دلایل این امر را می‌توان میانگین‌گیری داده‌ها دانست زیرا با میانگین‌گیری تأثیر دبی‌های پائین کمتر شده و در دبی‌های بالا نیز خطای برآورد کمتری دیده می‌شود. بنابراین پیش‌بینی داده‌های روزانه با توجه به بررسی داده‌ها ‌در مقیاس کوچک­تر و همچنین پراکندگی وسیع داده‌ها نیاز به دقت بالاتری در ساختار مدل خواهد داشت.



[1]- Cigizoglu

[2]- Ozturk et al.,

[3]- Alp & Cigizoglu

[4]- Chang et al.,

[5]- Rasouli & Cannon

[6]- Bhattacharya & and Solomatine

[7]- Kumar et al.,

[8]- Zounemat-Kermani et al.,

[9]- Lafdani et al.,

[10]- Hornik

[11]- K Nearest Neighbor

[12]- Gaussian Process

[13]- Support Vector Machine

[14]- Nazari et al.,

[15]- Huang & Chang

مقدمه

پدیده رسوب یکی از عوامل ایجاد بحران‌های کمی و کیفی آب‌های سطحی محسوب می‌شود. رسوبات حمل شده توسط جریان، حجم آب خالص ورودی به مخازن را تحت تأثیر قرار داده و با گذشت زمان از حجم مخازن و سدها می‌کاهد. برآورد بار رسوبی معلق که جریان مشخص قادر به حمل آن باشد، از موضوعات اصلی تحقیقات رسوب بوده که در بسیاری از پروژه‌های مهندسی همچون برنامه‌ریزی و طراحی منابع ذخیره­­ی آب، برآورد بار معلق سالانه برای آبگیرهای رودخانه، طراحی و نگهداری کانال‌های آبیاری پایدار، حفاظت سواحل و لایروبی کانال‌ها حائز اهمیت است (کیگیزگلو[1]، 2003: 185). بار رسوب معلق با اندازه‌گیری مستقیم و معادله انتقال رسوب تعیین می‌گردد.

اگرچه اندازه‌گیری بار رسوبی رودخانه قابل اعتماد‌تر است اما این کار هزینه‌بر بوده و برای تمام طول رودخانه میسر نمی‌باشد. معادلات انتقال رسوب نیز نیاز به اطلاعات دقیق‌تری از جریان و بستر رودخانه داشته که گردآوری آنها نیاز به انجام عملیات‌ صحرایی فراوانی دارد (ازتورک و همکاران[2]، 2001: 644). لذا به‌ کارگیری روش‌هایی که به ‌طور غیر­مستقیم و با استفاده از پارامترهای مؤثر در بار رسوب، بتوان آن را برآورد نمود کمک شایانی در زمینه­ی پیش‌بینی بار رسوب خواهد کرد.

روش‌های داده­ی کاوی ابزارهای هوشمندی برای برقراری این رابطه­ی غیرخطی می‌باشند (آلپ و کیگیزگلو[3]، 2007: 2). روش‌های داده‌کاوی یکی از روش‌هایی است که امروزه در مطالعات فرآیندهای هیدرولوژی و اقلیمی بسیار مورد استفاده قرار گرفته‌است و ابزار هوشمند به ‌منظور برقراری ارتباط بین پارامترهای اقلیمی و هیدرولوژیکی است (چنگ و همکاران[4]، 2015: 87؛ رسولی و کانون[5]، 2012: 284؛ بهتچریا و سلمتین[6]، ۲۰۰۵: 381) با وجود توانمندی بالای تکنیک‌های یادگیری ماشین به نظر می‌رسد پایه‌ی زمانی انواع داده‌های رسوب رفتار متفاوتی را نسبت به مدل‌های شبیه‌سازی خود نشان می‌دهند. تا کنون در مطالعات مختلف به بررسی و مدل‌سازی بار رسوبی در سری‌های زمانی روزانه، ماهانه و سالانه پرداخته شده است، به ‌طور مثال کومار و همکاران[7] (2016) از بین سری‌های زمانی، داده‌های روزانه را انتخاب و به برآورد بار رسوب معلق روزانه با استفاده از روش‌های یادگیری ماشین پرداختند. برای این منظور، از مدل‌های شبکه­ی عصبی مصنوعی، شبکه‌های عصبی تابع پایه­ی شعاعی، حداقل ماشین‌بردار پشتیبانی مربع، رگرسیون چند خطی و مدل درخت تصمیم، مانند طبقه‌بندی و درخت رگرسیون و مدل درختی M5 استفاده گردید. نتایج نشان داد که تمام مدل‌‌ها قادر به شبیه‌سازی رسوب معلق می‌باشند و مدل حداقل ماشین‌بردار پشتیبانی مربع با دقت 89/0 به خوبی قادر به مدل‌سازی رسوب معلق روزانه می‌باشد.

ذونعمت کرمانی و همکاران[8] (2016) به مدل‌سازی غلظت رسوب معلق روزانه براساس مدل‌های داده محور پرداختند. آنان نیز در مطالعه‌ی خود مدل‌های شبکه­ی عصبی مصنوعی، ماشین‌بردار رگرسیون و منحنی سنجه­ی رسوب مورد مقایسه قرار دادند. نتایج براساس معیارهای ارزیابی در این مدل‌ها بیانگر آن بود که مدل ماشین‌بردار رگرسیون با تابع پایه‌ی شعاعی دارای عملکرد مناسب‌تری به‌منظور پیش‌بینی بار رسوبی معلق می‌باشد.

در مطالعه‌ای دیگر لفدنی و همکاران[9](2013) از شبکه‌های عصبی مصنوعی و ماشین بردار پشتیبان به‌ منظور پیش‌بینی بار رسوب معلق روزانه استفاده نمودند. نتایج به ‌دست آمده نشان داد که مدل ماشین‌بردار رگرسیون با استفاده از آزمون گاما دارای عملکرد مناسبی در پیش‌بینی بار رسوبی معلق می‌باشد. مدل‌سازی رسوبات معلق ماهانه نیز مطالعه‌ی یوسفی و پورشرعیاتی (1392) مورد بررسی قرار گرفت. آنان با بررسی سه شبکه Fitting و Forward Back prop Cascade و پیشخور پس انتشار خطا به تعیین الگوریتم مناسب جهت برآورد بار معلق پرداختند. آنان در نتایج خود بیان نموده­اند که از میان سه شبکه، شبکه­ی عصبی Fitting نتایج بهتری را ارائه داده­­است.

مقایسه‌سری‌های زمانی و فصلی در مطالعه‌ی کیاء و عمادی (1392) مورد توجه قرار گرفت. نتایج مدل سالانه نشان داد که این مدل نسبت به سایر حالات به مدل مناسب این ایستگاه نزدیک­تر است، البته در این مطالعه تفکیک زمانی فصلی داده‌ها به دو فصل سیلابی و غیرسیلابی نشان داد که با تفکیک داده‌ها مدل‌ها نتایج بهتری را ارائه می‌نمایند.

آنچه مشخص است این است که دقت مدل‌ها در پیش‌بینی بار رسوبی در سری‌های زمانی با توجه به حجم داده‌ها متفاوت بوده و مدل بر روی هر یک از سری‌های زمانی نتایج متفاوتی را ارائه می‌دهد. در این مطالعه با تهیه­ی داده‌های دبی و رسوب معلق مربوط به سری‌های‌های زمانی روزانه، ماهانه و سالانه در یک حوضه­ی ثابت به بررسی میزان دقت مدل‌ها در پیش‌بینی بار رسوبی معلق در سری‌‌های زمانی روزانه، ماهانه و سالانه پرداخته شده‌است. از طرفی با توجه به گستردگی مدل‌های یادگیری ماشین در این مطالعه به بررسی توانمندی هشت مدل متفاوت پرداخته شد و قابلیت ‌آن‌ها با استفاده از معیارهای مناسب مورد ارزیابی قرار گرفت.

مواد و روش‌ها

معرفی منطقه­ی مورد مطالعه

منطقه­ی مطالعاتی ایستگاه هیدرومتری واقع در ایالت اوهایو می‌باشد. مساحت حوضه 92/72 کیلومتر مربع بوده و دوره­ی آماری مورد نظر از سال 1992 تا سال 2013 (21 سال) بوده که تعداد 7873 داده­ی رسوب و دبی در این مدت برداشت گردیده است (USGS). متوسط دبی عبوری از این رودخانه 09/1 مترمکعب بر ثانیه و متوسط رسوب حمل شده ۹/۲۳ میلی‌گرم بر لیتر می‌باشد (شکل 1).

 

شکل (1) حوضه و ایستگاه مورد مطالعه واقع در ایالت اوهایو

در این مطالعه از داده‌های دبی و رسوب روزانه، ماهانه و سالانه برداشت شده در ایستگاه هیدرومتری در سرشاخه‌های رودخانه­­ی اوهایو استفاده شده است.

مدل‌های مورد استفاده

در این مرحله داده‌های آماده شده با استفاده از تکنیک‌ها و عملیات‌ داده­کاوی مورد کاوش قرار گرفـتند تا الگوهای مورد ‌نظر کشف گردند. این مدل‌ها عبارتـند از: مدل‌های رگرسیون خطی، شـبکه‌های عصبی پیش‌خور پس انتشار و تابـع پایـه­ی شعاعی، K نزدیک‌ترین همسایه، ماشین‌بردار پشتیبان، ماشین‌بردار پشتیبان تکاملی و مدل درخت تصمیم M5.

ـ شبکه­ی عصبی پس انتشار خطا

شبکه­ی عـصبی پس انتشار خطا حداقل شامل سـه لایـه­ی ورودی، خروجی و لایه­ی

 مخفی است. هر نرون در یک لایه وزن ورودی را از لایه­ی قبلی دریافت کرده آن را به ‌عنوان خروجی نرون در لایه­ی بعدی انتقال می‌دهد. هورنیک[10]، 1989: 359). نتایج شبکه با نتایج واقعی مقایسه شده و خطای شبکه توسط معادله محاسبه می‌شود. روند آموزش تا زمانی که خطا به مقدار قابل قبولی برسد ادامه می‌یابد.

رابطه (1)

 

رابطه (2)

 

رابطه (3)

 

در این روابط : پاسخ نرون : تابع متحرک غیرخطی، : مجموع وزن‌های ورودی، : نرون ورودی، : وزن هر نرون ورودی،  مقدار مشاهده شده نرون : بایاس، : خطای بین مقدار مشاهداتی و پاسخ شبکه می‌باشد (روشنگر و پرهیزجوان، 1393: 178).

ـ شبکه­ی عصبی با تابع پایه‌ی شعاعی

شبکه­ی عصبی تابع پایه‌ی شعاعی به‌ عنوان یک شبکه­­ی سه­لایه که در آن لایه­ی پنهان به صورت ثابت واجد تابع تبدیل غیرخطی با پارامترهای غیرقابل تنظیم است، شناخته می‌شود. برای هر گره، فاصله­ی اقلیدسی میان مرکز و بردار ورودی به وسیله­ی تابع غیرخطی که خروجی گره‌ها در لایه­ی پنهان را تخمین می‌زند، محاسبه می‌شود. سپس لایه­ی خروجی این نتایج را در یک نگاشت خطی ترکیب می‌کند.

ـ K نزدیک‌ترین همسایه[11]

الگوریتم k نزدیک‌ترین همسایه شامل انتخاب تعداد مشخصی از بردار داده‌ها و سپس باز نمونه‌گیری تصادفی از آن مجموعه برای شبیه‌سازی دوره­ی زمانی متعاقب یک دوره­ی معین می‌باشد. از مزایای استفاده از این الگوریتم در پیش‌بینی‌ها می‌توان به اجرای ساده، عدم نیاز به مرحله­ی تخمین‌ پارامترها، قابلیت مدل‌سازی غیرخطی، مؤثر بودن و عملکرد با بازدهی بالا در برخورد با تعداد دسته‌های زیاد از داده‌ها می‌باشد (عزمی و عراقی­نژاد، ۱۳۹۱: 110).

ـ مدل درختی M5p

این مدل زیر مجموعه‌ای از روش‌های یادگیری ماشینی و داده‌کاوی است. ساختار یک مدل درختی شامل ریشه، گره‌های داخلی و برگ می‌باشد. برای اولین بار کوینلان (1992) مدل درخت تصمیم موسوم به M5 را  برای پیش‌بینی داده‌های پیوسته ارائه نمود. این مدل، بر خلاف مدل‌های درخت تصمیم معمول که کلاس یا رده‌های گسسته را به ‌عنوان خروجی ارائه می‌کنند، یک مدل خطی چندمتغیره را برای داده‌ها در هر گره از مدل درختی می‌سازد. تشکیل ساختار مدل‌های درخت تصمیم‌گیری شامل مراحل ایجاد درخت و هرس کردن آن است (ویتن و فرانک، 2005). معیار تقسیم برای الگوریتم مدل M5 ارزیابی انحراف معیار مقادیر کلاسی است که به‌ عنوان کمیتی از خطا به یک گره می‌رسد و کاهش مورد انتظار در این خطا را به عنوان نتیجه آزمون هر صفت در آن گره محاسبه می‌نماید. کاهش انحراف معیار (SDR) از رابطه­ی (4) به دست می‌آید:

رابطه­ی (4)

 

که در آن T، بیانگر یک سری نمونه‌هایی است که به گره می‌رسد. Ti بیانگر نمونه‌هایی است که i امین خروجی سری پتانسیلی را دارند و sd بیانگر انحراف معیار است (آلبرگ و همکاران، 2012: 71). به دلیل فرآیند انشعاب، داده‌های قرار گرفته در گره‌های فرزند، انحراف معیار کم‌تری نسبت به گره مادر داشته و بنابراین خالص‌تر هستند. پس از حداکثرسازی تمامی انشعاب‌های ممکن M5 صفتی را انتخاب می‌کند که کاهش مورد انتظار را بیشینه نماید (ظهیری و قربانی، 1392: 121).

ـ فرآیند گوسی (GP)[12]

فرآیند گوسی یک روش یادگیری ماشینی غیرپارامتری قوی برای ایجاد مدل‌های احتمال­گرایانه جامع از مسائل دنیای واقعی است. به ‌طور رسمی، یک فرآیند گوسی تولید داده‌هایی می‌کند که در طول این طیف قرار دارد به طوری که هر زیرمجموعه متناهی دامنه­ی یک توزیع گوسی چندمتغیره را دنبال می‌کند.

ـ ماشین‌بردار پشتیبان  (SVM)[13]

روش ماشین‌بردار پشتیبان از روش‌های یادگیری ماشینی است که بر مبنای تئوری یادگیری آماری vapnik در دهه‌ی ۹۰ میلادی توسط Vapnik و همکاران ارائه شد. در ماشین بردار پشتیبان از اصول کمینه کردن ریسک ساختاری استفاده شده؛ در حالی‌ که سایر روش‌ها از اصول کمینه کردن تجربی بهره می‌برند (نظری و همکاران[14]، 2011).

این روش بر پایه­ی نظریه­ی یادگیری محاسباتی توسعه­یافته است (هانگ و چنگ[15]، 2007: 516). در حالتی که داده‌ها به‌ صورت خطی به شکل رابطه­ی (5) قابل ارائه‌اند:

رابطه­ی (5)

 

در رابطه­ی (5)، پارامترهای ابر صفحه هستند. اگر داده‌ها به صورت خطی تفکیک‌پذیر نباشند، رابطه­ی (5) به رابطه­ی (6) تغییر می‌یابد:

رابطه­ی (6)

 

K(X,Xi)تابع کرنلی است که، برای ایجاد تابع ماشین‌هایی با انواعی مختلف از سطوح تصمیم‌گیری غیرخطی در فضای داده‌ها، ضرب‌های داخلی تولید می‌کند.

ـ ماشین بردار پشتیبان تکاملی (ESVM)

مدل ماشین بردار تکاملی یک استراتژی تکاملی را به‌منظور بهینه‌سازی به ‌کار می‌برد. در واقع این مدل یک الگوریتم تکاملی را برای حل مشکل بهینه‌سازی دوگانه ارائه می‌دهد. ESVM با تجزیه و تحلیل فرکانس از ویژگی‌های انتخاب شده، یک مجموعه­ی کوچک از ویژگی‌های مؤثر را شناسایی کرده و از این رو باعث بهبود دقت طبقه‌بندی می‌گردد (هانگ و چنگ، 2007: 517).

در مدل‌های فوق، فرآیند مدل‌سازی بار رسوبی معلق در سری‌های زمانی روزانه، ماهانه و سالانه انجام شد. بدین ترتیب که مجموعه­ی داده‌های دبی روزانه، ماهانه و سالانه به عنوان ورودی مدل به نرم­افزار رپید ماینر وارد شد و سپس مقادیر بار رسوبی معلق در هر یک از بازه‌های زمانی برآورد گردید.

ـ ارزیابی مدل

یک روش جایگزین برای زیرنمونه‌برداری تصادفی روش Cross-Validation  ست. در این روش هر رکورد داده‌ای یک بار در مرحله آموزش و یک بار در مرحله تست استفاده می‌گردد. حالت عمومی‌تر این روش k-fold cross-validation نام دارد که آن مقدار k برابر N، یعنی برابر اندازه مجموعه داده‌های اولیه قرار می‌گیرد. این حالت Leave-One-Out نامیده می‌‌‌شود. مزیت این حالت در آن است که از بیشترین تعداد داده‌های ممکن برای مرحله­ی آموزش استفاده می‌کند. (صنیعی آباده و همکاران، ۱۳۹۳: 192). در این مطالعه نیز به‌منظور ارزیابی مدل از روش Leave-One-Out استفاده شد.

به ‌منظور ارزیابی نتایج از معیارهای ارزیابیRoot mean squared error (RMSE) و Correlation coefficient (r) استفاده شد.

رابطه­ی (7)

 

رابطه­ی (8)

 

که در این معادلات oi مقادیر مشاهده‌ای،  pi داده‌های پیش‌بینی شده،  میانگین داده‌های پیش‌بینی شده،  میانگین داده‌های مشاهده شده، تعداد داده‌ها می‌باشد. با توجه به مقادیر بار رسوبی واقعی و مقادیر پیش‌بینی شده توسط مدل‌های اعمال شده فرآیند ارزیابی مدل‌ها صورت گرفت.

بحث و نتایج

خلاصه­ی آماری داده‌های دبی و رسوب در مقیاس زمانی مختلف در جدول (۱) ارائه شده است.

جدول (۱) خلاصه­ی آماری داده‌های دبی (فوت مکعب بر ثانیه) و رسوب (میلی‌گرم بر لیتر)

ضریب تغییرات

انحراف از معیار

میانگین

حداکثر

حداقل

نوع داده

سری زمانی

3/۲

6/۹4

6/41

۲۰۰۰

01/0

دبی

روزانه

1/۲

3/۵2

4/۲5

۸۱۹

4/۰

رسوب

0/۱

4/۴۳

7/۳۹

۴/۳۰۷

005/0

دبی

ماهانه

۸0/۰

۵/۱۹

4/۲۴

۱۰۰

۷/۰

رسوب

3/۰

5/۱۳

0/۳9

9/۷۰

۵/۱۸

دبی

سالانه

3/۰

1/۷

3/24

8/۴۲

۹/۱۲

رسوب

نتایج کلی حاکی از توانمندی تمامی مدل‌ها در پیش‌بینی بار رسوبی معلق است. این در جالی است که مدل K نزدیک‌ترین همسایه با مقدار 5/28=RMSE و 83/0r= و پس از آن مدل درختی M5 بهترین مدل پیش‌بینی بار رسوبی معلق روزانه می‌باشد (شکل‌های 2 و 3).

 

MODEL

FFNN

RBFNN

KNN

LR

RMSE

3/39

9/35

5/28

33

R

۸/0

7/0

۸۳/0

8/0

 

شکل (2) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق روزانه: توسط مدل‌های الف: شبکه عصبی مصنوعی پس انتشار خطا، ب: شبکه­ی عصبی تابع پایه‌ی شعاعی، ج: رگرسیون خطی، د: k نزدیک­ترین همسایه

 

MODEL

GP

M5

ESVM

SVM

RMSE

9/۳۱

7/29

6/۳۲

9/۳۴

r

8/0

8/0

۷۸/0

8/0

 

شکل (3) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق روزانه: توسط مدل‌های الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشین‌بردار پشتیبان، د: ماشین‌بردار پشتیبان تکاملی

نتایج اعمال مدل‌ها بر روی سری زمانی ماهانه نیز نشان داد که مدل فرآیند گوسی  با مقدار8/7= RMSE و 91/0R= و K نزدیک‌ترین همسایه با مقدار با مقدار 1/=8RMSE و 91/0 R=دارای بیشترین دقت در پیش‌بینی بار رسوب معلق ماهانه می‌باشد. همچنین نتایج نشان می‌دهد که دقت و همبستگی تمامی مدل‌ها نیز نسبت به سری روزانه افزایش پیدا کرده است. مقادیر پراکنش داده‌های واقعی و پیش‌بینی شده داده‌های ماهانه و نتایج ارزیابی انواع مدل‌ها در شکل‌های 4 و 5 نشان داده شده است.

 

MODEL

FFNN

RBFNN

KNN

LR

RMSE

4/۱۱

8/11

1/8

۳/۱0

r

87/0

79/0

91/0

84/0

 

شکل (4) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق ماهانه: توسط مدل‌های الف: شبکه­ی عصبی مصنوعی پس انتشار خطا، ب: شبکه­ی عصبی تابع پایه‌ی شعاعی، ج: رگرسیون خطی،  د: k نزدیک­ترین همسایه

 

MODEL

GP

M5

SVM

ESVM

RMSE

۸/۷

7/9

6/۱0

۷/۳۵

r

91/0

86/0

84/0

45/0

 

شکل (5) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق ماهانه: توسط مدل‌های الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشین‌بردار پشتیبان، د: ماشین‌بردار پشتیبان تکاملی

همچنین در بررسی مدل‌ها در داده‌های سالانه نتایج نشان داد که مدل فرآیند گوسی و K نزدیک‌ترین همسایه با مقادیر RMSE به ترتیب 7/2 و 8/3 دارای بیشترین دقت در پیش‌بینی بار رسوب سالانه می‌باشد. مقادیر پراکنش داده‌های واقعی و پیش‌بینی شده داده‌های سالانه و نتایج ارزیابی انواع مدل‌ها در شکل‌های 6 و 7 نشان داده شده است.

 

MODEL

FFNN

RBFNN

KNN

LR

RMSE

۸/۶

4/5

۸/۳

5/۴

r

75/0

62/0

83/0

76/0

 

شکل (6) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق سالانه: توسط مدل‌های الف: شبکه­ی عصبی مصنوعی پس انتشار خطا،ب: شبکه­ی عصبی تابع پایه‌ی شعاعی، ج: رگرسیون خطی،  د: k نزدیک­ترین همسایه

 

MODEL

GP

M5

SVM

ESVM

RMSE

۷/۲

5/4

6/۴

4/۱۶

r

93/0

76/0

76/0

60/0

 

شکل (7) نمودار پراکندگی مقادیر مشاهده‌ شده و پیش‌بینی شده بار رسوب معلق ماهانه: توسط مدل‌های الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشین‌بردار پشتیبان، د: ماشین‌بردار پشتیبان تکاملی

بررسی مقادیر شاخص‌های ارزیابی در هر سه سری مجموعه داده‌ها بیانگر آنست که میزان دقت مدل‌ها در پیش‌بینی داده‌های سالانه بیش‌تر بوده و در سری داده‌های روزانه مدل‌ها از دقت کمتری برخوردار بوده‌اند. نمودار مقایسه­ی شاخص ارزیابی RMSE در شکل (8) ارائه شده است.

 

شکل (8) مقادیر RMSE مدل‌های مختلف بر روی داده‌های رسوب معلق‌ روزانه، ماهانه و سالانه

نتیجه­گیری

سری‌های زمانی مختلف با توجه به ماهیت­شان نیازمند مدل‌‌سازی خاص خود هستند. در این پژوهش به‌ منظور بررسی و ارزیابی کارایی مدل­ها در پیش­بینی در سری‌های زمانی مختلف از هشت مدل‌ مختلف استفاده شد. از آنجا که بالا بودن قدرت جریان موجب حمل رسوب بیشتر است لذا در این مطالعه از پارامتر دبی متناظر به ‌منظور مدل‌سازی بار معلق استفاده شد. با اعمال مدل‌های داده‌کاوی بر داده‌های رسوب روزانه مشخص شد که مدل‌های k نزدیک­ترین همسایه و مدل درختی M5، به ترتیب با مقادیر RMSE 5/28 و 7/29 بیشترین دقت را دارند.

در بررسی سری داده‌های ماهانه رفتار مدل متفاوت بوده به طوری ­که در این سری زمانی مدل‌های فرآیند گوسی و k نزدیک­ترین همسایه با مقادیر RMSE به ترتیب 8/7 و 1/8 دارای بیشترین دقت بودند. در مجموع دقت مدل‌ها نسبت به سری روزانه بیشتر بوده است. اعمال مدل‌ها بر روی داده‌های سالانه نیز نشان داد که مدل‌های فرآیند گوسی و k نزدیک­ترین همسایه با مقادیر RMSE 7/2 و 8/3 دارای دقت بالاتری می‌باشند.

در مجموع بررسی مقادیر دقت در سری‌های زمانی مختلف نشان داد که دقت مدل‌ها بر روی داده‌های سالانه نسبت به سایر سری‌های زمانی افزایش یافته است. مطالعات کیاء و عمادی (1392) نیز در تأیید این نتایج است. یکی از دلایل این امر را می‌توان میانگین‌گیری داده‌ها دانست زیرا با میانگین‌گیری تأثیر دبی‌های پائین کمتر شده و در دبی‌های بالا نیز خطای برآورد کمتری دیده می‌شود. بنابراین پیش‌بینی داده‌های روزانه با توجه به بررسی داده‌ها ‌در مقیاس کوچک­تر و همچنین پراکندگی وسیع داده‌ها نیاز به دقت بالاتری در ساختار مدل خواهد داشت.



[1]- Cigizoglu

[2]- Ozturk et al.,

[3]- Alp & Cigizoglu

[4]- Chang et al.,

[5]- Rasouli & Cannon

[6]- Bhattacharya & and Solomatine

[7]- Kumar et al.,

[8]- Zounemat-Kermani et al.,

[9]- Lafdani et al.,

[10]- Hornik

[11]- K Nearest Neighbor

[12]- Gaussian Process

[13]- Support Vector Machine

[14]- Nazari et al.,

[15]- Huang & Chang

روشنگر، کیومرث و  فریبا پرهیز جوان (1393)، ارزیابی عملکرد سیستم‌های هوش مصنوعی در برآورد بار کل رسوبی رودخانه آجی­چای، فصلنامه­ی پژوهشی فضای جغرافیا، شماره­ی 46، صص173-197.
- صنیعی­­آباده، محمد؛ محمودی، سینا و محدثه طاهرپرور (1393)، داده­کاوی کاربردی (ویراست دوم)، انتشارات نیاز دانش، تهران.
- ظهیری، عبدالرضا و خلیل قربانی (1392)، شبیه‌سازی دبی جریان در مقاطع مرکب به کمک مدل درخت تصمیم M5، نشریه­ی پژوهش‌های حفاظت آب و خاک، شماره­ی 3، صص 113-132.
- عزمی، محمد و شهاب عراقی­نژاد (۱۳۹۰)، توسعهروشرگرسیون و k نزدیک‌ترین همسایگی درپیش‌بینیجریانرودخانه، نشریه­ی آب و فاضلاب، شماره­ی 2، صص ۱۰۸-۱۱۹.
- کیاء، عیسی و علیرضا عمادی (1392)، مقایسه­ی روش‌های مختلف رگرسیون آماری در برآورد بار رسوب معلق درازمدت سالانه (مطالعه­ی موردی: بابل رود)، پژوهشنامه­ی مدیریت حوضه­ی آبخیز، شماره­ی 8، صص 15-27.‎
- یوسفی، محسن و ربابه پورشرعیاتی (1393)، برآوردرسوبمعلقبااستفادهازشبکه‌عصبیوارزیابیتوابعآموزشی (مطالعه­یموردی: استانلرستان)، پژوهشنامه­ی مدیریت حوضه­ی آبخیز، شماره­ی ۱۰، صص 85-97.
-Alberg, D., Last, M. and Kandel, A. (2012), KnowledgeDiscoveryin Data Streams with Regression Tree Methods, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2(1), PP. 69-78.
-Alp M and Cigizoglu HK, (2007), Suspended Sediment Load Simulation by two ANN Methods Using Hydrometeorological Data, Environmental Modeling Software 22: PP. 2-13.
-Bhattacharya, B. and Solomatine, D.P., (2005), Neural Networks and M5 Model Trees in Modelling Water Level–discharge Relationship, Neurocomputing, 63, PP. 381-396.
-Cigizoglu, K. (2003). Estimation and Forecasting of Daily Ssuspended Sediment Data by Multi-layer Perceptrons, Advances in Water Resources, 27: PP. 185-195.
-Chang, F.J., Tsai, Y.H., Chen, P.A., Coynel, A. and Vachaud, G., (2015), Modeling Water Quality in an Urban River Using Hydrological Factors–Data Driven Approaches,  Journal of Environmental Management, 151, PP. 87-96.
-Huang, H.L. and Chang, F.L., (2007), Evolutionary Support Vector Machine for Automatic Feature Selection and Classification of Microarray Data, Biosystems, 90(2), PP. 516-528.
-Hornik, K., Stinchcombe, M. and White, H., (1989), Multilayer Feedforward Networks Are Universal Approximators, Neural Networks, 2(5), PP. 359-366.                                                                   
-Kumar, D., Pandey, A., Sharma, N. and Flügel, W.A., (2016), Daily Suspended Sediment Simulation Using Machine Learning Approach, Catena, 138, PP. 77-90.
-Lafdani, E.K., Nia, A.M. and Ahmadi, A., (2013), “Daily Suspended Sediment Load Prediction Using Artificial Neural Networks and Support Vector Machines”, Journal of Hydrology, 478, pp.50-62.
-Nazari, S., Kuzma, H.A. and Rector III, J.W., (2011), Predicting Permeability from Well Log Data and Core Measurements Using Support Vector Machines, In 2011 SEG Annual Meeting, Society of Exploration Geophysicists.
-Ozturk, F., Apaydın, H., & Walling, D.E., (2001), Suspended Sediment Loads Through Flood Events for Streams of Sakarya Basin, Turkish Journal of Engineering and Environmental Sciences, 25(6), PP. 643-650.
-Rasouli, K., Hsieh, W.W. and Cannon, A.J., (2012), Daily Streamflow Forecasting by Machine Learning Methods with Weather and Climate Inputs, Journal of Hydrology, 414, PP. 284-293.
- Witten, I.H. and Frank, E., (2005). Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann.
-Zounemat-Kermani, M., Kişi, Ö. Adamowski, J. and Ramezani-Charmahineh, A., (2016), Evaluation of Data Driven Models for River Suspended Sediment Concentration Modeling, Journal of Hydrology, 535, PP. 457-472.