Document Type : پژوهشی
Authors
1 - MSc student of watershed management, Faculty of Agriculture and Natural Resources, Ardakan University
2 Academic Staff / Ardakan University
3 - Assistance Professor, Faculty of Agriculture and Natural Resources, Ardakan University
Abstract
The main purpose of this study is an inquiry into the functions of daily, monthly, and annual scales of sediment data in their estimations using machine learning models. For this purpose, suspended sediment load data for three temporal, daily, monthly, and annual, scales at Ohio station, located in the USA, between the years of 1992 and 2014 were selected. In order to choose the best model, some machine learning base models such as artificial neural networks, error back propagation as well as radial basis function, k-nearest neighbor, M5 decision tree, Gaussian process, support vector machine (SVR), evolutionary support vector machine (ESVM), and linear regression (LR) models were run and evaluated. The results of this study showed that the k-nearest neighbor with RMSE=5.28, the data Gaussian process model with RMSE=8.7, and the Gaussian process model with a RMSE=7.2 were respectively the best models for the daily, monthly, and annual data. The comparison of the models' assessment also suggested that the predicted annual data were more accurate than the monthly and daily data.
Keywords
مقدمه
پدیده رسوب یکی از عوامل ایجاد بحرانهای کمی و کیفی آبهای سطحی محسوب میشود. رسوبات حمل شده توسط جریان، حجم آب خالص ورودی به مخازن را تحت تأثیر قرار داده و با گذشت زمان از حجم مخازن و سدها میکاهد. برآورد بار رسوبی معلق که جریان مشخص قادر به حمل آن باشد، از موضوعات اصلی تحقیقات رسوب بوده که در بسیاری از پروژههای مهندسی همچون برنامهریزی و طراحی منابع ذخیرهی آب، برآورد بار معلق سالانه برای آبگیرهای رودخانه، طراحی و نگهداری کانالهای آبیاری پایدار، حفاظت سواحل و لایروبی کانالها حائز اهمیت است (کیگیزگلو[1]، 2003: 185). بار رسوب معلق با اندازهگیری مستقیم و معادله انتقال رسوب تعیین میگردد.
اگرچه اندازهگیری بار رسوبی رودخانه قابل اعتمادتر است اما این کار هزینهبر بوده و برای تمام طول رودخانه میسر نمیباشد. معادلات انتقال رسوب نیز نیاز به اطلاعات دقیقتری از جریان و بستر رودخانه داشته که گردآوری آنها نیاز به انجام عملیات صحرایی فراوانی دارد (ازتورک و همکاران[2]، 2001: 644). لذا به کارگیری روشهایی که به طور غیرمستقیم و با استفاده از پارامترهای مؤثر در بار رسوب، بتوان آن را برآورد نمود کمک شایانی در زمینهی پیشبینی بار رسوب خواهد کرد.
روشهای دادهی کاوی ابزارهای هوشمندی برای برقراری این رابطهی غیرخطی میباشند (آلپ و کیگیزگلو[3]، 2007: 2). روشهای دادهکاوی یکی از روشهایی است که امروزه در مطالعات فرآیندهای هیدرولوژی و اقلیمی بسیار مورد استفاده قرار گرفتهاست و ابزار هوشمند به منظور برقراری ارتباط بین پارامترهای اقلیمی و هیدرولوژیکی است (چنگ و همکاران[4]، 2015: 87؛ رسولی و کانون[5]، 2012: 284؛ بهتچریا و سلمتین[6]، ۲۰۰۵: 381) با وجود توانمندی بالای تکنیکهای یادگیری ماشین به نظر میرسد پایهی زمانی انواع دادههای رسوب رفتار متفاوتی را نسبت به مدلهای شبیهسازی خود نشان میدهند. تا کنون در مطالعات مختلف به بررسی و مدلسازی بار رسوبی در سریهای زمانی روزانه، ماهانه و سالانه پرداخته شده است، به طور مثال کومار و همکاران[7] (2016) از بین سریهای زمانی، دادههای روزانه را انتخاب و به برآورد بار رسوب معلق روزانه با استفاده از روشهای یادگیری ماشین پرداختند. برای این منظور، از مدلهای شبکهی عصبی مصنوعی، شبکههای عصبی تابع پایهی شعاعی، حداقل ماشینبردار پشتیبانی مربع، رگرسیون چند خطی و مدل درخت تصمیم، مانند طبقهبندی و درخت رگرسیون و مدل درختی M5 استفاده گردید. نتایج نشان داد که تمام مدلها قادر به شبیهسازی رسوب معلق میباشند و مدل حداقل ماشینبردار پشتیبانی مربع با دقت 89/0 به خوبی قادر به مدلسازی رسوب معلق روزانه میباشد.
ذونعمت کرمانی و همکاران[8] (2016) به مدلسازی غلظت رسوب معلق روزانه براساس مدلهای داده محور پرداختند. آنان نیز در مطالعهی خود مدلهای شبکهی عصبی مصنوعی، ماشینبردار رگرسیون و منحنی سنجهی رسوب مورد مقایسه قرار دادند. نتایج براساس معیارهای ارزیابی در این مدلها بیانگر آن بود که مدل ماشینبردار رگرسیون با تابع پایهی شعاعی دارای عملکرد مناسبتری بهمنظور پیشبینی بار رسوبی معلق میباشد.
در مطالعهای دیگر لفدنی و همکاران[9](2013) از شبکههای عصبی مصنوعی و ماشین بردار پشتیبان به منظور پیشبینی بار رسوب معلق روزانه استفاده نمودند. نتایج به دست آمده نشان داد که مدل ماشینبردار رگرسیون با استفاده از آزمون گاما دارای عملکرد مناسبی در پیشبینی بار رسوبی معلق میباشد. مدلسازی رسوبات معلق ماهانه نیز مطالعهی یوسفی و پورشرعیاتی (1392) مورد بررسی قرار گرفت. آنان با بررسی سه شبکه Fitting و Forward Back prop Cascade و پیشخور پس انتشار خطا به تعیین الگوریتم مناسب جهت برآورد بار معلق پرداختند. آنان در نتایج خود بیان نمودهاند که از میان سه شبکه، شبکهی عصبی Fitting نتایج بهتری را ارائه دادهاست.
مقایسهسریهای زمانی و فصلی در مطالعهی کیاء و عمادی (1392) مورد توجه قرار گرفت. نتایج مدل سالانه نشان داد که این مدل نسبت به سایر حالات به مدل مناسب این ایستگاه نزدیکتر است، البته در این مطالعه تفکیک زمانی فصلی دادهها به دو فصل سیلابی و غیرسیلابی نشان داد که با تفکیک دادهها مدلها نتایج بهتری را ارائه مینمایند.
آنچه مشخص است این است که دقت مدلها در پیشبینی بار رسوبی در سریهای زمانی با توجه به حجم دادهها متفاوت بوده و مدل بر روی هر یک از سریهای زمانی نتایج متفاوتی را ارائه میدهد. در این مطالعه با تهیهی دادههای دبی و رسوب معلق مربوط به سریهایهای زمانی روزانه، ماهانه و سالانه در یک حوضهی ثابت به بررسی میزان دقت مدلها در پیشبینی بار رسوبی معلق در سریهای زمانی روزانه، ماهانه و سالانه پرداخته شدهاست. از طرفی با توجه به گستردگی مدلهای یادگیری ماشین در این مطالعه به بررسی توانمندی هشت مدل متفاوت پرداخته شد و قابلیت آنها با استفاده از معیارهای مناسب مورد ارزیابی قرار گرفت.
مواد و روشها
معرفی منطقهی مورد مطالعه
منطقهی مطالعاتی ایستگاه هیدرومتری واقع در ایالت اوهایو میباشد. مساحت حوضه 92/72 کیلومتر مربع بوده و دورهی آماری مورد نظر از سال 1992 تا سال 2013 (21 سال) بوده که تعداد 7873 دادهی رسوب و دبی در این مدت برداشت گردیده است (USGS). متوسط دبی عبوری از این رودخانه 09/1 مترمکعب بر ثانیه و متوسط رسوب حمل شده ۹/۲۳ میلیگرم بر لیتر میباشد (شکل 1).
شکل (1) حوضه و ایستگاه مورد مطالعه واقع در ایالت اوهایو
در این مطالعه از دادههای دبی و رسوب روزانه، ماهانه و سالانه برداشت شده در ایستگاه هیدرومتری در سرشاخههای رودخانهی اوهایو استفاده شده است.
مدلهای مورد استفاده
در این مرحله دادههای آماده شده با استفاده از تکنیکها و عملیات دادهکاوی مورد کاوش قرار گرفـتند تا الگوهای مورد نظر کشف گردند. این مدلها عبارتـند از: مدلهای رگرسیون خطی، شـبکههای عصبی پیشخور پس انتشار و تابـع پایـهی شعاعی، K نزدیکترین همسایه، ماشینبردار پشتیبان، ماشینبردار پشتیبان تکاملی و مدل درخت تصمیم M5.
ـ شبکهی عصبی پس انتشار خطا
شبکهی عـصبی پس انتشار خطا حداقل شامل سـه لایـهی ورودی، خروجی و لایهی
مخفی است. هر نرون در یک لایه وزن ورودی را از لایهی قبلی دریافت کرده آن را به عنوان خروجی نرون در لایهی بعدی انتقال میدهد. هورنیک[10]، 1989: 359). نتایج شبکه با نتایج واقعی مقایسه شده و خطای شبکه توسط معادله محاسبه میشود. روند آموزش تا زمانی که خطا به مقدار قابل قبولی برسد ادامه مییابد.
رابطه (1) |
|
رابطه (2) |
|
رابطه (3) |
در این روابط : پاسخ نرون : تابع متحرک غیرخطی، : مجموع وزنهای ورودی، : نرون ورودی، : وزن هر نرون ورودی، مقدار مشاهده شده نرون : بایاس، : خطای بین مقدار مشاهداتی و پاسخ شبکه میباشد (روشنگر و پرهیزجوان، 1393: 178).
ـ شبکهی عصبی با تابع پایهی شعاعی
شبکهی عصبی تابع پایهی شعاعی به عنوان یک شبکهی سهلایه که در آن لایهی پنهان به صورت ثابت واجد تابع تبدیل غیرخطی با پارامترهای غیرقابل تنظیم است، شناخته میشود. برای هر گره، فاصلهی اقلیدسی میان مرکز و بردار ورودی به وسیلهی تابع غیرخطی که خروجی گرهها در لایهی پنهان را تخمین میزند، محاسبه میشود. سپس لایهی خروجی این نتایج را در یک نگاشت خطی ترکیب میکند.
ـ K نزدیکترین همسایه[11]
الگوریتم k نزدیکترین همسایه شامل انتخاب تعداد مشخصی از بردار دادهها و سپس باز نمونهگیری تصادفی از آن مجموعه برای شبیهسازی دورهی زمانی متعاقب یک دورهی معین میباشد. از مزایای استفاده از این الگوریتم در پیشبینیها میتوان به اجرای ساده، عدم نیاز به مرحلهی تخمین پارامترها، قابلیت مدلسازی غیرخطی، مؤثر بودن و عملکرد با بازدهی بالا در برخورد با تعداد دستههای زیاد از دادهها میباشد (عزمی و عراقینژاد، ۱۳۹۱: 110).
ـ مدل درختی M5p
این مدل زیر مجموعهای از روشهای یادگیری ماشینی و دادهکاوی است. ساختار یک مدل درختی شامل ریشه، گرههای داخلی و برگ میباشد. برای اولین بار کوینلان (1992) مدل درخت تصمیم موسوم به M5 را برای پیشبینی دادههای پیوسته ارائه نمود. این مدل، بر خلاف مدلهای درخت تصمیم معمول که کلاس یا ردههای گسسته را به عنوان خروجی ارائه میکنند، یک مدل خطی چندمتغیره را برای دادهها در هر گره از مدل درختی میسازد. تشکیل ساختار مدلهای درخت تصمیمگیری شامل مراحل ایجاد درخت و هرس کردن آن است (ویتن و فرانک، 2005). معیار تقسیم برای الگوریتم مدل M5 ارزیابی انحراف معیار مقادیر کلاسی است که به عنوان کمیتی از خطا به یک گره میرسد و کاهش مورد انتظار در این خطا را به عنوان نتیجه آزمون هر صفت در آن گره محاسبه مینماید. کاهش انحراف معیار (SDR) از رابطهی (4) به دست میآید:
رابطهی (4) |
که در آن T، بیانگر یک سری نمونههایی است که به گره میرسد. Ti بیانگر نمونههایی است که i امین خروجی سری پتانسیلی را دارند و sd بیانگر انحراف معیار است (آلبرگ و همکاران، 2012: 71). به دلیل فرآیند انشعاب، دادههای قرار گرفته در گرههای فرزند، انحراف معیار کمتری نسبت به گره مادر داشته و بنابراین خالصتر هستند. پس از حداکثرسازی تمامی انشعابهای ممکن M5 صفتی را انتخاب میکند که کاهش مورد انتظار را بیشینه نماید (ظهیری و قربانی، 1392: 121).
ـ فرآیند گوسی (GP)[12]
فرآیند گوسی یک روش یادگیری ماشینی غیرپارامتری قوی برای ایجاد مدلهای احتمالگرایانه جامع از مسائل دنیای واقعی است. به طور رسمی، یک فرآیند گوسی تولید دادههایی میکند که در طول این طیف قرار دارد به طوری که هر زیرمجموعه متناهی دامنهی یک توزیع گوسی چندمتغیره را دنبال میکند.
ـ ماشینبردار پشتیبان (SVM)[13]
روش ماشینبردار پشتیبان از روشهای یادگیری ماشینی است که بر مبنای تئوری یادگیری آماری vapnik در دههی ۹۰ میلادی توسط Vapnik و همکاران ارائه شد. در ماشین بردار پشتیبان از اصول کمینه کردن ریسک ساختاری استفاده شده؛ در حالی که سایر روشها از اصول کمینه کردن تجربی بهره میبرند (نظری و همکاران[14]، 2011).
این روش بر پایهی نظریهی یادگیری محاسباتی توسعهیافته است (هانگ و چنگ[15]، 2007: 516). در حالتی که دادهها به صورت خطی به شکل رابطهی (5) قابل ارائهاند:
رابطهی (5) |
در رابطهی (5)، پارامترهای ابر صفحه هستند. اگر دادهها به صورت خطی تفکیکپذیر نباشند، رابطهی (5) به رابطهی (6) تغییر مییابد:
رابطهی (6) |
K(X,Xi)تابع کرنلی است که، برای ایجاد تابع ماشینهایی با انواعی مختلف از سطوح تصمیمگیری غیرخطی در فضای دادهها، ضربهای داخلی تولید میکند.
ـ ماشین بردار پشتیبان تکاملی (ESVM)
مدل ماشین بردار تکاملی یک استراتژی تکاملی را بهمنظور بهینهسازی به کار میبرد. در واقع این مدل یک الگوریتم تکاملی را برای حل مشکل بهینهسازی دوگانه ارائه میدهد. ESVM با تجزیه و تحلیل فرکانس از ویژگیهای انتخاب شده، یک مجموعهی کوچک از ویژگیهای مؤثر را شناسایی کرده و از این رو باعث بهبود دقت طبقهبندی میگردد (هانگ و چنگ، 2007: 517).
در مدلهای فوق، فرآیند مدلسازی بار رسوبی معلق در سریهای زمانی روزانه، ماهانه و سالانه انجام شد. بدین ترتیب که مجموعهی دادههای دبی روزانه، ماهانه و سالانه به عنوان ورودی مدل به نرمافزار رپید ماینر وارد شد و سپس مقادیر بار رسوبی معلق در هر یک از بازههای زمانی برآورد گردید.
ـ ارزیابی مدل
یک روش جایگزین برای زیرنمونهبرداری تصادفی روش Cross-Validation ست. در این روش هر رکورد دادهای یک بار در مرحله آموزش و یک بار در مرحله تست استفاده میگردد. حالت عمومیتر این روش k-fold cross-validation نام دارد که آن مقدار k برابر N، یعنی برابر اندازه مجموعه دادههای اولیه قرار میگیرد. این حالت Leave-One-Out نامیده میشود. مزیت این حالت در آن است که از بیشترین تعداد دادههای ممکن برای مرحلهی آموزش استفاده میکند. (صنیعی آباده و همکاران، ۱۳۹۳: 192). در این مطالعه نیز بهمنظور ارزیابی مدل از روش Leave-One-Out استفاده شد.
به منظور ارزیابی نتایج از معیارهای ارزیابیRoot mean squared error (RMSE) و Correlation coefficient (r) استفاده شد.
رابطهی (7) |
|
رابطهی (8) |
که در این معادلات oi مقادیر مشاهدهای، pi دادههای پیشبینی شده، میانگین دادههای پیشبینی شده، میانگین دادههای مشاهده شده، تعداد دادهها میباشد. با توجه به مقادیر بار رسوبی واقعی و مقادیر پیشبینی شده توسط مدلهای اعمال شده فرآیند ارزیابی مدلها صورت گرفت.
بحث و نتایج
خلاصهی آماری دادههای دبی و رسوب در مقیاس زمانی مختلف در جدول (۱) ارائه شده است.
جدول (۱) خلاصهی آماری دادههای دبی (فوت مکعب بر ثانیه) و رسوب (میلیگرم بر لیتر)
ضریب تغییرات |
انحراف از معیار |
میانگین |
حداکثر |
حداقل |
نوع داده |
سری زمانی |
3/۲ |
6/۹4 |
6/41 |
۲۰۰۰ |
01/0 |
دبی |
روزانه |
1/۲ |
3/۵2 |
4/۲5 |
۸۱۹ |
4/۰ |
رسوب |
|
0/۱ |
4/۴۳ |
7/۳۹ |
۴/۳۰۷ |
005/0 |
دبی |
ماهانه |
۸0/۰ |
۵/۱۹ |
4/۲۴ |
۱۰۰ |
۷/۰ |
رسوب |
|
3/۰ |
5/۱۳ |
0/۳9 |
9/۷۰ |
۵/۱۸ |
دبی |
سالانه |
3/۰ |
1/۷ |
3/24 |
8/۴۲ |
۹/۱۲ |
رسوب |
نتایج کلی حاکی از توانمندی تمامی مدلها در پیشبینی بار رسوبی معلق است. این در جالی است که مدل K نزدیکترین همسایه با مقدار 5/28=RMSE و 83/0r= و پس از آن مدل درختی M5 بهترین مدل پیشبینی بار رسوبی معلق روزانه میباشد (شکلهای 2 و 3).
|
شکل (2) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق روزانه: توسط مدلهای الف: شبکه عصبی مصنوعی پس انتشار خطا، ب: شبکهی عصبی تابع پایهی شعاعی، ج: رگرسیون خطی، د: k نزدیکترین همسایه
|
شکل (3) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق روزانه: توسط مدلهای الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشینبردار پشتیبان، د: ماشینبردار پشتیبان تکاملی
نتایج اعمال مدلها بر روی سری زمانی ماهانه نیز نشان داد که مدل فرآیند گوسی با مقدار8/7= RMSE و 91/0R= و K نزدیکترین همسایه با مقدار با مقدار 1/=8RMSE و 91/0 R=دارای بیشترین دقت در پیشبینی بار رسوب معلق ماهانه میباشد. همچنین نتایج نشان میدهد که دقت و همبستگی تمامی مدلها نیز نسبت به سری روزانه افزایش پیدا کرده است. مقادیر پراکنش دادههای واقعی و پیشبینی شده دادههای ماهانه و نتایج ارزیابی انواع مدلها در شکلهای 4 و 5 نشان داده شده است.
|
شکل (4) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق ماهانه: توسط مدلهای الف: شبکهی عصبی مصنوعی پس انتشار خطا، ب: شبکهی عصبی تابع پایهی شعاعی، ج: رگرسیون خطی، د: k نزدیکترین همسایه
|
شکل (5) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق ماهانه: توسط مدلهای الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشینبردار پشتیبان، د: ماشینبردار پشتیبان تکاملی
همچنین در بررسی مدلها در دادههای سالانه نتایج نشان داد که مدل فرآیند گوسی و K نزدیکترین همسایه با مقادیر RMSE به ترتیب 7/2 و 8/3 دارای بیشترین دقت در پیشبینی بار رسوب سالانه میباشد. مقادیر پراکنش دادههای واقعی و پیشبینی شده دادههای سالانه و نتایج ارزیابی انواع مدلها در شکلهای 6 و 7 نشان داده شده است.
|
شکل (6) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق سالانه: توسط مدلهای الف: شبکهی عصبی مصنوعی پس انتشار خطا،ب: شبکهی عصبی تابع پایهی شعاعی، ج: رگرسیون خطی، د: k نزدیکترین همسایه
|
شکل (7) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق ماهانه: توسط مدلهای الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشینبردار پشتیبان، د: ماشینبردار پشتیبان تکاملی
بررسی مقادیر شاخصهای ارزیابی در هر سه سری مجموعه دادهها بیانگر آنست که میزان دقت مدلها در پیشبینی دادههای سالانه بیشتر بوده و در سری دادههای روزانه مدلها از دقت کمتری برخوردار بودهاند. نمودار مقایسهی شاخص ارزیابی RMSE در شکل (8) ارائه شده است.
شکل (8) مقادیر RMSE مدلهای مختلف بر روی دادههای رسوب معلق روزانه، ماهانه و سالانه
نتیجهگیری
سریهای زمانی مختلف با توجه به ماهیتشان نیازمند مدلسازی خاص خود هستند. در این پژوهش به منظور بررسی و ارزیابی کارایی مدلها در پیشبینی در سریهای زمانی مختلف از هشت مدل مختلف استفاده شد. از آنجا که بالا بودن قدرت جریان موجب حمل رسوب بیشتر است لذا در این مطالعه از پارامتر دبی متناظر به منظور مدلسازی بار معلق استفاده شد. با اعمال مدلهای دادهکاوی بر دادههای رسوب روزانه مشخص شد که مدلهای k نزدیکترین همسایه و مدل درختی M5، به ترتیب با مقادیر RMSE 5/28 و 7/29 بیشترین دقت را دارند.
در بررسی سری دادههای ماهانه رفتار مدل متفاوت بوده به طوری که در این سری زمانی مدلهای فرآیند گوسی و k نزدیکترین همسایه با مقادیر RMSE به ترتیب 8/7 و 1/8 دارای بیشترین دقت بودند. در مجموع دقت مدلها نسبت به سری روزانه بیشتر بوده است. اعمال مدلها بر روی دادههای سالانه نیز نشان داد که مدلهای فرآیند گوسی و k نزدیکترین همسایه با مقادیر RMSE 7/2 و 8/3 دارای دقت بالاتری میباشند.
در مجموع بررسی مقادیر دقت در سریهای زمانی مختلف نشان داد که دقت مدلها بر روی دادههای سالانه نسبت به سایر سریهای زمانی افزایش یافته است. مطالعات کیاء و عمادی (1392) نیز در تأیید این نتایج است. یکی از دلایل این امر را میتوان میانگینگیری دادهها دانست زیرا با میانگینگیری تأثیر دبیهای پائین کمتر شده و در دبیهای بالا نیز خطای برآورد کمتری دیده میشود. بنابراین پیشبینی دادههای روزانه با توجه به بررسی دادهها در مقیاس کوچکتر و همچنین پراکندگی وسیع دادهها نیاز به دقت بالاتری در ساختار مدل خواهد داشت.
[1]- Cigizoglu
[2]- Ozturk et al.,
[3]- Alp & Cigizoglu
[4]- Chang et al.,
[5]- Rasouli & Cannon
[6]- Bhattacharya & and Solomatine
[7]- Kumar et al.,
[8]- Zounemat-Kermani et al.,
[9]- Lafdani et al.,
[10]- Hornik
[11]- K Nearest Neighbor
[12]- Gaussian Process
[13]- Support Vector Machine
[14]- Nazari et al.,
[15]- Huang & Chang
مقدمه
پدیده رسوب یکی از عوامل ایجاد بحرانهای کمی و کیفی آبهای سطحی محسوب میشود. رسوبات حمل شده توسط جریان، حجم آب خالص ورودی به مخازن را تحت تأثیر قرار داده و با گذشت زمان از حجم مخازن و سدها میکاهد. برآورد بار رسوبی معلق که جریان مشخص قادر به حمل آن باشد، از موضوعات اصلی تحقیقات رسوب بوده که در بسیاری از پروژههای مهندسی همچون برنامهریزی و طراحی منابع ذخیرهی آب، برآورد بار معلق سالانه برای آبگیرهای رودخانه، طراحی و نگهداری کانالهای آبیاری پایدار، حفاظت سواحل و لایروبی کانالها حائز اهمیت است (کیگیزگلو[1]، 2003: 185). بار رسوب معلق با اندازهگیری مستقیم و معادله انتقال رسوب تعیین میگردد.
اگرچه اندازهگیری بار رسوبی رودخانه قابل اعتمادتر است اما این کار هزینهبر بوده و برای تمام طول رودخانه میسر نمیباشد. معادلات انتقال رسوب نیز نیاز به اطلاعات دقیقتری از جریان و بستر رودخانه داشته که گردآوری آنها نیاز به انجام عملیات صحرایی فراوانی دارد (ازتورک و همکاران[2]، 2001: 644). لذا به کارگیری روشهایی که به طور غیرمستقیم و با استفاده از پارامترهای مؤثر در بار رسوب، بتوان آن را برآورد نمود کمک شایانی در زمینهی پیشبینی بار رسوب خواهد کرد.
روشهای دادهی کاوی ابزارهای هوشمندی برای برقراری این رابطهی غیرخطی میباشند (آلپ و کیگیزگلو[3]، 2007: 2). روشهای دادهکاوی یکی از روشهایی است که امروزه در مطالعات فرآیندهای هیدرولوژی و اقلیمی بسیار مورد استفاده قرار گرفتهاست و ابزار هوشمند به منظور برقراری ارتباط بین پارامترهای اقلیمی و هیدرولوژیکی است (چنگ و همکاران[4]، 2015: 87؛ رسولی و کانون[5]، 2012: 284؛ بهتچریا و سلمتین[6]، ۲۰۰۵: 381) با وجود توانمندی بالای تکنیکهای یادگیری ماشین به نظر میرسد پایهی زمانی انواع دادههای رسوب رفتار متفاوتی را نسبت به مدلهای شبیهسازی خود نشان میدهند. تا کنون در مطالعات مختلف به بررسی و مدلسازی بار رسوبی در سریهای زمانی روزانه، ماهانه و سالانه پرداخته شده است، به طور مثال کومار و همکاران[7] (2016) از بین سریهای زمانی، دادههای روزانه را انتخاب و به برآورد بار رسوب معلق روزانه با استفاده از روشهای یادگیری ماشین پرداختند. برای این منظور، از مدلهای شبکهی عصبی مصنوعی، شبکههای عصبی تابع پایهی شعاعی، حداقل ماشینبردار پشتیبانی مربع، رگرسیون چند خطی و مدل درخت تصمیم، مانند طبقهبندی و درخت رگرسیون و مدل درختی M5 استفاده گردید. نتایج نشان داد که تمام مدلها قادر به شبیهسازی رسوب معلق میباشند و مدل حداقل ماشینبردار پشتیبانی مربع با دقت 89/0 به خوبی قادر به مدلسازی رسوب معلق روزانه میباشد.
ذونعمت کرمانی و همکاران[8] (2016) به مدلسازی غلظت رسوب معلق روزانه براساس مدلهای داده محور پرداختند. آنان نیز در مطالعهی خود مدلهای شبکهی عصبی مصنوعی، ماشینبردار رگرسیون و منحنی سنجهی رسوب مورد مقایسه قرار دادند. نتایج براساس معیارهای ارزیابی در این مدلها بیانگر آن بود که مدل ماشینبردار رگرسیون با تابع پایهی شعاعی دارای عملکرد مناسبتری بهمنظور پیشبینی بار رسوبی معلق میباشد.
در مطالعهای دیگر لفدنی و همکاران[9](2013) از شبکههای عصبی مصنوعی و ماشین بردار پشتیبان به منظور پیشبینی بار رسوب معلق روزانه استفاده نمودند. نتایج به دست آمده نشان داد که مدل ماشینبردار رگرسیون با استفاده از آزمون گاما دارای عملکرد مناسبی در پیشبینی بار رسوبی معلق میباشد. مدلسازی رسوبات معلق ماهانه نیز مطالعهی یوسفی و پورشرعیاتی (1392) مورد بررسی قرار گرفت. آنان با بررسی سه شبکه Fitting و Forward Back prop Cascade و پیشخور پس انتشار خطا به تعیین الگوریتم مناسب جهت برآورد بار معلق پرداختند. آنان در نتایج خود بیان نمودهاند که از میان سه شبکه، شبکهی عصبی Fitting نتایج بهتری را ارائه دادهاست.
مقایسهسریهای زمانی و فصلی در مطالعهی کیاء و عمادی (1392) مورد توجه قرار گرفت. نتایج مدل سالانه نشان داد که این مدل نسبت به سایر حالات به مدل مناسب این ایستگاه نزدیکتر است، البته در این مطالعه تفکیک زمانی فصلی دادهها به دو فصل سیلابی و غیرسیلابی نشان داد که با تفکیک دادهها مدلها نتایج بهتری را ارائه مینمایند.
آنچه مشخص است این است که دقت مدلها در پیشبینی بار رسوبی در سریهای زمانی با توجه به حجم دادهها متفاوت بوده و مدل بر روی هر یک از سریهای زمانی نتایج متفاوتی را ارائه میدهد. در این مطالعه با تهیهی دادههای دبی و رسوب معلق مربوط به سریهایهای زمانی روزانه، ماهانه و سالانه در یک حوضهی ثابت به بررسی میزان دقت مدلها در پیشبینی بار رسوبی معلق در سریهای زمانی روزانه، ماهانه و سالانه پرداخته شدهاست. از طرفی با توجه به گستردگی مدلهای یادگیری ماشین در این مطالعه به بررسی توانمندی هشت مدل متفاوت پرداخته شد و قابلیت آنها با استفاده از معیارهای مناسب مورد ارزیابی قرار گرفت.
مواد و روشها
معرفی منطقهی مورد مطالعه
منطقهی مطالعاتی ایستگاه هیدرومتری واقع در ایالت اوهایو میباشد. مساحت حوضه 92/72 کیلومتر مربع بوده و دورهی آماری مورد نظر از سال 1992 تا سال 2013 (21 سال) بوده که تعداد 7873 دادهی رسوب و دبی در این مدت برداشت گردیده است (USGS). متوسط دبی عبوری از این رودخانه 09/1 مترمکعب بر ثانیه و متوسط رسوب حمل شده ۹/۲۳ میلیگرم بر لیتر میباشد (شکل 1).
شکل (1) حوضه و ایستگاه مورد مطالعه واقع در ایالت اوهایو
در این مطالعه از دادههای دبی و رسوب روزانه، ماهانه و سالانه برداشت شده در ایستگاه هیدرومتری در سرشاخههای رودخانهی اوهایو استفاده شده است.
مدلهای مورد استفاده
در این مرحله دادههای آماده شده با استفاده از تکنیکها و عملیات دادهکاوی مورد کاوش قرار گرفـتند تا الگوهای مورد نظر کشف گردند. این مدلها عبارتـند از: مدلهای رگرسیون خطی، شـبکههای عصبی پیشخور پس انتشار و تابـع پایـهی شعاعی، K نزدیکترین همسایه، ماشینبردار پشتیبان، ماشینبردار پشتیبان تکاملی و مدل درخت تصمیم M5.
ـ شبکهی عصبی پس انتشار خطا
شبکهی عـصبی پس انتشار خطا حداقل شامل سـه لایـهی ورودی، خروجی و لایهی
مخفی است. هر نرون در یک لایه وزن ورودی را از لایهی قبلی دریافت کرده آن را به عنوان خروجی نرون در لایهی بعدی انتقال میدهد. هورنیک[10]، 1989: 359). نتایج شبکه با نتایج واقعی مقایسه شده و خطای شبکه توسط معادله محاسبه میشود. روند آموزش تا زمانی که خطا به مقدار قابل قبولی برسد ادامه مییابد.
رابطه (1) |
|
رابطه (2) |
|
رابطه (3) |
در این روابط : پاسخ نرون : تابع متحرک غیرخطی، : مجموع وزنهای ورودی، : نرون ورودی، : وزن هر نرون ورودی، مقدار مشاهده شده نرون : بایاس، : خطای بین مقدار مشاهداتی و پاسخ شبکه میباشد (روشنگر و پرهیزجوان، 1393: 178).
ـ شبکهی عصبی با تابع پایهی شعاعی
شبکهی عصبی تابع پایهی شعاعی به عنوان یک شبکهی سهلایه که در آن لایهی پنهان به صورت ثابت واجد تابع تبدیل غیرخطی با پارامترهای غیرقابل تنظیم است، شناخته میشود. برای هر گره، فاصلهی اقلیدسی میان مرکز و بردار ورودی به وسیلهی تابع غیرخطی که خروجی گرهها در لایهی پنهان را تخمین میزند، محاسبه میشود. سپس لایهی خروجی این نتایج را در یک نگاشت خطی ترکیب میکند.
ـ K نزدیکترین همسایه[11]
الگوریتم k نزدیکترین همسایه شامل انتخاب تعداد مشخصی از بردار دادهها و سپس باز نمونهگیری تصادفی از آن مجموعه برای شبیهسازی دورهی زمانی متعاقب یک دورهی معین میباشد. از مزایای استفاده از این الگوریتم در پیشبینیها میتوان به اجرای ساده، عدم نیاز به مرحلهی تخمین پارامترها، قابلیت مدلسازی غیرخطی، مؤثر بودن و عملکرد با بازدهی بالا در برخورد با تعداد دستههای زیاد از دادهها میباشد (عزمی و عراقینژاد، ۱۳۹۱: 110).
ـ مدل درختی M5p
این مدل زیر مجموعهای از روشهای یادگیری ماشینی و دادهکاوی است. ساختار یک مدل درختی شامل ریشه، گرههای داخلی و برگ میباشد. برای اولین بار کوینلان (1992) مدل درخت تصمیم موسوم به M5 را برای پیشبینی دادههای پیوسته ارائه نمود. این مدل، بر خلاف مدلهای درخت تصمیم معمول که کلاس یا ردههای گسسته را به عنوان خروجی ارائه میکنند، یک مدل خطی چندمتغیره را برای دادهها در هر گره از مدل درختی میسازد. تشکیل ساختار مدلهای درخت تصمیمگیری شامل مراحل ایجاد درخت و هرس کردن آن است (ویتن و فرانک، 2005). معیار تقسیم برای الگوریتم مدل M5 ارزیابی انحراف معیار مقادیر کلاسی است که به عنوان کمیتی از خطا به یک گره میرسد و کاهش مورد انتظار در این خطا را به عنوان نتیجه آزمون هر صفت در آن گره محاسبه مینماید. کاهش انحراف معیار (SDR) از رابطهی (4) به دست میآید:
رابطهی (4) |
که در آن T، بیانگر یک سری نمونههایی است که به گره میرسد. Ti بیانگر نمونههایی است که i امین خروجی سری پتانسیلی را دارند و sd بیانگر انحراف معیار است (آلبرگ و همکاران، 2012: 71). به دلیل فرآیند انشعاب، دادههای قرار گرفته در گرههای فرزند، انحراف معیار کمتری نسبت به گره مادر داشته و بنابراین خالصتر هستند. پس از حداکثرسازی تمامی انشعابهای ممکن M5 صفتی را انتخاب میکند که کاهش مورد انتظار را بیشینه نماید (ظهیری و قربانی، 1392: 121).
ـ فرآیند گوسی (GP)[12]
فرآیند گوسی یک روش یادگیری ماشینی غیرپارامتری قوی برای ایجاد مدلهای احتمالگرایانه جامع از مسائل دنیای واقعی است. به طور رسمی، یک فرآیند گوسی تولید دادههایی میکند که در طول این طیف قرار دارد به طوری که هر زیرمجموعه متناهی دامنهی یک توزیع گوسی چندمتغیره را دنبال میکند.
ـ ماشینبردار پشتیبان (SVM)[13]
روش ماشینبردار پشتیبان از روشهای یادگیری ماشینی است که بر مبنای تئوری یادگیری آماری vapnik در دههی ۹۰ میلادی توسط Vapnik و همکاران ارائه شد. در ماشین بردار پشتیبان از اصول کمینه کردن ریسک ساختاری استفاده شده؛ در حالی که سایر روشها از اصول کمینه کردن تجربی بهره میبرند (نظری و همکاران[14]، 2011).
این روش بر پایهی نظریهی یادگیری محاسباتی توسعهیافته است (هانگ و چنگ[15]، 2007: 516). در حالتی که دادهها به صورت خطی به شکل رابطهی (5) قابل ارائهاند:
رابطهی (5) |
در رابطهی (5)، پارامترهای ابر صفحه هستند. اگر دادهها به صورت خطی تفکیکپذیر نباشند، رابطهی (5) به رابطهی (6) تغییر مییابد:
رابطهی (6) |
K(X,Xi)تابع کرنلی است که، برای ایجاد تابع ماشینهایی با انواعی مختلف از سطوح تصمیمگیری غیرخطی در فضای دادهها، ضربهای داخلی تولید میکند.
ـ ماشین بردار پشتیبان تکاملی (ESVM)
مدل ماشین بردار تکاملی یک استراتژی تکاملی را بهمنظور بهینهسازی به کار میبرد. در واقع این مدل یک الگوریتم تکاملی را برای حل مشکل بهینهسازی دوگانه ارائه میدهد. ESVM با تجزیه و تحلیل فرکانس از ویژگیهای انتخاب شده، یک مجموعهی کوچک از ویژگیهای مؤثر را شناسایی کرده و از این رو باعث بهبود دقت طبقهبندی میگردد (هانگ و چنگ، 2007: 517).
در مدلهای فوق، فرآیند مدلسازی بار رسوبی معلق در سریهای زمانی روزانه، ماهانه و سالانه انجام شد. بدین ترتیب که مجموعهی دادههای دبی روزانه، ماهانه و سالانه به عنوان ورودی مدل به نرمافزار رپید ماینر وارد شد و سپس مقادیر بار رسوبی معلق در هر یک از بازههای زمانی برآورد گردید.
ـ ارزیابی مدل
یک روش جایگزین برای زیرنمونهبرداری تصادفی روش Cross-Validation ست. در این روش هر رکورد دادهای یک بار در مرحله آموزش و یک بار در مرحله تست استفاده میگردد. حالت عمومیتر این روش k-fold cross-validation نام دارد که آن مقدار k برابر N، یعنی برابر اندازه مجموعه دادههای اولیه قرار میگیرد. این حالت Leave-One-Out نامیده میشود. مزیت این حالت در آن است که از بیشترین تعداد دادههای ممکن برای مرحلهی آموزش استفاده میکند. (صنیعی آباده و همکاران، ۱۳۹۳: 192). در این مطالعه نیز بهمنظور ارزیابی مدل از روش Leave-One-Out استفاده شد.
به منظور ارزیابی نتایج از معیارهای ارزیابیRoot mean squared error (RMSE) و Correlation coefficient (r) استفاده شد.
رابطهی (7) |
|
رابطهی (8) |
که در این معادلات oi مقادیر مشاهدهای، pi دادههای پیشبینی شده، میانگین دادههای پیشبینی شده، میانگین دادههای مشاهده شده، تعداد دادهها میباشد. با توجه به مقادیر بار رسوبی واقعی و مقادیر پیشبینی شده توسط مدلهای اعمال شده فرآیند ارزیابی مدلها صورت گرفت.
بحث و نتایج
خلاصهی آماری دادههای دبی و رسوب در مقیاس زمانی مختلف در جدول (۱) ارائه شده است.
جدول (۱) خلاصهی آماری دادههای دبی (فوت مکعب بر ثانیه) و رسوب (میلیگرم بر لیتر)
ضریب تغییرات |
انحراف از معیار |
میانگین |
حداکثر |
حداقل |
نوع داده |
سری زمانی |
3/۲ |
6/۹4 |
6/41 |
۲۰۰۰ |
01/0 |
دبی |
روزانه |
1/۲ |
3/۵2 |
4/۲5 |
۸۱۹ |
4/۰ |
رسوب |
|
0/۱ |
4/۴۳ |
7/۳۹ |
۴/۳۰۷ |
005/0 |
دبی |
ماهانه |
۸0/۰ |
۵/۱۹ |
4/۲۴ |
۱۰۰ |
۷/۰ |
رسوب |
|
3/۰ |
5/۱۳ |
0/۳9 |
9/۷۰ |
۵/۱۸ |
دبی |
سالانه |
3/۰ |
1/۷ |
3/24 |
8/۴۲ |
۹/۱۲ |
رسوب |
نتایج کلی حاکی از توانمندی تمامی مدلها در پیشبینی بار رسوبی معلق است. این در جالی است که مدل K نزدیکترین همسایه با مقدار 5/28=RMSE و 83/0r= و پس از آن مدل درختی M5 بهترین مدل پیشبینی بار رسوبی معلق روزانه میباشد (شکلهای 2 و 3).
|
شکل (2) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق روزانه: توسط مدلهای الف: شبکه عصبی مصنوعی پس انتشار خطا، ب: شبکهی عصبی تابع پایهی شعاعی، ج: رگرسیون خطی، د: k نزدیکترین همسایه
|
شکل (3) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق روزانه: توسط مدلهای الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشینبردار پشتیبان، د: ماشینبردار پشتیبان تکاملی
نتایج اعمال مدلها بر روی سری زمانی ماهانه نیز نشان داد که مدل فرآیند گوسی با مقدار8/7= RMSE و 91/0R= و K نزدیکترین همسایه با مقدار با مقدار 1/=8RMSE و 91/0 R=دارای بیشترین دقت در پیشبینی بار رسوب معلق ماهانه میباشد. همچنین نتایج نشان میدهد که دقت و همبستگی تمامی مدلها نیز نسبت به سری روزانه افزایش پیدا کرده است. مقادیر پراکنش دادههای واقعی و پیشبینی شده دادههای ماهانه و نتایج ارزیابی انواع مدلها در شکلهای 4 و 5 نشان داده شده است.
|
شکل (4) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق ماهانه: توسط مدلهای الف: شبکهی عصبی مصنوعی پس انتشار خطا، ب: شبکهی عصبی تابع پایهی شعاعی، ج: رگرسیون خطی، د: k نزدیکترین همسایه
|
شکل (5) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق ماهانه: توسط مدلهای الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشینبردار پشتیبان، د: ماشینبردار پشتیبان تکاملی
همچنین در بررسی مدلها در دادههای سالانه نتایج نشان داد که مدل فرآیند گوسی و K نزدیکترین همسایه با مقادیر RMSE به ترتیب 7/2 و 8/3 دارای بیشترین دقت در پیشبینی بار رسوب سالانه میباشد. مقادیر پراکنش دادههای واقعی و پیشبینی شده دادههای سالانه و نتایج ارزیابی انواع مدلها در شکلهای 6 و 7 نشان داده شده است.
|
شکل (6) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق سالانه: توسط مدلهای الف: شبکهی عصبی مصنوعی پس انتشار خطا،ب: شبکهی عصبی تابع پایهی شعاعی، ج: رگرسیون خطی، د: k نزدیکترین همسایه
|
شکل (7) نمودار پراکندگی مقادیر مشاهده شده و پیشبینی شده بار رسوب معلق ماهانه: توسط مدلهای الف: فرآیند گوسی، ب: درخت تصمیم M5، ج: ماشینبردار پشتیبان، د: ماشینبردار پشتیبان تکاملی
بررسی مقادیر شاخصهای ارزیابی در هر سه سری مجموعه دادهها بیانگر آنست که میزان دقت مدلها در پیشبینی دادههای سالانه بیشتر بوده و در سری دادههای روزانه مدلها از دقت کمتری برخوردار بودهاند. نمودار مقایسهی شاخص ارزیابی RMSE در شکل (8) ارائه شده است.
شکل (8) مقادیر RMSE مدلهای مختلف بر روی دادههای رسوب معلق روزانه، ماهانه و سالانه
نتیجهگیری
سریهای زمانی مختلف با توجه به ماهیتشان نیازمند مدلسازی خاص خود هستند. در این پژوهش به منظور بررسی و ارزیابی کارایی مدلها در پیشبینی در سریهای زمانی مختلف از هشت مدل مختلف استفاده شد. از آنجا که بالا بودن قدرت جریان موجب حمل رسوب بیشتر است لذا در این مطالعه از پارامتر دبی متناظر به منظور مدلسازی بار معلق استفاده شد. با اعمال مدلهای دادهکاوی بر دادههای رسوب روزانه مشخص شد که مدلهای k نزدیکترین همسایه و مدل درختی M5، به ترتیب با مقادیر RMSE 5/28 و 7/29 بیشترین دقت را دارند.
در بررسی سری دادههای ماهانه رفتار مدل متفاوت بوده به طوری که در این سری زمانی مدلهای فرآیند گوسی و k نزدیکترین همسایه با مقادیر RMSE به ترتیب 8/7 و 1/8 دارای بیشترین دقت بودند. در مجموع دقت مدلها نسبت به سری روزانه بیشتر بوده است. اعمال مدلها بر روی دادههای سالانه نیز نشان داد که مدلهای فرآیند گوسی و k نزدیکترین همسایه با مقادیر RMSE 7/2 و 8/3 دارای دقت بالاتری میباشند.
در مجموع بررسی مقادیر دقت در سریهای زمانی مختلف نشان داد که دقت مدلها بر روی دادههای سالانه نسبت به سایر سریهای زمانی افزایش یافته است. مطالعات کیاء و عمادی (1392) نیز در تأیید این نتایج است. یکی از دلایل این امر را میتوان میانگینگیری دادهها دانست زیرا با میانگینگیری تأثیر دبیهای پائین کمتر شده و در دبیهای بالا نیز خطای برآورد کمتری دیده میشود. بنابراین پیشبینی دادههای روزانه با توجه به بررسی دادهها در مقیاس کوچکتر و همچنین پراکندگی وسیع دادهها نیاز به دقت بالاتری در ساختار مدل خواهد داشت.
[1]- Cigizoglu
[2]- Ozturk et al.,
[3]- Alp & Cigizoglu
[4]- Chang et al.,
[5]- Rasouli & Cannon
[6]- Bhattacharya & and Solomatine
[7]- Kumar et al.,
[8]- Zounemat-Kermani et al.,
[9]- Lafdani et al.,
[10]- Hornik
[11]- K Nearest Neighbor
[12]- Gaussian Process
[13]- Support Vector Machine
[14]- Nazari et al.,
[15]- Huang & Chang