Monday 17 July 2017

Rmse Moving Average


Penyebaran spreadsheet penyesuaian musiman dan eksponensial smoothing Sangat mudah melakukan penyesuaian musiman dan model pemulusan eksponensial yang sesuai dengan Excel. Gambar layar dan grafik di bawah diambil dari spreadsheet yang telah disiapkan untuk menggambarkan penyesuaian musiman multiplikatif dan pemulusan eksponensial linier pada data penjualan kuartalan berikut dari Outboard Marine: Untuk mendapatkan salinan file spreadsheet itu sendiri, klik di sini. Versi pemulusan eksponensial linier yang akan digunakan di sini untuk tujuan demonstrasi adalah versi Brown8217s, hanya karena dapat diimplementasikan dengan satu kolom formula dan hanya ada satu smoothing constant yang bisa dioptimalkan. Biasanya lebih baik menggunakan versi Holt8217 yang memiliki konstanta pemulusan terpisah untuk tingkat dan tren. Proses peramalan berjalan sebagai berikut: (i) pertama data disesuaikan secara musiman (ii) maka prakiraan dihasilkan untuk data penyesuaian musiman melalui pemulusan eksponensial linier dan (iii) perkiraan musim yang disesuaikan secara musiman adalah kuotimasi untuk mendapatkan perkiraan untuk rangkaian aslinya. . Proses penyesuaian musiman dilakukan di kolom D sampai G. Langkah pertama dalam penyesuaian musiman adalah menghitung rata-rata pergerakan terpusat (dilakukan di kolom D). Hal ini dapat dilakukan dengan menghitung rata-rata dua rata-rata satu tahun yang diimbangi dengan satu periode relatif terhadap satu sama lain. (Kombinasi dua rata-rata offset daripada rata-rata tunggal diperlukan untuk tujuan pemetikan saat jumlah musim genap.) Langkah selanjutnya adalah menghitung rasio terhadap rata-rata pergerakan - i. Data asli dibagi dengan rata-rata bergerak pada setiap periode - yang dilakukan di sini pada kolom E. (Ini juga disebut komponen siklus-trenwot dari pola, sejauh kecenderungan dan efek siklus bisnis dapat dianggap sebagai semua hal Tetap setelah rata-rata selama satu tahun penuh data. Tentu saja, perubahan bulan ke bulan yang bukan karena musiman dapat ditentukan oleh banyak faktor lainnya, namun rata-rata 12 bulan di atas mereka untuk sebagian besar.) Indeks musiman diperkirakan untuk setiap musim dihitung dengan rata-rata pertama untuk semua rasio untuk musim tertentu, yang dilakukan di sel G3-G6 menggunakan formula AVERAGEIF. Rasio rata-rata kemudian dikompres sehingga jumlahnya mencapai 100 kali jumlah periode dalam satu musim, atau 400 dalam kasus ini, yang dilakukan pada sel H3-H6. Di bawah kolom F, formula VLOOKUP digunakan untuk memasukkan nilai indeks musiman yang sesuai di setiap baris tabel data, sesuai dengan kuartal tahun yang diwakilinya. Rata-rata pergerakan terpusat dan data yang disesuaikan musiman akhirnya terlihat seperti ini: Perhatikan bahwa rata-rata bergerak biasanya terlihat seperti versi yang lebih halus dari rangkaian yang disesuaikan secara musiman, dan ini lebih pendek pada kedua ujungnya. Lembar kerja lain dalam file Excel yang sama menunjukkan penerapan model smoothing eksponensial linier ke data yang disesuaikan secara musiman, dimulai pada kolom G. Nilai untuk konstanta pemulusan (alpha) dimasukkan di atas kolom perkiraan (di sini, di sel H9) dan Untuk kenyamanan itu diberi nama kisaran quotAlpha. quot (Nama tersebut diberikan dengan menggunakan perintah quotInsertNameCreatequot.) Model LES diinisialisasi dengan menetapkan dua prakiraan pertama yang sama dengan nilai sebenarnya dari seri yang disesuaikan secara musiman. Rumus yang digunakan di sini untuk perkiraan LES adalah bentuk rekursif tunggal model Brown8217s: Formula ini dimasukkan ke dalam sel yang sesuai dengan periode ketiga (di sini, sel H15) dan disalin dari sana. Perhatikan bahwa perkiraan LES untuk periode saat ini mengacu pada dua observasi sebelumnya dan dua kesalahan perkiraan sebelumnya, serta nilai alpha. Dengan demikian, rumus peramalan pada baris 15 hanya mengacu pada data yang tersedia pada baris 14 dan sebelumnya. (Tentu saja, jika kita ingin menggunakan yang sederhana daripada pemulusan eksponensial linier, kita bisa mengganti formula SES di sini sebagai gantinya. Kita juga bisa menggunakan model LES Holt8217s daripada Brown8217s, yang memerlukan dua kolom rumus untuk menghitung tingkat dan tren. Yang digunakan dalam ramalan.) Kesalahan dihitung di kolom berikutnya (di sini, kolom J) dengan mengurangi perkiraan dari nilai sebenarnya. Kesalahan kuadrat rata-rata akar dihitung sebagai akar kuadrat dari varians kesalahan ditambah kuadrat mean. (Berikut ini dari identitas matematis: MSE VARIANCE (error) (RATA-RATA (kesalahan)) 2.) Dalam menghitung mean dan varians dari kesalahan dalam formula ini, dua periode pertama dikeluarkan karena model tidak benar-benar mulai meramalkan sampai Periode ketiga (baris 15 di spreadsheet). Nilai alfa yang optimal dapat ditemukan baik dengan mengubah alpha secara manual sampai RMSE minimum ditemukan, atau Anda dapat menggunakan quotSolverquot untuk melakukan minimisasi yang tepat. Nilai alfa yang ditemukan Solver ditunjukkan di sini (alpha0.471). Biasanya ide bagus untuk merencanakan kesalahan model (dalam unit yang diubah) dan juga untuk menghitung dan merencanakan autokorelasi mereka pada kelambatan hingga satu musim. Berikut adalah rangkaian rangkaian waktu dari kesalahan (yang disesuaikan secara musiman): Autokorelasi kesalahan dihitung dengan menggunakan fungsi CORREL () untuk menghitung korelasi kesalahan dengan sendirinya yang tertinggal oleh satu atau beberapa periode - rincian ditampilkan dalam model spreadsheet . Berikut adalah sebidang autocorrelations dari kesalahan pada lima kelambatan pertama: Autokorelasi pada lags 1 sampai 3 sangat mendekati nol, namun lonjakan pada lag 4 (yang nilainya 0,35) sedikit merepotkan - ini menunjukkan bahwa Proses penyesuaian musiman belum sepenuhnya berhasil. Namun, sebenarnya hanya sedikit signifikan. 95 pita signifikan untuk menguji apakah autokorelasi berbeda secara signifikan dari nol kira-kira plus-atau-minus 2SQRT (n-k), di mana n adalah ukuran sampel dan k adalah lag. Di sini n adalah 38 dan k bervariasi dari 1 sampai 5, jadi kuadrat-akar-of-n-minus-k adalah sekitar 6 untuk semua itu, dan karenanya batas untuk menguji signifikansi statistik penyimpangan dari nol kira-kira plus - Atau-minus 26, atau 0,33. Jika Anda memvariasikan nilai alfa dengan tangan dalam model Excel ini, Anda dapat mengamati pengaruhnya pada deret waktu dan plot autokorelasi dari kesalahan, serta pada kesalahan akar-mean-kuadrat, yang akan digambarkan di bawah ini. Di bagian bawah spreadsheet, rumus peramalan adalah quotbootstrappedquot ke masa depan dengan hanya mengganti perkiraan untuk nilai aktual pada titik di mana data aktual habis - yaitu. Dimana quotthe futurequot dimulai. (Dengan kata lain, di setiap sel di mana nilai data masa depan akan terjadi, referensi sel dimasukkan yang mengarah ke perkiraan yang dibuat untuk periode itu.) Semua rumus lainnya hanya disalin dari atas: Perhatikan bahwa kesalahan untuk perkiraan Masa depan semuanya dihitung menjadi nol. Ini tidak berarti kesalahan sebenarnya akan menjadi nol, namun ini hanya mencerminkan fakta bahwa untuk tujuan prediksi, kita mengasumsikan bahwa data masa depan akan sama dengan perkiraan rata-rata. Perkiraan LES yang dihasilkan untuk data penyesuaian musiman terlihat seperti ini: Dengan nilai alpha tertentu ini, yang optimal untuk prediksi satu periode di depan, tren yang diproyeksikan sedikit ke atas, yang mencerminkan tren lokal yang diamati selama 2 tahun terakhir. Atau lebih. Untuk nilai alpha lainnya, proyeksi tren yang sangat berbeda bisa didapat. Biasanya ide bagus untuk melihat apa yang terjadi pada proyeksi tren jangka panjang ketika alfa bervariasi, karena nilai yang terbaik untuk peramalan jangka pendek tidak akan menjadi nilai terbaik untuk memprediksi masa depan yang lebih jauh. Sebagai contoh, berikut ini adalah hasil yang diperoleh jika nilai alpha diatur secara manual menjadi 0,25: Tren jangka panjang yang diproyeksikan sekarang negatif daripada positif Dengan nilai alpha yang lebih kecil, model ini menempatkan bobot lebih pada data lama di Perkiraan tingkat dan tren saat ini, dan perkiraan jangka panjangnya mencerminkan tren penurunan yang diamati selama 5 tahun terakhir daripada tren kenaikan yang lebih baru. Bagan ini juga secara jelas mengilustrasikan bagaimana model dengan nilai alpha yang lebih kecil lebih lambat untuk merespons quotturning pointsquot dalam data dan oleh karena itu cenderung membuat kesalahan dari tanda yang sama untuk banyak periode berturut-turut. Kesalahan perkiraan 1 langkahnya lebih besar rata-rata dibandingkan yang diperoleh sebelumnya (RMSE 34,4 bukan 27,4) dan autokorelasi positif sangat positif. Autokorelasi lag-1 sebesar 0,56 sangat melebihi nilai 0,33 yang dihitung di atas untuk penyimpangan signifikan secara statistik dari nol. Sebagai alternatif untuk menurunkan nilai alpha dalam rangka memperkenalkan lebih banyak konservatisme ke dalam ramalan jangka panjang, faktor perendaman shortdown cenderung ditambahkan ke model untuk membuat tren yang diproyeksikan merata setelah beberapa periode. Langkah terakhir dalam membangun model peramalan adalah untuk memperkirakan tingkat perkiraan LES dengan memperbanyaknya dengan indeks musiman yang sesuai. Dengan demikian, ramalan yang direvisi di kolom I hanyalah produk dari indeks musiman di kolom F dan perkiraan LES musiman yang disesuaikan di kolom H. Hal ini relatif mudah untuk menghitung interval kepercayaan untuk perkiraan satu langkah yang dibuat oleh model ini: pertama Menghitung RMSE (kesalahan akar-mean-kuadrat, yang merupakan akar kuadrat dari MSE) dan kemudian menghitung interval kepercayaan untuk ramalan musiman disesuaikan dengan menambahkan dan mengurangkan dua kali RMSE. (Secara umum interval kepercayaan 95 untuk perkiraan satu periode di depan kira-kira sama dengan perkiraan titik ditambah atau minus dua kali perkiraan deviasi standar dari kesalahan perkiraan, dengan asumsi distribusi kesalahan kira-kira normal dan ukuran sampel Cukup besar, katakanlah, 20 atau lebih. Berikut ini, RMSE daripada standar deviasi sampel dari kesalahan adalah perkiraan terbaik dari standar deviasi kesalahan perkiraan di masa depan karena diperlukan variasi yang bias dan juga variasi acak.) Batas kepercayaan Untuk perkiraan musiman disesuaikan kemudian reseasonalized. Bersama dengan perkiraan, dengan mengalikannya dengan indeks musiman yang sesuai. Dalam hal ini RMSE sama dengan 27,4 dan perkiraan penyesuaian musiman untuk periode depan pertama (Des-93) adalah 273,2. Sehingga interval kepercayaan 95 yang disesuaikan musiman adalah dari 273,2-227,4 218,4 sampai 273,2227,4 328,0. Mengalikan batas ini dengan indeks musiman Decembers sebesar 68,61. Kita memperoleh batas kepercayaan bawah dan atas 149,8 dan 225,0 sekitar perkiraan titik 93 Desember 187,4. Batas keyakinan untuk perkiraan lebih dari satu periode ke depan umumnya akan melebar seiring perkiraan horizon meningkat, karena ketidakpastian tentang tingkat dan kecenderungan serta faktor musiman, namun sulit untuk menghitungnya secara umum dengan metode analitik. (Cara yang tepat untuk menghitung batas kepercayaan untuk perkiraan LES adalah dengan menggunakan teori ARIMA, namun ketidakpastian dalam indeks musiman adalah masalah lain.) Jika Anda menginginkan interval kepercayaan yang realistis untuk perkiraan lebih dari satu periode di depan, mengambil semua sumber Dengan mempertimbangkan kesalahan, taruhan terbaik Anda adalah menggunakan metode empiris: misalnya, untuk mendapatkan interval kepercayaan untuk perkiraan 2 langkah di depan, Anda bisa membuat kolom lain di spreadsheet untuk menghitung perkiraan 2 langkah untuk setiap periode ( Dengan melakukan bootstrap perkiraan satu langkah di depan). Kemudian hitung RMSE dari perkiraan kesalahan 2 langkah di depan dan gunakan ini sebagai dasar untuk interval kepercayaan 2 langkah. Model rata-rata dan pemulusan eksponensial Sebagai langkah pertama dalam bergerak melampaui model mean, model jalan acak, dan Model tren linier, pola nonseasonal dan tren dapat diekstrapolasikan dengan menggunakan model rata-rata bergerak atau pemulusan. Asumsi dasar di balik model rata-rata dan perataan adalah bahwa deret waktu secara lokal bersifat stasioner dengan mean yang bervariasi secara perlahan. Oleh karena itu, kita mengambil rata-rata bergerak (lokal) untuk memperkirakan nilai rata-rata saat ini dan kemudian menggunakannya sebagai perkiraan untuk waktu dekat. Hal ini dapat dianggap sebagai kompromi antara model rata-rata dan model random-walk-without-drift-model. Strategi yang sama dapat digunakan untuk memperkirakan dan mengekstrapolasikan tren lokal. Rata-rata bergerak sering disebut versi quotmoothedquot dari rangkaian aslinya karena rata-rata jangka pendek memiliki efek menghaluskan benjolan pada rangkaian aslinya. Dengan menyesuaikan tingkat smoothing (lebar rata-rata bergerak), kita dapat berharap untuk mencapai keseimbangan optimal antara kinerja model jalan rata-rata dan acak. Jenis model rata - rata yang paling sederhana adalah. Rata-rata Bergerak Sederhana (rata-rata tertimbang): Perkiraan untuk nilai Y pada waktu t1 yang dilakukan pada waktu t sama dengan rata-rata sederhana dari pengamatan m terakhir: (Disini dan di tempat lain saya akan menggunakan simbol 8220Y-hat8221 untuk berdiri Untuk ramalan dari deret waktu yang dibuat Y pada tanggal sedini mungkin dengan model yang diberikan.) Rata-rata ini dipusatkan pada periode t - (m1) 2, yang menyiratkan bahwa perkiraan mean lokal cenderung tertinggal dari yang sebenarnya. Nilai mean lokal sekitar (m1) 2 periode. Jadi, kita katakan bahwa rata-rata usia data dalam rata-rata pergerakan sederhana adalah (m1) 2 relatif terhadap periode dimana ramalan dihitung: ini adalah jumlah waktu dimana perkiraan akan cenderung tertinggal dari titik balik data. . Misalnya, jika Anda rata-rata mendapatkan 5 nilai terakhir, prakiraan akan sekitar 3 periode terlambat dalam menanggapi titik balik. Perhatikan bahwa jika m1, model simple moving average (SMA) sama dengan model random walk (tanpa pertumbuhan). Jika m sangat besar (sebanding dengan panjang periode estimasi), model SMA setara dengan model rata-rata. Seperti parameter model peramalan lainnya, biasanya menyesuaikan nilai k untuk memperoleh kuotil kuotil terbaik ke data, yaitu kesalahan perkiraan terkecil. Berikut adalah contoh rangkaian yang tampaknya menunjukkan fluktuasi acak di sekitar rata-rata yang bervariasi secara perlahan. Pertama, mari mencoba menyesuaikannya dengan model jalan acak, yang setara dengan rata-rata bergerak sederhana dari 1 istilah: Model jalan acak merespons dengan sangat cepat terhadap perubahan dalam rangkaian, namun dengan begitu, ia menggunakan banyak kuotimasi dalam Data (fluktuasi acak) serta quotsignalquot (mean lokal). Jika kita mencoba rata-rata bergerak sederhana dari 5 istilah, kita mendapatkan perkiraan perkiraan yang tampak lebih halus: Rata-rata pergerakan sederhana 5 langkah menghasilkan kesalahan yang jauh lebih kecil daripada model jalan acak dalam kasus ini. Usia rata-rata data dalam ramalan ini adalah 3 ((51) 2), sehingga cenderung tertinggal beberapa titik balik sekitar tiga periode. (Misalnya, penurunan tampaknya terjadi pada periode 21, namun prakiraan tidak berbalik sampai beberapa periode kemudian.) Perhatikan bahwa perkiraan jangka panjang dari model SMA adalah garis lurus horizontal, seperti pada pergerakan acak. model. Dengan demikian, model SMA mengasumsikan bahwa tidak ada kecenderungan dalam data. Namun, sedangkan prakiraan dari model jalan acak sama dengan nilai pengamatan terakhir, prakiraan dari model SMA sama dengan rata-rata tertimbang nilai terakhir. Batas kepercayaan yang dihitung oleh Statgraf untuk perkiraan jangka panjang rata-rata bergerak sederhana tidak semakin luas seiring dengan meningkatnya horizon peramalan. Ini jelas tidak benar Sayangnya, tidak ada teori statistik yang mendasari yang memberi tahu kita bagaimana interval kepercayaan harus melebar untuk model ini. Namun, tidak terlalu sulit untuk menghitung perkiraan empiris batas kepercayaan untuk perkiraan horizon yang lebih panjang. Misalnya, Anda bisa membuat spreadsheet di mana model SMA akan digunakan untuk meramalkan 2 langkah di depan, 3 langkah di depan, dan lain-lain dalam sampel data historis. Anda kemudian bisa menghitung penyimpangan standar sampel dari kesalahan pada setiap horison perkiraan, dan kemudian membangun interval kepercayaan untuk perkiraan jangka panjang dengan menambahkan dan mengurangi kelipatan dari deviasi standar yang sesuai. Jika kita mencoba rata-rata bergerak sederhana 9-istilah, kita mendapatkan perkiraan yang lebih halus dan lebih banyak efek lagging: Usia rata-rata sekarang adalah 5 periode ((91) 2). Jika kita mengambil moving average 19-term, rata-rata usia meningkat menjadi 10: Perhatikan bahwa, memang, ramalannya sekarang tertinggal dari titik balik sekitar 10 periode. Jumlah smoothing yang terbaik untuk seri ini Berikut adalah tabel yang membandingkan statistik kesalahan mereka, juga termasuk rata-rata 3-rata: Model C, rata-rata pergerakan 5-term, menghasilkan nilai RMSE terendah dengan margin kecil di atas 3 - term dan rata-rata 9-istilah, dan statistik lainnya hampir sama. Jadi, di antara model dengan statistik kesalahan yang sangat mirip, kita bisa memilih apakah kita lebih memilih sedikit responsif atau sedikit lebih kehalusan dalam prakiraan. (Lihat ke atas halaman.) Browns Simple Exponential Smoothing (rata-rata bergerak rata-rata tertimbang) Model rata-rata bergerak sederhana yang dijelaskan di atas memiliki properti yang tidak diinginkan sehingga memperlakukan pengamatan terakhir secara sama dan sama sekali mengabaikan semua pengamatan sebelumnya. Secara intuitif, data masa lalu harus didiskontokan secara lebih bertahap - misalnya, pengamatan terbaru harus mendapatkan bobot sedikit lebih besar dari yang terakhir, dan yang ke-2 terakhir harus mendapatkan bobot sedikit lebih banyak dari yang ke-3 terakhir, dan Begitu seterusnya Model pemulusan eksponensial sederhana (SES) menyelesaikan hal ini. Misalkan 945 menunjukkan kuototmothing constantquot (angka antara 0 dan 1). Salah satu cara untuk menulis model adalah dengan menentukan rangkaian L yang mewakili tingkat saat ini (yaitu nilai rata-rata lokal) dari seri yang diperkirakan dari data sampai saat ini. Nilai L pada waktu t dihitung secara rekursif dari nilai sebelumnya seperti ini: Dengan demikian, nilai smoothed saat ini adalah interpolasi antara nilai smoothed sebelumnya dan pengamatan saat ini, di mana 945 mengendalikan kedekatan nilai interpolasi dengan yang paling baru. pengamatan. Perkiraan untuk periode berikutnya hanyalah nilai merapikan saat ini: Secara ekivalen, kita dapat mengekspresikan ramalan berikutnya secara langsung dalam perkiraan sebelumnya dan pengamatan sebelumnya, dengan versi setara berikut. Pada versi pertama, ramalan tersebut merupakan interpolasi antara perkiraan sebelumnya dan pengamatan sebelumnya: Pada versi kedua, perkiraan berikutnya diperoleh dengan menyesuaikan perkiraan sebelumnya ke arah kesalahan sebelumnya dengan jumlah pecahan 945. adalah kesalahan yang dilakukan pada Waktu t. Pada versi ketiga, perkiraan tersebut adalah rata-rata bergerak tertimbang secara eksponensial (yaitu diskon) dengan faktor diskonto 1- 945: Versi perumusan rumus peramalan adalah yang paling mudah digunakan jika Anda menerapkan model pada spreadsheet: sesuai dengan Sel tunggal dan berisi referensi sel yang mengarah ke perkiraan sebelumnya, pengamatan sebelumnya, dan sel dimana nilai 945 disimpan. Perhatikan bahwa jika 945 1, model SES setara dengan model jalan acak (tanpa pertumbuhan). Jika 945 0, model SES setara dengan model rata-rata, dengan asumsi bahwa nilai smoothing pertama ditetapkan sama dengan mean. (Kembali ke atas halaman.) Usia rata-rata data dalam perkiraan pemulusan eksponensial sederhana adalah 1 945 relatif terhadap periode dimana ramalan dihitung. (Ini tidak seharusnya jelas, namun dengan mudah dapat ditunjukkan dengan mengevaluasi rangkaian tak terbatas.) Oleh karena itu, perkiraan rata-rata bergerak sederhana cenderung tertinggal dari titik balik sekitar 1 945 periode. Misalnya, ketika 945 0,5 lag adalah 2 periode ketika 945 0,2 lag adalah 5 periode ketika 945 0,1 lag adalah 10 periode, dan seterusnya. Untuk usia rata-rata tertentu (yaitu jumlah lag), ramalan eksponensial eksponensial sederhana (SES) agak lebih unggul daripada ramalan rata-rata bergerak sederhana karena menempatkan bobot yang relatif lebih tinggi pada pengamatan terakhir - i. Ini sedikit lebih responsif terhadap perubahan yang terjadi di masa lalu. Sebagai contoh, model SMA dengan 9 istilah dan model SES dengan 945 0,2 keduanya memiliki usia rata-rata 5 untuk data dalam perkiraan mereka, namun model SES memberi bobot lebih besar pada 3 nilai terakhir daripada model SMA dan pada Pada saat yang sama, hal itu sama sekali tidak sesuai dengan nilai lebih dari 9 periode, seperti yang ditunjukkan pada tabel ini: Keuntungan penting lain dari model SES dibandingkan model SMA adalah model SES menggunakan parameter pemulusan yang terus menerus bervariasi, sehingga mudah dioptimalkan. Dengan menggunakan algoritma quotsolverquot untuk meminimalkan kesalahan kuadrat rata-rata. Nilai optimal 945 dalam model SES untuk seri ini ternyata adalah 0,2961, seperti yang ditunjukkan di sini: Usia rata-rata data dalam ramalan ini adalah 10.2961 3,4 periode, yang serupa dengan rata-rata pergerakan sederhana 6-istilah. Perkiraan jangka panjang dari model SES adalah garis lurus horisontal. Seperti pada model SMA dan model jalan acak tanpa pertumbuhan. Namun, perhatikan bahwa interval kepercayaan yang dihitung oleh Statgraphics sekarang berbeda dengan mode yang tampak wajar, dan secara substansial lebih sempit daripada interval kepercayaan untuk model perjalanan acak. Model SES mengasumsikan bahwa seri ini agak dapat diprediksi daripada model acak berjalan. Model SES sebenarnya adalah kasus khusus model ARIMA. Sehingga teori statistik model ARIMA memberikan dasar yang kuat untuk menghitung interval kepercayaan untuk model SES. Secara khusus, model SES adalah model ARIMA dengan satu perbedaan nonseasonal, MA (1), dan tidak ada istilah konstan. Atau dikenal sebagai model quotARIMA (0,1,1) tanpa constantquot. Koefisien MA (1) pada model ARIMA sesuai dengan kuantitas 1- 945 pada model SES. Misalnya, jika Anda memasukkan model ARIMA (0,1,1) tanpa konstan pada rangkaian yang dianalisis di sini, koefisien MA (0) diperkirakan berubah menjadi 0,7029, yang hampir persis satu minus 0,2961. Hal ini dimungkinkan untuk menambahkan asumsi tren linear konstan non-nol ke model SES. Untuk melakukan ini, cukup tentukan model ARIMA dengan satu perbedaan nonseasonal dan MA (1) dengan konstan, yaitu model ARIMA (0,1,1) dengan konstan. Perkiraan jangka panjang kemudian akan memiliki tren yang sama dengan tren rata-rata yang diamati selama periode estimasi keseluruhan. Anda tidak dapat melakukan ini bersamaan dengan penyesuaian musiman, karena pilihan penyesuaian musiman dinonaktifkan saat jenis model disetel ke ARIMA. Namun, Anda dapat menambahkan tren eksponensial jangka panjang yang konstan ke model pemulusan eksponensial sederhana (dengan atau tanpa penyesuaian musiman) dengan menggunakan opsi penyesuaian inflasi dalam prosedur Peramalan. Kecepatan quotinflationquot (persentase pertumbuhan) yang sesuai per periode dapat diperkirakan sebagai koefisien kemiringan dalam model tren linier yang sesuai dengan data yang terkait dengan transformasi logaritma alami, atau dapat didasarkan pada informasi independen lain mengenai prospek pertumbuhan jangka panjang. . (Kembali ke atas halaman.) Browns Linear (yaitu ganda) Exponential Smoothing Model SMA dan model SES mengasumsikan bahwa tidak ada kecenderungan jenis apapun dalam data (yang biasanya OK atau setidaknya tidak terlalu buruk selama 1- Prakiraan ke depan saat data relatif bising), dan mereka dapat dimodifikasi untuk menggabungkan tren linier konstan seperti yang ditunjukkan di atas. Bagaimana dengan tren jangka pendek Jika suatu seri menampilkan tingkat pertumbuhan atau pola siklus yang berbeda yang menonjol dengan jelas terhadap kebisingan, dan jika ada kebutuhan untuk meramalkan lebih dari 1 periode di depan, maka perkiraan tren lokal mungkin juga terjadi. sebuah isu. Model pemulusan eksponensial sederhana dapat digeneralisasi untuk mendapatkan model pemulusan eksponensial linear (LES) yang menghitung perkiraan lokal tingkat dan kecenderungan. Model tren waktu yang paling sederhana adalah model pemulusan eksponensial Browns linier, yang menggunakan dua seri penghalusan berbeda yang berpusat pada berbagai titik waktu. Rumus peramalan didasarkan pada ekstrapolasi garis melalui dua pusat. (Versi yang lebih canggih dari model ini, Holt8217s, dibahas di bawah ini.) Bentuk aljabar model pemulusan eksponensial linier Brown8217s, seperti model pemulusan eksponensial sederhana, dapat dinyatakan dalam sejumlah bentuk yang berbeda namun setara. Bentuk quotstandardquot model ini biasanya dinyatakan sebagai berikut: Misalkan S menunjukkan deretan sumbu tunggal yang diperoleh dengan menerapkan smoothing eksponensial sederhana ke seri Y. Artinya, nilai S pada periode t diberikan oleh: (Ingat, bahwa dengan sederhana Eksponensial smoothing, ini akan menjadi perkiraan untuk Y pada periode t1.) Kemudian, biarkan Squot menunjukkan seri merapikan ganda yang diperoleh dengan menerapkan perataan eksponensial sederhana (menggunakan yang sama 945) ke seri S: Akhirnya, perkiraan untuk Y tk. Untuk setiap kgt1, diberikan oleh: Ini menghasilkan e 1 0 (yaitu menipu sedikit, dan membiarkan perkiraan pertama sama dengan pengamatan pertama yang sebenarnya), dan e 2 Y 2 8211 Y 1. Setelah itu prakiraan dihasilkan dengan menggunakan persamaan di atas. Ini menghasilkan nilai pas yang sama seperti rumus berdasarkan S dan S jika yang terakhir dimulai dengan menggunakan S 1 S 1 Y 1. Versi model ini digunakan pada halaman berikutnya yang menggambarkan kombinasi smoothing eksponensial dengan penyesuaian musiman. Model LES Linear Exponential Smoothing Brown8217s Ls menghitung perkiraan lokal tingkat dan tren dengan menghaluskan data baru-baru ini, namun kenyataan bahwa ia melakukannya dengan parameter pemulusan tunggal menempatkan batasan pada pola data yang dapat disesuaikan: tingkat dan tren Tidak diizinkan untuk bervariasi pada tingkat independen. Model LES Holt8217s membahas masalah ini dengan memasukkan dua konstanta pemulusan, satu untuk level dan satu untuk tren. Setiap saat, seperti pada model Brown8217s, ada perkiraan L t tingkat lokal dan perkiraan T t dari tren lokal. Di sini mereka dihitung secara rekursif dari nilai Y yang diamati pada waktu t dan perkiraan tingkat dan kecenderungan sebelumnya oleh dua persamaan yang menerapkan pemulusan eksponensial kepada mereka secara terpisah. Jika perkiraan tingkat dan tren pada waktu t-1 adalah L t82091 dan T t-1. Masing, maka perkiraan untuk Y tshy yang akan dilakukan pada waktu t-1 sama dengan L t-1 T t-1. Bila nilai aktual diamati, perkiraan tingkat yang diperbarui dihitung secara rekursif dengan menginterpolasi antara Y tshy dan ramalannya, L t-1 T t-1, dengan menggunakan bobot 945 dan 1- 945. Perubahan pada tingkat perkiraan, Yaitu L t 8209 L t82091. Bisa diartikan sebagai pengukuran yang bising pada tren pada waktu t. Perkiraan tren yang diperbarui kemudian dihitung secara rekursif dengan menginterpolasi antara L t 8209 L t82091 dan perkiraan sebelumnya dari tren, T t-1. Menggunakan bobot 946 dan 1-946: Interpretasi konstanta perataan tren 946 sama dengan konstanta pemulusan tingkat 945. Model dengan nilai kecil 946 beranggapan bahwa tren hanya berubah sangat lambat seiring berjalannya waktu, sementara model dengan Lebih besar 946 berasumsi bahwa itu berubah lebih cepat. Sebuah model dengan besar 946 percaya bahwa masa depan yang jauh sangat tidak pasti, karena kesalahan dalam estimasi tren menjadi sangat penting saat meramalkan lebih dari satu periode di masa depan. (Kembali ke atas halaman.) Konstanta pemulusan 945 dan 946 dapat diperkirakan dengan cara biasa dengan meminimalkan kesalahan kuadrat rata-rata dari perkiraan satu langkah ke depan. Bila ini dilakukan di Stategaf, perkiraannya adalah 945 0,3048 dan 946 0,008. Nilai yang sangat kecil dari 946 berarti bahwa model tersebut mengasumsikan perubahan sangat sedikit dalam tren dari satu periode ke periode berikutnya, jadi pada dasarnya model ini mencoba memperkirakan tren jangka panjang. Dengan analogi dengan pengertian umur rata-rata data yang digunakan dalam memperkirakan tingkat lokal seri, rata-rata usia data yang digunakan dalam memperkirakan tren lokal sebanding dengan 1 946, meskipun tidak sama persis dengan itu. . Dalam hal ini ternyata 10.006 125. Ini adalah jumlah yang sangat tepat karena keakuratan estimasi 946 tidak benar-benar ada 3 tempat desimal, namun urutannya sama besarnya dengan ukuran sampel 100, jadi Model ini rata-rata memiliki cukup banyak sejarah dalam memperkirakan tren. Plot perkiraan di bawah ini menunjukkan bahwa model LES memperkirakan tren lokal yang sedikit lebih besar di akhir rangkaian daripada tren konstan yang diperkirakan dalam model SEStrend. Juga, nilai estimasi 945 hampir sama dengan yang diperoleh dengan cara memasang model SES dengan atau tanpa tren, jadi model ini hampir sama. Sekarang, apakah ini terlihat seperti ramalan yang masuk akal untuk model yang seharusnya memperkirakan tren lokal Jika Anda memilih plot ini, sepertinya tren lokal telah berubah ke bawah pada akhir seri Apa yang telah terjadi Parameter model ini Telah diperkirakan dengan meminimalkan kesalahan kuadrat dari perkiraan satu langkah ke depan, bukan perkiraan jangka panjang, dalam hal ini tren tidak menghasilkan banyak perbedaan. Jika semua yang Anda lihat adalah kesalahan 1 langkah maju, Anda tidak melihat gambaran tren yang lebih besar mengenai (katakanlah) 10 atau 20 periode. Agar model ini lebih selaras dengan ekstrapolasi data bola mata kami, kami dapat secara manual menyesuaikan konstanta perataan tren sehingga menggunakan garis dasar yang lebih pendek untuk estimasi tren. Misalnya, jika kita memilih menetapkan 946 0,1, maka usia rata-rata data yang digunakan dalam memperkirakan tren lokal adalah 10 periode, yang berarti bahwa kita rata-rata mengalami trend selama 20 periode terakhir. Berikut ini perkiraan plot perkiraan jika kita menetapkan 946 0,1 sambil mempertahankan 945 0,3. Ini terlihat sangat masuk akal untuk seri ini, meskipun mungkin berbahaya untuk memperkirakan tren ini lebih dari 10 periode di masa depan. Bagaimana dengan statistik kesalahan Berikut adalah perbandingan model untuk kedua model yang ditunjukkan di atas dan juga tiga model SES. Nilai optimal 945. Untuk model SES adalah sekitar 0,3, namun hasil yang serupa (dengan sedikit atau kurang responsif, masing-masing) diperoleh dengan 0,5 dan 0,2. (A) Holts linear exp. Smoothing dengan alpha 0.3048 dan beta 0.008 (B) Holts linear exp. Smoothing dengan alpha 0.3 dan beta 0,1 (C) Smoothing eksponensial sederhana dengan alpha 0.5 (D) Smoothing eksponensial sederhana dengan alpha 0.3 (E) Smoothing eksponensial sederhana dengan alpha 0.2 Statistik mereka hampir identik, jadi kita benar-benar tidak dapat membuat pilihan berdasarkan dasar Kesalahan perkiraan 1 langkah di depan sampel data. Kita harus kembali pada pertimbangan lain. Jika kita sangat percaya bahwa masuk akal untuk mendasarkan perkiraan tren saat ini pada apa yang telah terjadi selama 20 periode terakhir, kita dapat membuat kasus untuk model LES dengan 945 0,3 dan 946 0,1. Jika kita ingin bersikap agnostik tentang apakah ada tren lokal, maka salah satu model SES mungkin akan lebih mudah dijelaskan dan juga akan memberikan prakiraan tengah jalan untuk periode 5 atau 10 berikutnya. (Apa yang dimaksud dengan tren-ekstrapolasi paling baik: Bukti empiris horizontal atau linier menunjukkan bahwa, jika data telah disesuaikan (jika perlu) untuk inflasi, maka mungkin tidak bijaksana untuk melakukan ekstrapolasi linier jangka pendek Tren sangat jauh ke depan. Tren yang terbukti hari ini dapat mengendur di masa depan karena beragam penyebabnya seperti keusangan produk, persaingan yang meningkat, dan kemerosotan siklis atau kenaikan di industri. Untuk alasan ini, perataan eksponensial sederhana sering kali melakukan out-of-sample yang lebih baik daripada yang mungkin diharapkan, terlepas dari ekstrapolasi naluriah kuotriotipnya. Modifikasi tren yang teredam dari model pemulusan eksponensial linier juga sering digunakan dalam praktik untuk memperkenalkan catatan konservatisme ke dalam proyeksi trennya. Model LES teredam-tren dapat diimplementasikan sebagai kasus khusus model ARIMA, khususnya model ARIMA (1,1,2). Hal ini dimungkinkan untuk menghitung interval kepercayaan sekitar perkiraan jangka panjang yang dihasilkan oleh model pemulusan eksponensial, dengan menganggapnya sebagai kasus khusus model ARIMA. (Hati-hati: tidak semua perangkat lunak menghitung interval kepercayaan untuk model ini dengan benar.) Lebar interval kepercayaan bergantung pada (i) kesalahan RMS pada model, (ii) jenis smoothing (sederhana atau linier) (iii) nilai (S) dari konstanta pemulusan (s) dan (iv) jumlah periode di depan yang Anda peramalkan. Secara umum, interval menyebar lebih cepat saat 945 semakin besar dalam model SES dan menyebar jauh lebih cepat bila perataan linier dan bukan perataan sederhana digunakan. Topik ini dibahas lebih lanjut di bagian model ARIMA dari catatan. (Prediktif Analytics dengan Microsoft Excel: Bekerja dengan Seri Waktu Musiman Dalam Bab Ini Rata-rata Rata-rata Rata-rata Bergerak Rata-Rata Bergerak dan Rata-rata Bergerak Rata-Rata Beralih Regresi Linier dengan Vektor Kode Pemodelan Eksponensial Eksponensial Musim Dingin Model Holt-Winters Halal secara bertahap semakin rumit saat Anda memiliki rangkaian waktu yang dicirikan oleh seasonality: kecenderungan levelnya naik dan turun sesuai dengan berlalunya musim. Kami menggunakan istilah musim dalam arti yang lebih umum daripada makna sehari-harinya di tahun8217 empat musim. Dalam konteks analisis prediktif, satu musim bisa menjadi satu hari jika pola diulang setiap minggu, atau satu tahun dalam hal siklus pemilihan presiden, atau hampir di antara keduanya. Pergeseran delapan jam di rumah sakit bisa mewakili satu musim. Bab ini membahas bagaimana menguraikan deret waktu sehingga Anda dapat melihat bagaimana musimannya beroperasi terlepas dari trennya (jika ada). Seperti yang Anda harapkan dari materi dalam Bab 3 dan 4, beberapa pendekatan tersedia untuk Anda. Rata-rata Musiman Sederhana Penggunaan rata-rata musiman sederhana untuk model rangkaian waktu terkadang memberi Anda model data yang cukup kasar. Namun pendekatan ini memperhatikan musim di kumpulan data, dan teknik ini mudah dikenali dengan lebih akurat daripada teknik peramalan eksponensial sederhana saat musim hujan diucapkan. Tentu ini berfungsi sebagai pengantar yang berguna untuk beberapa prosedur yang digunakan dengan deret waktu yang bersifat musiman dan cenderung tren, jadi lihatlah contoh pada Gambar 5.1. Gambar 5.1 Dengan model horizontal, hasil rata-rata sederhana menghasilkan ramalan yang tidak lebih dari sekadar sarana musiman. Data dan grafik yang ditunjukkan pada Gambar 5.1 mewakili jumlah rata-rata hit harian ke situs web yang melayani penggemar National Football League. Setiap pengamatan di kolom D menunjukkan jumlah rata-rata hit per hari di masing-masing empat perempat dalam rentang waktu lima tahun. Mengidentifikasi Pola Musiman Anda bisa tahu dari rata-rata di kisaran G2: G5 bahwa efek kuartalan yang berbeda sedang terjadi. Jumlah rata-rata hit terbesar terjadi saat musim gugur dan musim dingin, saat 16 pertandingan utama dan playoff dijadwalkan. Bunga, yang diukur dengan hit harian rata-rata, menurun selama musim semi dan musim panas. Rata-rata mudah untuk menghitung apakah Anda merasa nyaman dengan formula array atau tidak. Untuk mendapatkan rata-rata dari kelima kasus Quarter 1, misalnya, Anda dapat menggunakan formula array ini di sel G2 pada Gambar 5.1: Array-masukkan dengan CtrlShiftEnter. Atau Anda dapat menggunakan fungsi AVERAGEIF (), yang dapat Anda masukkan dengan cara biasa, menekan tombol Enter. Secara umum, saya lebih memilih pendekatan rumus array karena memberi saya ruang lingkup untuk kontrol yang lebih besar atas fungsi dan kriteria yang terlibat. Seri data yang dipetakan mencakup label data yang menunjukkan kuota masing-masing titik data. Bagan tersebut menggemakan pesan rata-rata di G2: G5: Perempat 1 dan 4 berulang kali mendapat banyak klik. Ada musim yang jelas di set data ini. Menghitung Indeks Musiman Setelah Anda memutuskan bahwa deret waktu memiliki komponen musiman, Anda ingin mengukur ukuran efeknya. Rata-rata yang ditunjukkan pada Gambar 5.2 menunjukkan bagaimana metode rata-rata sederhana berjalan mengenai tugas itu. Gambar 5.2 Kombinasikan mean grand dengan rata-rata musiman untuk mendapatkan indeks musiman. Pada Gambar 5.2. Anda mendapatkan indeks musiman tambahan di kisaran G10: G13 dengan mengurangi mean grand di sel G7 dari setiap rata-rata musiman di G2: G5. Hasilnya adalah 8220effect8221 berada di Quarter 1, berada di Quarter 2, dan seterusnya. Jika bulan yang ditentukan ada di Quarter 1, Anda memperkirakan jumlah klik harian rata-rata lebih tinggi dari rata-rata 99,65 dari rata-rata 140,35 klik per hari. Informasi ini memberi Anda rasa betapa pentingnya berada di musim yang ditentukan. Misalkan Anda memiliki situs web yang dimaksud dan Anda ingin menjual ruang iklan di atasnya. Anda pasti bisa meminta harga pengiklan yang lebih tinggi selama kuartal pertama dan keempat daripada pada periode kedua dan ketiga. Lebih tepatnya, Anda mungkin bisa melakukan pembayaran dua kali lipat selama kuartal pertama dibandingkan pada periode kedua atau ketiga. Dengan indeks musiman di tangan, Anda juga bisa menghitung penyesuaian musiman. Misalnya, masih pada Gambar 5.2. Nilai penyesuaian musiman untuk setiap kuartal di tahun 2005 muncul di G16: G19. Mereka dihitung dengan mengurangkan indeks dari pengukuran kuartalan yang terkait. Secara tradisional, istilah indeks musiman mengacu pada kenaikan atau penurunan tingkat seri yang terkait dengan setiap musim. Istilah musiman identik efek telah muncul dalam literatur dalam beberapa tahun terakhir. Karena Anda akan melihat kedua istilah itu, saya menggunakan keduanya dalam buku ini. Ini adalah masalah kecil yang perlu diingat bahwa kedua istilah memiliki arti yang sama. Perhatikan bahwa dalam kejadian normal dari tahun 2001 sampai 2005, Anda memperkirakan hasil kuartal kedua8217s tertinggal dari hasil kuartal pertama 2.717s dengan 133,6 (yaitu, 99,65 dikurangi 821133.95). Namun di tahun 2004 dan 2005, hasil penyesuaian musiman untuk kuartal kedua melebihi angka pada kuartal pertama. Hasil itu mungkin akan meminta Anda untuk menanyakan apa yang telah berubah dalam dua tahun terakhir yang membalikkan hubungan antara hasil penyesuaian musiman untuk dua kuartal pertama. (Saya tidak dapat mengemukakan masalah itu di sini. Saya mengemukakannya untuk menyarankan agar Anda sering melihat-lihat gambar yang teramati dan disesuaikan musiman). Peramalan dari Rata-Rata Rata-Rata Musiman: Tidak Ada Trend Meskipun metode rata-rata sederhana adalah seperti yang saya katakan Lebih jauh lagi, ini bisa jauh lebih akurat daripada alternatif pemulusan eksponensial yang lebih canggih, terutama bila efek musiman diucapkan dan dapat diandalkan. Bila deret waktu tidak tersentuh, seperti contoh contoh yang telah dibahas dalam bagian ini, perkiraan musiman sederhana tidak lebih dari rata-rata musiman. Bila seri tidak tren naik atau turun, perkiraan terbaik Anda untuk nilai musim depan adalah rata-rata historis season8217. Lihat Gambar 5.3. Gambar 5.3 Kombinasikan mean grand dengan rata-rata musiman untuk mendapatkan indeks musiman. Pada bagan pada Gambar 5.3. Garis putus-putus mewakili ramalan dari perataan sederhana. Dua garis padat mewakili pengamatan musiman aktual dan rata-rata musiman. Perhatikan bahwa rata-rata musiman melacak pengamatan musiman yang sebenarnya cukup dekat dibandingkan dengan perkiraan merapikannya. Anda dapat melihat seberapa jauh jaraknya dari dua RMSE dalam sel F23 dan H23. RMSE untuk rata-rata musiman hanya sedikit lebih dari sepertiga RMSE untuk ramalan yang dihaluskan. Anda dapat menghitungnya sampai seukuran efek musiman dan juga konsistensi mereka: Misalnya, misalnya, perbedaan antara rata-rata kuartal pertama dan kedua adalah 35,0 dan bukan 133,6 (yang merupakan perbedaan antara sel G2 dan G3 pada Gambar 5.2). Kemudian, dalam konteks smoothing, nilai sebenarnya untuk Quarter 1 akan menjadi prediktor nilai Triwulan 2 yang jauh lebih baik daripada yang ada pada seri waktu ini. Dan perataan eksponensial dapat sangat bergantung pada nilai pengamatan saat ini untuk perkiraan periode berikutnya. Jika konstanta smoothing ditetapkan pada 1.0, eksponensial smoothing memutuskan untuk memperkirakan secara neto dan perkiraan selalu sama dengan sebelumnya. Fakta bahwa ukuran setiap ayunan musiman sangat konsisten dari kuartal ke kuartal berarti rata-rata musiman sederhana adalah perkiraan yang dapat dipercaya: Tidak ada pengamatan kuartalan aktual yang berangkat sangat jauh dari keseluruhan rata-rata musiman. Rata-rata Rata-rata Rata-Rata dengan Trend Penggunaan rata-rata musiman sederhana dengan rangkaian yang trending memiliki beberapa kekurangan nyata, dan I8217m tergoda untuk menyarankan agar kita mengabaikannya dan beralih ke topik yang lebih baik. Tapi mungkin Anda akan mengalami situasi di mana seseorang telah menggunakan metode ini dan kemudian tidak salah bila mengetahui bagaimana cara kerjanya dan mengapa ada pilihan yang lebih baik. Setiap metode untuk menangani seasonality dalam rangkaian yang dilontarkan harus menghadapi masalah mendasar dalam menguraikan efek dari tren musiman. Musiman cenderung tidak jelas, dan sebaliknya. Lihat Gambar 5.4. Gambar 5.4 Kehadiran tren mempersulit perhitungan efek musiman. Fakta bahwa tren dalam rangkaian ini naik dari waktu ke waktu berarti bahwa hanya rata-rata setiap pengamatan season8217, seperti yang dilakukan dalam kasus tanpa tren, mengacaukan tren umum dengan variasi musiman. Ide yang biasa adalah menjelaskan tren secara terpisah dari efek musiman. Anda bisa mengukur tren dan mengurangi pengaruhnya dari data yang diobservasi. Hasilnya adalah rangkaian untrended yang mempertahankan variasi musiman. Hal itu bisa ditangani dengan cara yang sama seperti yang saya gambarkan sebelumnya di bab ini. Menghitung Mean untuk Setiap Tahun Salah satu cara untuk detrend data (dan cara lain pasti akan terjadi pada Anda) adalah menghitung tren berdasarkan rata-rata tahunan daripada data kuartalan. Idenya adalah rata-rata tahunan tidak sensitif terhadap efek musiman. Artinya, jika Anda mengurangi nilai rata-rata tahun ke tahun dari nilai untuk masing-masing perempatnya, jumlah (dan rata-rata) dari empat efek kuartalan adalah nol. Jadi, tren yang dihitung dengan menggunakan rata-rata tahunan tidak terpengaruh oleh variasi musiman. Perhitungan ini muncul pada Gambar 5.5. Gambar 5.5 Metode ini sekarang menerapkan regresi linier pada rata-rata sederhana. Langkah pertama dalam detrending data adalah mendapatkan rata-rata hit harian setiap tahunnya. Itu dilakukan pada kisaran H3: H7 pada Gambar 5.5. Rumus di sel H3, misalnya, adalah RATA-RATA (D3: D6). Menghitung Trend Berdasarkan Sarana Tahunan Dengan rata-rata tahunan di tangan, Anda berada dalam posisi untuk menghitung tren mereka. That8217s dikelola dengan menggunakan LINEST () di kisaran I3: J7, dengan menggunakan rumus array ini: Jika Anda tidak memberikan nilai x sebagai argumen kedua ke LINEST (). Excel menyediakan nilai x default untuk Anda. The defaults are simply the consecutive integers beginning with 1 and ending with the number of y-values that you call for in the first argument. In this example, the default x-values are identical to those specified on the worksheet in G3:G7, so you could use LINEST(H3:H7. TRUE) . This formula uses two defaults, for the x-values and the constant, represented by the three consecutive commas. The point of this exercise is to quantify the year-to-year trend, and LINEST() does that for you in cell I3. That cell contains the regression coefficient for the x-values. Multiply 106.08 by 1 then by 2 then by 3, 4, and 5 and add to each result the intercept of 84.63. Although that gets you annual forecasts, the important point for this procedure is the value of the coefficient 106.08, which quantifies the annual trend. The step I just discussed is the source of my misgivings about the entire approach that this section describes. You typically have a small number of encompassing periods8212in this example, that8217s years8212to run through the regression. Regression8217s results tend to be terribly unstable when, as here, they8217re based on a small number of observations. And yet this procedure relies on those results heavily in order to detrend the time series. Prorating the Trend Across Seasons The simple-averages method of dealing with a trended, seasonal series such as this one continues by dividing the trend by the number of periods in the encompassing period to get a per-period trend. Here, the number of periods per year is four8212we8217re working with quarterly data8212so we divide 106.08 by 4 to estimate the trend per quarter at 26.5. The procedure uses that periodic trend by subtracting it from the average periodic result. The purpose is to remove the effect of the annual trend from the seasonal effects. First, though, we need to calculate the average result across all five years for Period 1, for Period 2 and so on. To do that, it helps to rearrange the list of actual quarterly hits, shown in the range D3:D22 of Figure 5.5. into a matrix of five years by four quarters, shown in the range G11:J15. Notice that the values in that matrix correspond to the list in column D. With the data arranged in that fashion, it8217s easy to calculate the average quarterly value across the five years in the data set. That8217s done in the range G18:J18. The effect of the trend returned by LINEST() appears in the range G19:J19. The starting value for each year is the observed mean daily hits for the first quarter, so we make no adjustment for the first quarter. One quarter8217s worth of trend, or 26.5, is subtracted from the second quarter8217s mean hits, resulting in an adjusted second-quarter value of 329.9 (see cell H21, Figure 5.5 ). Two quarters8217 worth of trend, 2 215 26.5 or 53 in cell I19, is subtracted from the third quarter8217s mean to get an adjusted third-quarter value of 282.6 in cell I21. And similarly for the fourth quarter, subtracting three quarters of trend from 454.4 to get 374.8 in cell J21. Keep in mind that if the trend were down rather than up, as in this example, you would add the periodic trend value to the observed periodic means instead of subtracting it. Converting the Adjusted Seasonal Means to Seasonal Effects Per the logic of this method, the values shown in rows 20821121 of Figure 5.5 are the average quarterly results for each of four quarters, with the effect of the general upward trend in the data set removed. (Rows 20 and 21 are merged in columns G through J.) With their trend out of the way, we can convert those figures to estimates of seasonal effects . the result of being in the first quarter, in the second quarter, and so on. To get those effects, start by calculating the grand mean of the adjusted quarterly means. That adjusted grand mean appears in cell I23. The analysis continues in Figure 5.6 . Figure 5.6 The quarterly effects, or indexes, are used to deseasonalize the observed quarterlies. Figure 5.6 repeats the quarterly adjustments and the adjusted grand mean from the bottom of Figure 5.5. They are combined to determine the quarterly indexes (which you can also think of as seasonal effects). For example, the formula in cell D8 is as follows: It returns 821133.2. That8217s the effect of being in the second quarter, vis-224-vis the grand mean: With respect to the grand mean, we can expect a result that belongs to the second quarter to fall below the grand mean by 33.2 units. Applying the Seasonal Effects to the Observed Quarterlies To recap: Thus far, we8217ve quantified the annual trend in the data via regression and divided that trend by 4 to prorate it to a quarterly value. Picking up in Figure 5.6. we adjusted the mean for each quarter (in C3:F3) by subtracting the prorated trends in C4:F4. The result is a detrended estimate of the mean for each quarter, regardless of the year in which the quarter takes place, in C5:F5. We subtracted the adjusted grand mean, in cell G5, from the adjusted quarterly means in C5:F5. That converts each quarter8217s mean to a measure of the effect of each quarter relative to the adjusted grand mean. Those are the seasonal indexes or effects in C8:F8. Next we remove the seasonal effects from the observed quarterlies. As shown in Figure 5.6. you do so by subtracting the quarterly indexes in C8:F8 from the corresponding values in C12:F16. And the easiest way to do that is to enter this formula in cell C20: Note the single dollar sign before the 8 in the reference to C8 . That8217s a mixed reference: partly relative and partly absolute. The dollar sign anchors the reference to the eighth row, but the column portion of the reference is free to vary. Therefore, after the latter formula is entered in cell C20, you can click on the cell8217s selection handle (the small square in the lower-right corner of a selected cell) and drag right into cell F20. The addresses adjust as you drag right and you wind up with the values, with the seasonal effects removed, for year 2001 in C20:F20. Select that range of four cells and use the multiple selection8217s handle, now in F20, to drag down into row 24. So doing fills the remainder of the matrix. It8217s important to bear in mind here that we8217re adjusting the original quarterly values for the seasonal effects. Whatever trend existed in the original values is still there, and8212in theory, at least8212remains there after we8217ve made the adjustments for seasonal effects. We have removed a trend, yes, but only from the seasonal effects. Thus, when we subtract the (detrended) seasonal effects from the original quarterly observations, the result is the original observations with the trend but without the seasonal effects. I have charted those seasonally adjusted values in Figure 5.6. Compare that chart to the chart in Figure 5.4. Notice in Figure 5.6 that although the deseasonalized values do not lie precisely on a straight line, much of the seasonal effect has been removed. Regressing the Deseasonalized Quarterlies onto the Time Periods The next step is to create forecasts from the seasonally adjusted, trended data in Figure 5.6. cells C20:F24, and at this point you have several alternatives available. You could use the differencing approach combined with simple exponential smoothing that was discussed in Chapter 3, 8220Working with Trended Time Series.8221 You could also use Holt8217s approach to smoothing trended series, discussed in both Chapter 3 and Chapter 4, 8220Initializing Forecasts.8221 Both methods put you in a position to create a one-step-ahead forecast, to which you would add the corresponding seasonal index. Another approach, which I8217ll use here, first puts the trended data through another instance of linear regression and then adds the seasonal index. See Figure 5.7 . Figure 5.7 The first true forecast is in row 25. Figure 5.7 returns the deseasonalized quarterly means from the tabular arrangement in C20:F24 of Figure 5.6 to the list arrangement in the range C5:C24 of Figure 5.7 . We could use LINEST() in conjunction with the data in B5:C24 in Figure 5.7 to calculate the regression equation8217s intercept and coefficient then, we could multiply the coefficient by each value in column B, and add the intercept to each product, to create the forecasts in column D. But although LINEST() returns useful information other than the coefficient and intercept, TREND() is a faster way to get the forecasts, and I use it in Figure 5.7 . The range D5:D24 contains the forecasts that result from regressing the deseasonalized quarterly figures in C5:C24 onto the period numbers in B5:B24. The array formula used in D5:D24 is this: That set of results reflects the effect of the general upward trend in the time series. Because the values that TREND() is forecasting from have been deseasonalized, it remains to add the seasonal effects, also known as seasonal indexes, back in to the trended forecast. Adding the Seasonal Indexes Back In The seasonal indexes, calculated in Figure 5.6. are provided in Figure 5.7. first in the range C2:F2 and then repeatedly in the range E5:E8, E9:E12, and so on. The reseasonalized forecasts are placed in F5:F24 by adding the seasonal effects in column E to the trend forecasts in column D. To get the one-step-ahead forecast in cell F25 of Figure 5.7. the value of t for the next period goes into cell B25. The following formula is entered in cell D25: It instructs Excel to calculate the regression equation that forecasts values in the range C5:C24 from those in B5:B24, and apply that equation to the new x-value in cell B25. The appropriate seasonal index is placed in cell E25, and the sum of D25 and E25 is placed in F25 as the first true forecast of the trended and seasonal time series. You8217ll find the entire set of deseasonalized quarterlies and the forecasts charted in Figure 5.8 . Figure 5.8 The seasonal effects are returned to the forecasts. Evaluating Simple Averages The approach to dealing with a seasonal time series, discussed in several prior sections, has some intuitive appeal. The basic idea seems straightforward: Calculate an annual trend by regressing annual means against a measure of time periods. Divide the annual trend among the periods within the year. Subtract the apportioned trend from the periodic effects to get adjusted effects. Subtract the adjusted effects from the actual measures to deseasonalize the time series. Create forecasts from the deseasonalized series, and add the adjusted seasonal effects back in. My own view is that several problems weaken the approach, and I would not have included it in this book except that you are likely to encounter it and therefore should be familiar with it. And it provides a useful springboard to discuss some concept and procedures found in other, stronger approaches. First, there8217s the issue (about which I complained earlier in this chapter) regarding the very small sample size for the regression of annual means onto consecutive integers that identify each year. Even with only one predictor, as few as 10 observations is really scraping the bottom of the barrel. At the very least you should look at the resulting R 2 adjusted for shrinkage and probably recalculate the standard error of estimate accordingly. It8217s true that the stronger the correlation in the population, the smaller the sample you can get away with. But working with quarters within years, you8217re fortunate to find as many as 10 years8217 worth of consecutive quarterly observations, each measured in the same way across that span of time. I8217m not persuaded that the answer to the problematic up-and-down pattern you find within a year (see the chart in Figure 5.4 ) is to average out the peaks and valleys and get a trend estimate from the annual means. Certainly it8217s one answer to that problem, but, as you8217ll see, there8217s a much stronger method of segregating the seasonal effects from an underlying trend, accounting for them both, and forecasting accordingly. I8217ll cover that method later in this chapter, in the 8220Linear Regression with Coded Vectors8221 section. Furthermore, there8217s no foundation in theory for distributing the annual trend evenly among the periods that compose the year. It8217s true that linear regression does something similar when it places its forecasts on a straight line. But there8217s a huge gulf between making a fundamental assumption because the analytic model can8217t otherwise handle the data, and accepting a flawed outcome whose flaws8212errors in the forecasts8212can be measured and evaluated. That said, let8217s move on to the use of moving averages instead of simple averages as a way of dealing with seasonality.

No comments:

Post a Comment