Kamis, 28 Mei 2015 dini hari sekitar pukul 03:00 WIB hingga Minggu, 31 Mei 2015 pukul 00:45 WIB, situs Projects.co.id down akibat hardware failure. Itu
adalah tujuh puluh jam terpanjang dalam hidup kami. Semuanya serba
kebetulan: kebetulan yang mengalami kerusakan adalah harddisknya,
kebetulan backup terbaru masih di harddisk tersebut, kebetulan backup
terakhir yang aman di offsite sudah berumur beberapa minggu.
Jika Anda pernah merasa begitu putus asa, begitu tidak berdaya dan hanya mengandalkan keajaiban, begitulah kondisi kami saat itu.
Jika Anda memiliki startup, bercita-cita ingin memiliki startup, mengelola data perusahaan, atau apapun yang membuat hidup Anda tergantung pada sebuah piringan bermotor bernama harddisk, Anda perlu membaca tulisan ini. Cukup kami saja yang mengalami mimpi buruk ini.
Ternyata benar kata penulis buku dan pembicara seminar: kita harus positive thinking! Dan saat terbaik untuk mempraktekkan itu adalah sekarang.
Jika Anda pernah merasa begitu putus asa, begitu tidak berdaya dan hanya mengandalkan keajaiban, begitulah kondisi kami saat itu.
Jika Anda memiliki startup, bercita-cita ingin memiliki startup, mengelola data perusahaan, atau apapun yang membuat hidup Anda tergantung pada sebuah piringan bermotor bernama harddisk, Anda perlu membaca tulisan ini. Cukup kami saja yang mengalami mimpi buruk ini.
Ceritanya dimulai dari sebuah email...
Kamis, 28 Mei 2015
Sebuah email pendek yang hanya berisi "Halo pak, websitenya down? lumayan lama juga sepertinya. Trims" dari Pak Win, seorang user Projects.co.id yang kebetulan juga seorang project owner yang projectnya sedang running di kami dikirim ke saya sekitar pukul 04:28 dini hari.
Begitu
menerima email ini pada sekitar pukul 05:40, saya menghubungi Pak
Priyatna, CEO dan Founder Projects.co.id. Pikiran kami saat itu masih lempeng-lempeng saja. Mungkin ada service yang perlu di-restart.
Pukul tujuh-an pagi, situs masih down. Ada yang aneh, karena situs kami tidak pernah down sama sekali hingga hitungan jam. Paling lama hitungan menit dan itu juga karena masalah software.
"Server mati, tidak dapat dinyalakan secara remote. Kita sudah mengirim open ticket
kok minta dicek dan dinyalakan segera", demikian kata Pak Priyatna
ketika dihubungi lagi pukul tujuh-an pagi hari itu. "Open ticket" yang
dimaksud adalah support request ke perusahaan hosting di Amerika tempat kami menyewa dedicated server.
Catatan: pada tiket tertera pukul 18:49:49, berartinya tiket di-submit pukul 05:49:49 WIB karena waktu server berbeda 11 jam lebih awal daripada WIB.
Lima menit kemudian, sebuah jawaban tiba, bahwa server akan dicek sekarang juga:
Lebih
dari empat jam tidak mendapat jawaban, kami kembali mengirimkan tiket.
Jawaban yang membuat perasaan tambah tidak enak pun tiba:
Hardware failure! Terserah deh apa yang rusak, asal jangan harddisknya!
Tolong jangan becanda.
Tentu saja pertanyaan kami berikutnya adalah: "Can I get the old data back?"
Disusul dengan sebuah pesan dua puluh tiga menit kemudian: "Please help us. The dead server was production server. It will ruin our business if we didn't get the data back."
Ya, Anda benar. Itu adalah sebuah pesan yang muncul dari kepanikan yang mulai menyergap.
Sebuah jawaban yang memberikan harapan pun tiba:
"The drive may be functional!" Melegakan!
Ternyata benar kata penulis buku dan pembicara seminar: kita harus positive thinking! Dan saat terbaik untuk mempraktekkan itu adalah sekarang.
Beberapa
menit kemudian server baru sudah disiapkan dan kami mulai melakukan
instalasi ulang dari awal. Sore hari, sembilan server sudah kembali siap
digunakan, tinggal menunggu data terbaru dimasukkan.
Mimpi Buruk Dimulai
Pagi hari Jumat, 29 Mei 2015, Projects.co.id telah down selama kurang lebih 24 jam. Rekor, tapi sayang bukan rekor yang membanggakan.
Tidak tahan lagi, 6 jam setelah menerima pesan yang melegakan itu, kami pun mengirim pesan (lagi) melalui tiket: "Hello, any news?"
Pesan dengan nada yang sama dikirim berulang-ulang, namun tidak mendapat jawaban sama sekali.
Kenapa tidak setiap menit kami mengirimkan tiket? Karena jelas-jelas disebutkan bahwa jika ada customer yang meng-abuse sistem tiket dengan mengirimkan permintaan/tiket berulang-ulang, prioritas
penanganan kasusnya akan ditempatkan pada posisi yang lebih rendah.
Selain itu, mengirimkan tiket berkali-kali juga akan berakibat pada
denda sekian ratus dolar amerika per jam!
Akhirnya, dalam harapan yang tampaknya semakin jauh, sebuah pesan penuh kemarahan dan putus asa kami kirimkan:
Apa
yang ditulis dalam tiket tersebut adalah benar adanya: telepon dan
email dari pengguna masuk cukup banyak, menanyakan apa yang terjadi. Hal
ini dapat kami maklumi karena uang mereka ada di kami: uang titipan
project yang sedang berjalan, saldo worker/freelancer yang sudah selesai mengerjakan project namun belum withdraw.
Beberapa dari kami menginap di kantor dan sebagian hanya tidur kurang
dari satu jam, menunggu jika data sudah bisa diakses dan harus segera
dimasukkan ke sistem yang baru. Kami exhausted!
Jawaban yang membuat harapan kami bertambah jauh pun tiba:
"it is unreadable and not detected by the machine!"
Oh Tuhan, tolonglah kami. Kenapa ini harus terjadi? Kenapa sekarang? Kenapa kami? Traffic sedang bagus-bagusnya. Registered user baru terus bertambah, terutama sejak versi terbaru halaman depan (home page) di-release
pada tanggal 19 Mei 2015: kurang lebih 11.800 pengguna terdaftar sejak
diluncurkan 6 bulan yang lalu. Project-project baru terus bertambah.
Semakin banyak project yang running. SEO untuk keyword tertentu juga
hasilnya muncul di posisi 1 atau 2 di pencarian Google. UV (unique visitor) dan page views juga terus menanjak.
Kami pun membalas pesan melalui tiket beberapa kali dengan nada memelas yang isinya kurang lebih sama: "Please help, we dont have any backup :("
Jawaban yang tiba sungguh menyakitkan: "I
am afraid there is nothing further we can do. The hard disk is
unreadable and undetected by the machines we have tested in. We have no
means of recovering data from a hard disk that has failed."
Sebenarnya kami punya backup lengkap, tetapi itu data beberapa minggu lalu. Kami punya data backup terbaru, tetapi itu hilang bersama dengan harddisk yang tewas. Dengan pertumbuhan data yang sangat cepat belakangan ini, sungguh mustahil mengandalkan data yang ada.
Mungkin
kami harus ceritakan sedikit latar belakang mengapa kami cuma punya
satu harddisk. Ketika memulai project ini, kami dihadapkan pada option untuk scale horizontally atau scale vertically. Menyewa banyak server atau menyewa satu super server. Dengan berbagai pertimbangan, akhirnya kami memilih scale vertically dengan cara menyewa satu super server yang kemudian kami pasang virtualisasi untuk menjalankan sembilan server anakan (baca: nodes, droplets, etc). Ini bagi kami lebih mudah di-manage dan lebih cost effective.
Idealnya konfigurasi server seperti ini harus dilengkapi dengan RAID
array, sehingga jika satu disk rusak, disk lainnya bisa mengambil alih.
Sayangnya RAID harus dikonfigurasi dari awal, sedangkan pada saat itu
server sudah pada tahap production. Akhirnya berjalanlah kami dengan satu harddisk. Ceroboh, sungguh ceroboh. Penyesalan selalu datang terlambat, bukan?
Menyesal adalah satu hal, namun fighting harus jalan terus. Apapun yang terjadi, kami akan fight for the best.
Dalam kelelahan luar biasa, kami mengirim beberapa pesan yang intinya adalah menanyakan apakah kami dapat membayar jasa mereka untuk mengembalikan data. Jika tidak bisa, dimana alamat harddisk itu berada karena kami akan mencari jasa data recovery service. Yang perlu mereka lakukan hanyalah mengirim harddisk yang rusak tersebut ke alamat yang nantinya akan kami berikan.
Jawabannya sungguh mengagetkan:
Apa-apaan itu?
Itu adalah harddisk rusak, masa sih tidak bisa dikirim ke tempat recovery data? Siapa yang mau dan bisa mengerjakan onsite? Karena recovery data pada harddisk rusak pasti membutuhkan tools (yang sebagian mungkin tidak/kurang portabel) dan biasanya membutuhkan ruangan kerja khusus (clean room).
Kami
pun mengirimkan beberapa pesan lagi yang intinya kami akan membeli
harddisk rusak tersebut dari mereka. Harganya berapa? Jika tidak, tolong
bantu recovery dan kami akan membayar US$ 500 (sekitar Rp 6,6jt dengan kurs Rp 13.200 saat itu).
Jawaban pun didapat: "Again
we are more than happy to assist you in trying to do what is needed to
retrieve your data but the drive is non functional. We cannot ship the
drive out as it is corporate property. We are more than happy to
accommodate a company coming in to work on this hdd. We cannot just ship
the drive out, once we let the company retrieve the data we will have
to RMA."
Setelah dikorek-korek lebih
lanjut, ternyata hardware mereka adalah sewa (dan belakangan kami
ketahui bahwa praktek sewa sangat umum di industri ini).
Satu-satu yang mereka ijinkan adalah kami mencoba me-recovery data onsite, langsung di tempat mereka.
Perburuan Pun Dimulai...
Jumat, 29 Mei 2015 pukul 12:00 PM, situs Projects.co.id telah down kurang lebih 33 jam. Tiap menit terasa sangat panjang dan menyiksa. Tik tok tik tok ...
Tidak berhasil "membujuk" sang perusahaan hosting untuk mengirim harddisk rusak tersebut ke perusahaan data recovery, kami pun mencoba mencari cara lain: cari penyedia jasa recovery data yang mau dan bisa bekerja onsite dan di hari weekend!
Belasan email dikirimkan kepada perusahaan-perusahaan data recovery yang sekiranya dapat membantu:
Sebagian besar menjawab mereka tidak dapat melakukan pengerjaan langsung di lokasi (onsite), sebagian lagi memberikan harga penawaran yang "nggak kira-kira", dan itu juga tidak ada jaminan berhasil:
"US$ 4,795 upfront", artinya Rp 63jtan di muka hanya untuk memeriksa (diagnostic).
Berhasil ataupun tidak, Rp 63jtan itu dibebankan. Jika berhasil, akan
"diketok" lagi US$ 2,500 hingga US$ 9,500 (Rp 33jt hingga Rp 125jt). Ini
jelas adalah perampokan! Dikira kita punya printer untuk mencetak duit apa ya?
Akhirnya, sebuah harapan muncul. Jawaban datang dari Chuck, salah satu penyedia jasa recovery yang
lokasinya hanya berjarak sekitar 30 menit perjalanan dengan lokasi
harddisk rusak ini berada. Bukan karena dia dapat mengerjakannya di
lokasi, tetapi karena dia bersedia melakukan kontak dengan perusahaan hosting. Siapa tahu sesama "orang lokal" ngobrolnya lebih enak dan dapat mencapai kesepakatan. Lagipula, Mr Chuck "hanya" membebankan biaya US$ 425 (Rp 5,6jt) jika tidak berhasil atau US$ 900 (Rp 11,8jt) jika berhasil.
Pernah mendengar bahwa saat sedang sial, air putih pun dapat tersangkut di tenggorokan?
Nomor telepon perusahan hosting tidak dapat dihubungi! Semua panggilan telepon masuk berakhir di voicemail, padahal saat itu adalah hari dan jam kerja.
Bahkan nomor telepon sister company si perusahaan hosting yang kami berikan kepada Chuck pun sama: berakhir di voicemail.
Dan sayangnya email ke sang CEO perusahaan hosting juga hanya di-read, tidak di-reply:
Sabtu, 30 Mei 2015 pukul 05:56 WIB pagi hari, situs Projects.co.id telah down lebih dari 50 jam.
Harapan makin tipis, namun kami masih mencoba keberuntungan kami dengan mencoba menawarkan US$ 1500 (Rp 19,8jt) kepada Chuck jika ia bersedia dan berhasil mengerjakannya onsite. Jika tidak berhasil kami akan tetap membayarnya US$ 425 (Rp 5,6jt):
Sebuah jawaban melalui email datang darinya 18 menit kemudian, isinya: "We can't do it on site without equipment and clean room environment. Onsite is not an option."
Masih berusaha meskipun tampak konyol, kami kembali mengirim email: "Cant you bring the equipment and do it in "not so clean" room? They will not allow us to bring the hdd out of the facilities :("
Tetap saja jawaban Chuck adalah "I'm sorry however this is not an option."
Mr. Wise Guy di salah satu forum internet tempat kami mencoba mencari onsite recovery menganjurkan kami untuk move on saja:
Dead End. Jalan buntu. Semua usaha yang kami lakukan tampaknya berakhir pada tembok besar nan kokoh.
Dalam keputusasaan, pagi itu kami melakukan beberapa panggilan telepon ke dua perusahan data recovery
di amerika yang katanya menawarkan jasa (atau setidaknya custumer
service) 24/7, namun tidak ada satupun panggilan telepon tersebut yang
berhasil nyambung ke real person, semuanya berakhir di voicemail.
Duh Gusti, apa salah kami?
Sebenarnya selagi kami mencari jasa recovery data,
kami juga mencoba mempelajari beberapa alternatif. Berhubung kami
memiliki data backup beberapa minggu lalu, kami dapat mencoba melakukan
rekontruksi data dengan mengambil sebagian informasi dari Google Cache, log SMS masking dan log email terkirim (sent email log).
Namun jikapun berhasil, paling banyak data yang akan kembali adalah
sekitar 70 hingga 80% ditambah kenyataan bahwa ESP (Email Service
Provider) yang kami gunakan tidak dapat memberikan --atas nama privacy-- salinan email yang terkirim melalui server mereka karena mereka tidak menyimpannya:
Jika saja kami dapat memperoleh log email terkirim dalam beberapa minggu terakhir beserta content-nya,
kami dapat merekontruksi data hingga kembali 90%. Memang selang waktu
antara data backup terakhir yang kami miliki hingga tanggal harddisk
rusak tidak terlalu lama, namun for God's sake, pertumbuhan kami cukup pesat beberapa saat terakhir dan lagipula data ini menyangkut uang orang jadi sangat sensitif.
Jika ada waktu dimana kami merasa hidup kami sangat tergantung pada belas-kasihan orang lain, inilah saatnya.
Sabtu,
30 Mei 2015 pukul 07:11 WIB, menyadari bahwa kami telah melakukan semua
usaha yang mungkin namun tanpa hasil, Pak Priyatna, Founder dan CEO
kami yang tidur kurang dari 5 jam dalam lebih dari 50 jam terakhir ini,
mengumpulkan kami semua dalam Skype untuk memberikan pengarahan:
Setelah
pembicaraan yang hampir memecahkan kepala mengenai bagaimana strategi
terbaik untuk merekonstruksi data dilakukan di Skype lebih dari satu
jam, tiba-tiba...
Keajiban Terjadi! Doa-doa Kami Didengar!
Di saat sudah begitu putus asa, rasanya tidak ada harapan lagi, kami mendapat balasan tiket dari perusahaan hosting dengan kata-kata yang begitu indah dan menenangkan jiwa: "I
have swapped the logic board on the drive with another drive and tested
and the drive appears to be working. I have installed this disk as a
secondary to your new server. You will need to copy and transfer any
data from the drive as soon as possible, as we cannot guarantee the
health or stability of this disk, or the data that is stored on it."
Dua puluh menit kemudian, yaitu Sabtu, 30 Mei 2015 pukul 09:15 sebuah "teriakan" gembira di Skype bergema: "BISAAAA".
Kurang
lebih 15.5 jam kemudian, tepatnya Minggu, 31 Mei 2015 pukul 00:48 WIB
dini hari, setelah melalui berbagai permasalahan konfigurasi dan testing
secara marathon, situs Projects.co.id secara resmi kembali live. Tidak ada data yang hilang sama sekali.
Delapan setengah jam kemudian semua data sudah tersimpan rapi dan aman di backup server yang secara fisik terletak jauh dari production server: Semua server juga sudah di-setting untuk melakukan backup secara periodik secara otomatis setiap jam secara terus menerus.
Keajiban
(ternyata masih) terjadi pada kami, namun kami sarankan Anda selalu
lakukan 3B: backup, backup dan backup. Jangan sampai kecerobohan dan
kesalahan kecil dalam sekejap meruntuhkan hidup Anda.
Akibat kehilangan data dan tidak memiliki data backup yang seharusnya, JournalSpace dan Magnolia dalam sekejap lenyap dari muka bumi. Jangan pernah itu terjadi pada kita.
Kami
sudah mengambil resiko mempermalukan diri kami sendiri dengan
menceritakan pengalaman ini kepada Anda. Percayalah, perusahaan atau
startup lain akan menutup rapat-rapat kejadian semacam ini! Kami senang
jika tulisan ini dapat mengugah Anda untuk memiliki backup dan menyadari
pentingnya memiliki backup data. Anda mungkin tidak seberuntung kami. Kami pun mungkin tidak akan seberuntung kali ini jika hal ini terjadi lagi.
Hingga
tulisan ini dipublikasikan, kami telah memiliki beberapa lapisan
pengamanan data. Harus diakui karena trauma, backup data kami sekarang
tidak hanya satu!
Konon katanya:
Orang bodoh tidak belajar.
Orang pintar belajar dari pengalamannya sendiri.
Orang bijaksana belajar dari pengalaman orang lain.
Kami yakin Anda masuk dalam kategori orang yang bijaksana karena jauh lebih baik belajar dari pengalaman orang lain mengingat pengalaman itu mahal harganya!
Orang pintar belajar dari pengalamannya sendiri.
Orang bijaksana belajar dari pengalaman orang lain.
Kami yakin Anda masuk dalam kategori orang yang bijaksana karena jauh lebih baik belajar dari pengalaman orang lain mengingat pengalaman itu mahal harganya!
Ngomong-ngomong, kapan terakhir Anda membackup data penting Anda?
Untuk terus mendapatkan informasi bermanfaat, follow twitter kami ya di @projectscoid
Projects.co.id adalah pasar online untuk mencari freelancer Indonesia berkualitas dan melakukan transaksi jual-beli produk digital dan jasa (services) dengan aman.
0 komentar:
Posting Komentar