Apakah eBay menggunakan Hadoop?
Hadoop – Kekuatan gajah
Secara keseluruhan Williams merasa proyek itu ambisius tetapi telah berjalan dengan cepat dan sehat, dan bahwa tim dapat menggunakan Hadoop dan HBase untuk membangun pengalaman pencarian yang lebih baik secara signifikan.
Ebay menyiapkan pencarian generasi berikutnya yang dibangun dengan Hadoop dan HBase
Ebay menyajikan keynote di Hadoop World, menggambarkan arsitektur mesin pencari yang sepenuhnya dibangun kembali, Cassini, dijadwalkan untuk ditayangkan pada tahun 2012. Itu mengindeks semua konten dan metadata pengguna untuk menghasilkan peringkat yang lebih baik dan menyegarkan indeks jam jam. Dibangun menggunakan Apache Hadoop untuk pembaruan indeks jam dan Apache HBase untuk memberikan akses acak ke informasi item. Hugh e. Williams, Pencarian VP, Pengalaman & Platform untuk Ebay Marketplaces mengirimkan keynote, di mana ia menguraikan skala, teknologi yang digunakan, dan pengalaman dari upaya 18 bulan oleh lebih dari 100 insinyur untuk sepenuhnya membangun kembali pencarian situs inti eBay eBay Ebay. Platform baru, Cassini, akan mendukung:
- 97 juta pembeli & penjual aktif
- 250 juta kueri per hari
- 200 juta item tinggal di lebih dari 50.000 kategori
eBay sudah menyimpan 9 PB data di Hadoop dan Teradata Clusters untuk analisis, tetapi ini akan menjadi aplikasi produksi pertama mereka yang digunakan pengguna secara langsung. Sistem baru akan lebih luas dari yang saat ini (Galileo):
Sistem Lama: Galileo | Sistem Baru: Cassini |
---|---|
10 faktor yang digunakan untuk peringkat | 100 faktor yang digunakan untuk peringkat |
Pertandingan hanya judul secara default | Gunakan semua data agar cocok secara default |
Intervensi manual untuk peluncuran, pemantauan, remediasi | peluncuran otomatis, pemantauan, remediasi |
Cassini akan menyimpan 90 hari data historis online – saat ini 1 miliar item, dan termasuk data pengguna dan perilaku untuk peringkat. Sebagian besar pekerjaan yang diperlukan untuk mendukung sistem pencarian dilakukan dalam pekerjaan batch per jam yang berjalan di Hadoop. Berbagai jenis indeks semua akan dihasilkan dalam cluster yang sama (peningkatan atas Galileo, yang memiliki cluster yang berbeda untuk setiap jenis pengindeksan). Lingkungan Hadoop memungkinkan eBay untuk memulihkan atau mereklasifikasi seluruh inventaris situs saat perbaikan dibuat.
Item disimpan dalam HBase, dan biasanya dipindai selama pembaruan indeks per jam. Saat item baru terdaftar, itu akan terlihat di HBase dan ditambahkan ke indeks langsung dalam hitungan menit. HBase juga memungkinkan untuk item massal dan tambahan yang ditulis dan item cepat dibaca dan ditulis untuk anotasi item.
Williams mengindikasikan bahwa tim akrab dengan menjalankan Hadoop dan itu telah bekerja dengan andal dengan beberapa masalah. Sebaliknya, ia mengindikasikan “perjalanan sejauh ini dengan HBase telah bergelombang.”Williams mencatat bahwa eBay tetap berkomitmen pada teknologi, telah memberikan kontribusi perbaikan pada masalah yang mereka temukan, belajar dengan cepat dan bahwa dua minggu terakhir telah berjalan dengan lancar. Tim teknik baru menggunakan HBase dan mengalami beberapa masalah saat menguji pada skala, seperti:
- Konfigurasi klaster produksi untuk beban kerja mereka
- Masalah perangkat keras
- Stabilitas: server wilayah yang tidak stabil, master yang tidak stabil, daerah terjebak dalam transisi
- Pemantauan Kesehatan HBase: Seringkali masalah belum terdeteksi sampai mereka memengaruhi layanan langsung – tim ini menambahkan banyak pemantauan
- Mengelola Pekerjaan Mapreduce Multi-Langkah
Secara keseluruhan Williams merasa proyek itu ambisius tetapi telah berjalan dengan cepat dan sehat, dan bahwa tim dapat menggunakan Hadoop dan HBase untuk membangun pengalaman pencarian yang lebih baik secara signifikan.
Hadoop – Kekuatan gajah
Dalam posting sebelumnya, Junling membahas penambangan data dan kebutuhan kita untuk memproses petabyte data untuk mendapatkan wawasan dari informasi. Kami menggunakan beberapa alat dan sistem untuk membantu kami dengan tugas ini; yang akan saya bahas di sini adalah Apache Hadoop.
Dibuat oleh Doug Cutting pada tahun 2006 yang menamakannya setelah boneka gajah kuning putranya, dan berdasarkan kertas MapReduce Google pada tahun 2004, Hadoop adalah kerangka kerja open-source untuk komputasi yang toleran, skalabel, dan didistribusikan pada perangkat keras komoditas tentang komoditas komoditas tentang kesalahan komoditas yang toleran terhadap kesalahan kesalahan kesalahan yang diukur.
MapReduce adalah model pemrograman yang fleksibel untuk memproses set data besar:
Peta mengambil pasangan kunci/nilai sebagai input dan menghasilkan output menengah dari jenis lain dari pasangan kunci/nilai, sementara Mengurangi Mengambil kunci yang dihasilkan dalam langkah peta bersama dengan daftar nilai yang terkait dengan kunci yang sama untuk menghasilkan output akhir dari pasangan kunci/nilai.
Peta (key1, value1) -> list (key2, value2)
Mengurangi (key2, list (value2)) -> list (key3, value3)
Ekosistem
Athena, gugus besar pertama kami digunakan awal tahun ini.
Mari kita lihat tumpukan dari bawah ke atas:
- Inti – Hadoop Runtime, beberapa utilitas umum, dan Sistem File Terdistribusi Hadoop (HDFS). Sistem file dioptimalkan untuk membaca dan menulis blok besar data (128 MB hingga 256 MB).
- Mapreduce – Menyediakan API dan komponen untuk mengembangkan dan melaksanakan pekerjaan.
- Akses data – Kerangka kerja akses data yang paling menonjol saat ini adalah HBase, babi dan sarang.
- Hbase -Basis data spasial multidimensi yang berorientasi kolom yang terinspirasi oleh BigTable Google. HBase menyediakan akses data yang diurutkan dengan memelihara partisi atau wilayah data. Penyimpanan yang mendasarinya adalah HDFS.
- Babi (Latin) – Bahasa prosedural yang menyediakan kemampuan untuk memuat, memfilter, mengubah, mengekstrak, agregat, bergabung dan mengelompokkan data. Mengembangkan
Pertanyaan:
- Apa itu Apache Hadoop?
- Apa itu MapReduce?
- Apa yang disebut mesin pencari baru eBay?
- Teknologi apa yang digunakan di mesin pencari eBay?
- Apa saja perbaikan dalam mesin pencari baru dibandingkan dengan sistem lama?
- Bagaimana data disimpan di mesin pencari baru?
- Apa saja tantangan yang dihadapi eBay saat menggunakan HBase?
- Berapa banyak data yang disimpan eBay saat ini di Hadoop dan Teradata Clusters?
- Apa itu hbase?
- Apa itu babi?
- Apa tujuan HDFS?
- Apa tujuan Athena?
- Berapa lama waktu yang dibutuhkan tim eBay untuk membangun kembali pencarian situs inti mereka?
- Berapa skala mesin pencari baru eBay?
- Perbaikan apa yang dibawa Hadoop ke sistem pencarian eBay?
Apache Hadoop adalah kerangka kerja open-source untuk penghitung yang toleran terhadap kesalahan, terukur, dan terdistribusi pada perangkat keras komoditas. Itu dibuat oleh Doug Cutting pada tahun 2006 berdasarkan kertas MapReduce Google.
MapReduce adalah model pemrograman yang fleksibel untuk memproses set data besar. Dibutuhkan pasangan kunci/nilai sebagai input dalam langkah peta dan menghasilkan output perantara dari jenis pasangan kunci/nilai lain. Langkah pengurangan mengambil kunci yang dihasilkan dalam langkah peta bersama dengan daftar nilai yang terkait dengan kunci yang sama untuk menghasilkan output akhir dari pasangan kunci/nilai.
Mesin pencari baru eBay disebut cassini.
Mesin pencari eBay menggunakan Apache Hadoop untuk pembaruan indeks per jam dan Apache HBase untuk menyediakan akses acak ke informasi item.
Mesin pencari baru (Cassini) menggunakan 100 faktor untuk peringkat dibandingkan dengan sistem lama (Galileo) yang menggunakan 10 faktor. Ini juga menggunakan semua data yang tersedia untuk dicocokkan secara default, mendukung peluncuran otomatis, pemantauan, dan remediasi, dan mencakup 90 hari data historis online.
Item disimpan dalam HBase, yang memungkinkan untuk membaca item cepat dan menulis untuk anotasi item.
eBay menghadapi tantangan seperti konfigurasi cluster produksi, masalah perangkat keras, stabilitas server wilayah dan master, dan memantau kesehatan HBase. Mereka secara aktif berupaya menyelesaikan masalah ini.
Ebay saat ini menyimpan 9 PB data di Hadoop dan Teradata Clusters.
HBase adalah basis data spasial multidimensi yang berorientasi kolom yang terinspirasi oleh BigTable Google. Ini menyediakan akses data yang diurutkan dengan memelihara partisi atau daerah data.
Babi adalah bahasa prosedural yang menyediakan kemampuan untuk memuat, menyaring, mengubah, mengekstrak, agregat, bergabung, dan mengelompokkan data.
HDFS (Sistem File Terdistribusi Hadoop) adalah penyimpanan yang mendasarinya untuk Hadoop. Ini dioptimalkan untuk membaca dan menulis blok data besar.
Athena adalah kelompok besar yang digunakan oleh eBay untuk memproses data. Itu adalah bagian dari ekosistem hadoop eBay.
Butuh tim eBay 18 bulan untuk sepenuhnya membangun kembali pencarian situs inti mereka.
Mesin pencari baru eBay, Cassini, akan mendukung 97 juta pembeli & penjual aktif, menangani 250 juta pertanyaan per hari, dan memiliki 200 juta item tinggal di lebih dari 50.000 kategori.
Hadoop memungkinkan eBay untuk menghasilkan berbagai jenis indeks di cluster yang sama, memulihkan atau mereklasifikasi seluruh inventaris situs, dan melakukan pekerjaan batch per jam untuk mendukung sistem pencarian.
Hadoop – Kekuatan gajah
Secara keseluruhan Williams merasa proyek itu ambisius tetapi telah berjalan dengan cepat dan sehat, dan bahwa tim dapat menggunakan Hadoop dan HBase untuk membangun pengalaman pencarian yang lebih baik secara signifikan.
Ebay menyiapkan pencarian generasi berikutnya yang dibangun dengan Hadoop dan HBase
Ebay menyajikan keynote di Hadoop World, menggambarkan arsitektur mesin pencari yang sepenuhnya dibangun kembali, Cassini, dijadwalkan untuk ditayangkan pada tahun 2012. Itu mengindeks semua konten dan metadata pengguna untuk menghasilkan peringkat yang lebih baik dan menyegarkan indeks jam jam. Dibangun menggunakan Apache Hadoop untuk pembaruan indeks jam dan Apache HBase untuk memberikan akses acak ke informasi item. Hugh e. Williams Pencarian VP, Pengalaman & Platform untuk Ebay Marketplaces mengirimkan keynote, di mana ia menguraikan skala, teknologi yang digunakan, dan pengalaman dari upaya 18 bulan oleh lebih dari 100 insinyur untuk benar -benar membangun kembali pencarian situs inti eBay eBay. Platform baru, Cassini, akan mendukung:
- 97 juta pembeli & penjual aktif
- 250 juta kueri per hari
- 200 juta item tinggal di lebih dari 50.000 kategori
eBay sudah menyimpan 9 PB data di Hadoop dan Teradata Clusters untuk analisis, tetapi ini akan menjadi aplikasi produksi pertama mereka yang digunakan pengguna secara langsung. Sistem baru akan lebih luas dari yang saat ini (Galileo):
Sistem Lama: Galileo | Sistem Baru: Cassini |
---|---|
10 faktor yang digunakan untuk peringkat | 100 faktor yang digunakan untuk peringkat |
Pertandingan hanya judul secara default | Gunakan semua data agar cocok secara default |
Intervensi manual untuk peluncuran, pemantauan, remediasi | peluncuran otomatis, pemantauan, remediasi |
Cassini akan menyimpan 90 hari data historis online – saat ini 1 miliar item, dan termasuk data pengguna dan perilaku untuk peringkat. Sebagian besar pekerjaan yang diperlukan untuk mendukung sistem pencarian dilakukan dalam pekerjaan batch per jam yang berjalan di Hadoop. Berbagai jenis indeks semua akan dihasilkan dalam cluster yang sama (peningkatan atas Galileo, yang memiliki cluster yang berbeda untuk setiap jenis pengindeksan). Lingkungan Hadoop memungkinkan eBay untuk memulihkan atau mereklasifikasi seluruh inventaris situs saat perbaikan dibuat.
Item disimpan dalam HBase, dan biasanya dipindai selama pembaruan indeks per jam. Saat item baru terdaftar, itu akan terlihat di HBase dan ditambahkan ke indeks langsung dalam hitungan menit. HBase juga memungkinkan untuk item massal dan tambahan yang ditulis dan item cepat dibaca dan ditulis untuk anotasi item.
Williams mengindikasikan bahwa tim akrab dengan menjalankan Hadoop dan itu telah bekerja dengan andal dengan beberapa masalah. Sebaliknya dia menunjukkan “perjalanan sejauh ini dengan HBase telah bergelombang.”Williams mencatat bahwa eBay tetap berkomitmen pada teknologi, telah memberikan kontribusi perbaikan pada masalah yang mereka temukan, belajar dengan cepat dan bahwa dua minggu terakhir telah berjalan dengan lancar. Tim teknik baru menggunakan HBase dan mengalami beberapa masalah saat menguji pada skala, seperti:
* Konfigurasi klaster produksi untuk beban kerja mereka
* Masalah perangkat keras
* Stabilitas: server wilayah yang tidak stabil, master yang tidak stabil, daerah terjebak dalam transisi
* Memantau Kesehatan HBase: Seringkali masalah belum terdeteksi sampai mereka memengaruhi layanan langsung – tim ini menambahkan banyak pemantauan
* Mengelola Pekerjaan Mapreduce Multi-Langkah
Secara keseluruhan Williams merasa proyek itu ambisius tetapi telah berjalan dengan cepat dan sehat, dan bahwa tim dapat menggunakan Hadoop dan HBase untuk membangun pengalaman pencarian yang lebih baik secara signifikan.
Hadoop – Kekuatan gajah
Dalam posting sebelumnya, Junling membahas penambangan data dan kebutuhan kita untuk memproses petabyte data untuk mendapatkan wawasan dari informasi. Kami menggunakan beberapa alat dan sistem untuk membantu kami dengan tugas ini; yang saya’LL Diskusikan di sini adalah Apache Hadoop.
Dibuat oleh Doug Cutting pada tahun 2006 yang menamainya setelah putranya’S boneka gajah kuning, dan berdasarkan google’S MapReduce Paper Pada tahun 2004, Hadoop adalah kerangka kerja open source untuk komputasi yang toleran terhadap kesalahan, scalable, dan terdistribusi pada perangkat keras komoditas.
MapReduce adalah model pemrograman yang fleksibel untuk memproses set data besar:
Peta mengambil pasangan kunci/nilai sebagai input dan menghasilkan output menengah dari jenis lain dari pasangan kunci/nilai, sementara Mengurangi Mengambil kunci yang dihasilkan dalam langkah peta bersama dengan daftar nilai yang terkait dengan kunci yang sama untuk menghasilkan output akhir dari pasangan kunci/nilai.
Peta (key1, value1) -> list (key2, value2)
Mengurangi (key2, list (value2)) -> list (key3, value3)
Ekosistem
Athena, gugus besar pertama kami digunakan awal tahun ini.
Membiarkan’Lihatlah tumpukan dari bawah ke atas:
- Inti – Hadoop Runtime, beberapa utilitas umum, dan Sistem File Terdistribusi Hadoop (HDFS). Sistem file dioptimalkan untuk membaca dan menulis blok besar data (128 MB hingga 256 MB).
- Mapreduce – Menyediakan API dan komponen untuk mengembangkan dan melaksanakan pekerjaan.
- Akses data – Kerangka kerja akses data yang paling menonjol saat ini adalah HBase, babi dan sarang.
- Hbase – Basis data spasial multidimensi yang berorientasi kolom yang terinspirasi oleh Google’s bigtable. HBase menyediakan akses data yang diurutkan dengan memelihara partisi atau wilayah data. Penyimpanan yang mendasarinya adalah HDFS.
- Babi(Latin) – Bahasa prosedural yang menyediakan kemampuan untuk memuat, memfilter, mengubah, mengekstrak, agregat, bergabung dan mengelompokkan data. Pengembang menggunakan babi untuk membangun jalur pipa dan pabrik data.
- Sarang lebah – Bahasa deklaratif dengan sintaks SQL yang digunakan untuk membangun gudang data. Antarmuka SQL menjadikan Hive pilihan yang menarik bagi pengembang untuk dengan cepat memvalidasi data, untuk manajer produk dan untuk analis.
Infrastruktur
Server perusahaan kami menjalankan redhat linux 64-bit.
- Namenode adalah server master yang bertanggung jawab untuk mengelola HDFS.
- JobTracker bertanggung jawab atas koordinasi pekerjaan dan tugas yang terkait dengan pekerjaan.
- Hbasemaster Menyimpan penyimpanan root untuk HBase dan memfasilitasi koordinasi dengan blok atau daerah penyimpanan.
- Penjaga kebun binatang adalah koordinator kunci terdistribusi yang memberikan konsistensi untuk HBase.
Node penyimpanan dan komputasi adalah 1u unit yang berjalan sen dengan 2 mesin quad core dan ruang penyimpanan 12 hingga 24TB. Kami mengemas rak kami dengan 38 hingga 42 unit ini untuk memiliki kisi yang sangat padat.
Di sisi jaringan, kami menggunakan sakelar rak atas dengan bandwidth node 1Gbps. Sakelar rak uplink ke sakelar inti dengan laju garis 40gpbs untuk mendukung bandwidth tinggi yang diperlukan agar data diacak di sekitar.
Penjadwalan
Cluster kami digunakan oleh banyak tim di dalam eBay, untuk produksi serta pekerjaan satu kali. Kami menggunakan Hadoop’s jadwal yang adil untuk mengelola alokasi, mendefinisikan kumpulan pekerjaan untuk tim, menetapkan bobot, membatasi pekerjaan bersamaan per pengguna dan tim, menetapkan batas waktu preemption dan penjadwalan yang tertunda.
Sumber data
Setiap hari kami menelan sekitar 8 hingga 10 TB data baru.
Jalan di depan
Berikut adalah beberapa tantangan yang sedang kami kerjakan saat kami membangun infrastruktur kami:
- Skalabilitas
Dalam inkarnasi saat ini, master server namenode memiliki masalah skalabilitas. Saat sistem file dari cluster tumbuh, begitu pula jejak memori karena menjaga seluruh metadata dalam memori. Untuk 1 PB penyimpanan sekitar 1 GB memori diperlukan. Solusi yang mungkin adalah partisi namespace hierarkis atau memanfaatkan zookeeper dalam hubungannya dengan HBase untuk manajemen metadata. - Ketersediaan
Namenode’Ketersediaan sangat penting untuk beban kerja produksi. Komunitas open source sedang mengerjakan beberapa opsi yang dingin, hangat, dan siaga seperti pos pemeriksaan dan node cadangan; Node avatar beralih avatar dari namenode sekunder; Teknik Replikasi Metadata Jurnal. Kami mengevaluasi ini untuk membangun kelompok produksi kami. - Penemuan data
Dukung Pengelolaan Data, Penemuan, dan Manajemen Skema Di atas sistem yang secara inheren tidak mendukung struktur. Proyek baru mengusulkan untuk menggabungkan hive’S Metadata Store dan burung hantu ke dalam sistem baru, yang disebut Howl. Upaya kami adalah mengikat ini ke dalam platform analitik kami sehingga pengguna kami dapat dengan mudah menemukan data di berbagai sistem data yang berbeda. - Gerakan Data
Kami sedang mengerjakan alat pemindahan data yang dipublikasikan/berlangganan untuk mendukung salinan data dan rekonsiliasi di berbagai subsistem kami seperti gudang data dan HDFS. - Kebijakan
Aktifkan kebijakan retensi, arsip, dan cadangan yang baik dengan manajemen kapasitas penyimpanan melalui kuota (kuota hadoop saat ini membutuhkan beberapa pekerjaan). Kami sedang berupaya mendefinisikan ini di berbagai kelompok kami berdasarkan beban kerja dan karakteristik kluster. - Metrik, metrik, metrik
Kami membangun alat yang kuat yang menghasilkan metrik untuk sumber data, konsumsi, penganggaran, dan pemanfaatan. Metrik yang ada yang diekspos oleh beberapa server Hadoop Enterprise tidak cukup, atau sementara yang membuat pola penggunaan cluster sulit dilihat.
eBay mengubah cara mengumpulkan, mengubah, dan menggunakan data untuk menghasilkan kecerdasan bisnis. Kami’Perekrutan kembali, dan kami’D senang Anda datang membantu.
Anil Madan
Direktur Teknik, Pengembangan Platform AnalisisBagaimana Ebay Menggunakan Big Data dan Pembelajaran Mesin untuk Mendorong Nilai Bisnis
Transformasi digital, meskipun bukan hal baru, telah sangat berubah dengan munculnya teknologi baru untuk analisis data besar dan pembelajaran mesin. Kunci untuk sebagian besar upaya transformasi digital perusahaan adalah memanfaatkan wawasan dari berbagai jenis data pada waktu yang tepat. Untungnya, organisasi sekarang memiliki akses ke berbagai solusi untuk mencapai tujuan ini.
Bagaimana para pemimpin di ruang mendekati masalah saat ini? Saya baru -baru ini berdiskusi dengan Seshu Adunuthula, direktur senior Analytics Infrastructure di eBay, untuk membahas masalah ini. eBay selalu menjadi bisnis digital, tetapi bahkan pemimpin TI perusahaan yang dilahirkan sebagai bisnis digital merangkul teknologi digital terbaru untuk meningkatkan proses yang ada dan membangun pengalaman baru. Menurut Adunuthula, “Data adalah aset terpenting eBay.”Ebay mengelola sekitar 1 miliar daftar langsung dan 164 juta pembeli aktif setiap hari. Dari jumlah tersebut, eBay menerima 10 juta daftar baru melalui seluler setiap minggu . Jelas, perusahaan sebagai volume data yang besar, tetapi kunci keberhasilannya di masa depan adalah seberapa cepat ia dapat mengubah data menjadi pengalaman yang dipersonalisasi yang mendorong penjualan.
Merancang dan memperbarui strategi teknis
Tantangan pertama eBay yang digulung adalah menemukan platform, selain dari gudang data tradisionalnya, yang mampu menyimpan sejumlah besar data yang bervariasi berdasarkan jenis. Adunuthula menyatakan bahwa jenis data, struktur data dan kecepatan analisis yang diperlukan berarti perusahaan harus berkembang dari struktur gudang data tradisional ke apa yang disebutnya Data Lakes. Misalnya, perusahaan perlu menyimpan sekitar sembilan perempat data tren historis untuk memberikan wawasan tentang barang -barang seperti pertumbuhan tahun ke tahun. Ini juga perlu menganalisis data secara real-time untuk membantu pembeli sepanjang siklus penjualan.
Kemampuan untuk mendukung data pada skala perusahaan internet adalah pertimbangan utama dalam pemilihan teknologi dan mitra. Perusahaan memilih untuk bekerja dengan produk Hortonwork Hadoop karena menawarkan platform open source yang sangat terukur dan vendor bersedia bekerja dengan eBay untuk merancang peningkatan produk. Dengan fondasi Hadoop dan Hortonworks, dua komponen lain dari strategi platform data eBay adalah apa yang disebutnya aliran dan layanan.
Tantangan teknis besar untuk eBay dan setiap bisnis intensif data adalah untuk menggunakan sistem yang dapat dengan cepat menganalisis dan bertindak berdasarkan data saat tiba di sistem organisasi (disebut data streaming). Ada banyak metode yang berkembang pesat untuk mendukung analisis data streaming. Ebay saat ini bekerja dengan beberapa alat termasuk Apache Spark, Storm, Kafka, dan Hortonworks HDF. Lapisan layanan data strateginya menyediakan fungsi yang memungkinkan perusahaan untuk mengakses dan meminta data. Ini memungkinkan analis data perusahaan untuk mencari tag informasi yang telah dikaitkan dengan data (disebut metadata) dan membuatnya dapat dikonsumsi oleh sebanyak mungkin orang dengan tingkat keamanan dan izin yang tepat (disebut tata kelola data). Ini juga menggunakan mesin kueri interaktif di Hadoop bernama Presto. Perusahaan telah berada di garis depan dalam menggunakan solusi data besar dan secara aktif menyumbangkan pengetahuannya kembali ke komunitas open source.
Strategi data besar eBay saat ini mewakili beberapa kombinasi potensial dan opsi yang tersedia untuk perusahaan yang ingin memproses sejumlah besar data yang tidak serupa dalam format dan kombinasi data yang mungkin perlu dianalisis secara real-time atau disimpan untuk dianalisis di kemudian hari. Tentu saja, pemilihan solusi data besar tergantung pada apa yang Anda coba capai sebagai bisnis.
Menggunakan Big Data dan Platform Pembelajaran Mesin untuk memberikan nilai bisnis
Dalam kasus eBay, perusahaan menggunakan data besar dan solusi pembelajaran mesin untuk mengatasi kasus penggunaan seperti personalisasi, merchandising dan pengujian A/B untuk fitur baru untuk meningkatkan pengalaman pengguna. Misalnya, personalisasi model eBay pada lima perempat terstruktur (e.G. satu miliar daftar, pembelian, dll.) dan tidak terstruktur (sinopsis aktivitas perilaku, awan kata, lencana dll.) data. Merchandising ditingkatkan dengan menggunakan analitik dan pembelajaran mesin untuk membantu merekomendasikan item serupa pada penempatan utama di situs dan seluler. Item, seperti penemuan kesepakatan, menggunakan pembelajaran mesin untuk menemukan pola dalam data terstruktur. eBay juga membuat model pembelajaran mesin prediktif untuk deteksi penipuan, pengambilalihan akun, dan memungkinkan prediksi risiko pembeli/penjual. Jelas, eBay telah menghabiskan banyak waktu dan sumber daya untuk mencapai tingkat keahlian ini dalam pemrosesan data dan peningkatan alur bisnis. Untuk eBay dan banyak lainnya, perjalanannya jauh dari selesai. Perusahaan ingin terus mengoptimalkan analitik streaming dan meningkatkan tata kelola data.
Apa yang harus Anda lakukan selanjutnya?
Untuk perusahaan -perusahaan yang memulai, Adunuthula menawarkan beberapa kata nasihat bijak. Tantangan terbesar adalah tata kelola data dan mencegahnya menjadi Wild West. Sebuah bisnis tidak bisa hanya membuang semuanya ke dalam suatu sistem dan khawatir tentang tata kelola nanti. Jika Anda membangun strategi data hari ini, mulailah dengan tata kelola.
Contohnya dapat mencakup mendefinisikan proses untuk memungkinkan akses ke orang yang berbeda dan bagaimana memungkinkan kepatuhan PCI dalam set data untuk pengecer. Strategi harus menguraikan cara membuat data dapat ditemukan dan bagaimana mengembangkan proses. Dia mencatat bahwa ada solusi baru, seperti Atlas dan Navigator, muncul hari ini. Namun, lanskap terus berubah. Jika Anda memulai perjalanan hari ini, sebuah bisnis dapat menempatkan tata kelola data sebelum membangun kumpulan data besar, gudang data, dan danau data. Lebih mudah untuk menambahkan tata kelola data di awal proses.
Dari diskusi dengan klien saya, saya telah belajar ada beberapa langkah penting dalam membangun strategi data besar yang mencakup:
- Mendefinisikan kemenangan cepat dan kasus penggunaan jangka panjang. Membangun kasus penggunaan yang sangat ketat sangat penting untuk memperoleh dana dan menunjukkan nilai langsung dari upaya strategi data Anda. Misalnya, banyak perusahaan mendefinisikan kasus penggunaan yang melibatkan menghubungkan dan menganalisis sumber data baru untuk memahami perilaku pembelian. Memilih kasus penggunaan yang sempit memungkinkan analis data untuk menguji teknologi baru dan memberikan wawasan baru kepada bisnis.
- Mengevaluasi apa yang Anda butuhkan di mitra data. eBay memiliki tim teknik yang canggih dan tahu apa yang ingin dicapai. Perusahaan sedang mencari mitra untuk membantu memberikan skala dan bantuan dalam meningkatkan solusi open source. Perusahaan mungkin juga membutuhkan mitra mereka untuk memberikan lebih banyak pelatihan, layanan konsultasi, dan arsitektur referensi berdasarkan industri.
- Membangun ekosistem yang tepat. Tidak ada satu solusi penyimpanan data dan analitik yang akan menyelesaikan semua kasus penggunaan perusahaan. Di beberapa daerah, solusi gudang data perusahaan yang ada bekerja dengan sempurna. Dalam kasus lain, Anda perlu streaming analitik. Demikian pula, tidak ada satu alat atau vendor tunggal yang akan menyediakan semua yang Anda butuhkan. Dunia analisis data saat ini membutuhkan ekosistem alat dan mitra. Carilah kemitraan antar vendor yang akan memudahkan tantangan integrasi.
- Mencari kasus penggunaan baru. Alih -alih mereplikasi apa yang Anda miliki, bisnis harus mencari cara yang dapat diperoleh dan dianalisis dengan data baru untuk meningkatkan proses bisnis Anda. Bagian dari manfaat dari data dan alat analitik baru ini adalah menemukan pola, anomali, dan wawasan baru yang tidak ada dalam sistem analisis data warisan Anda. Pemimpin bisnis harus bekerja dengannya untuk mencari cara penyimpanan data baru dan solusi analitik dapat menjawab pertanyaan yang tidak mudah dijawab di masa lalu.
Apakah eBay menggunakan Hadoop?
- CIO mengambil kemampuan beradaptasi organisasi, ketahanan CIO dan eksekutif teknologi lainnya menguatkan organisasi mereka melakukan apa yang diperlukan untuk tetap fleksibel dalam periode yang tidak terduga .
- FTC memeriksa persaingan dalam komputasi awan Komisi Perdagangan Federal sedang memeriksa dampak dari segelintir perusahaan teknologi besar seperti Amazon, Microsoft dan Google .
- U.S. Krisis utang dapat menghantam kontraktor pemerintah, kontraktor pemerintah yang keras harus mempersiapkan diri sekarang untuk U.S. untuk default atas utangnya, yang akan menghasilkan pembayaran yang terhenti di antara .
- Menutup Buku tentang Konferensi RSA 2023 AI, Keamanan Cloud, Modernisasi SOC dan Kebersihan Keamanan dan Manajemen Postur adalah topik panas di RSAC di San Francisco .
- Tiongkok apt mengeksploitasi firmware router TP-Link melalui Implant Point Software Technologies mengatakan implan jahat, yang dikaitkan dengan “Camaro Dragon” Cina, adalah firmware .
- Lindungi terhadap ancaman saat ini dan di masa depan dengan ancaman cyber enkripsi saat ini dan masa depan, seperti ransomware, AI generatif, komputasi kuantum dan peningkatan pengawasan, adalah .
- Sonic Nos menghadapi tantangan yang cocok dengan Mainstream Gartner memperkirakan bahwa kurang dari 200 perusahaan yang memiliki sonik dalam produksi, dari pasar pusat data potensial 100.000. Satu.
- 12 Protokol Jaringan Umum dan Fungsinya Dijelaskan Jaringan Membuat Internet Berlaku, tetapi tidak ada yang bisa berhasil tanpa protokol. Protokol jaringan umum dan fungsinya adalah .
- Interpreter Python vs. IDE: Apa yang harus diketahui oleh insinyur jaringan saat menggunakan Python untuk otomatisasi jaringan, insinyur jaringan sering bekerja dengan penerjemah dan lingkungan pengembangan terintegrasi .
- Jadikan operasi mainframe efisien dengan strategi -strategi ini Mainframe memengaruhi garis bawah organisasi. Seorang ahli menguraikan beberapa strategi utama untuk mempertahankan keandalan sambil menjaga .
- Cara menggunakan chatgpt untuk manajemen aplikasi mainframe chatgpt dapat membantu admin mengelola aplikasi mainframe dengan mengonversi, mengoptimalkan dan meningkatkan kode. Juga, itu bisa membuat .
- Jelajahi dampak komputasi kuantum pada kriptografi ketika komputer kuantum tersedia, banyak jenis enkripsi akan rentan. Pelajari mengapa, dan apa yang diteliti, untuk .
- Qlik Menyelesaikan pembelian Talend, meningkatkan integrasi suite dengan akuisisi, vendor analitik lama menambahkan pendekatan data dan peningkatan kualitas data dan kecakapan tata kelola .
- Database mainframe mengajarkan anjing lama trik bertahan hidup baru lama diprediksi akan memudar demi arsitektur yang lebih modern, mainframe masih memainkan peran integral dalam perusahaan TI perusahaan .
- Data mesh vs. Opsi Manajemen Data Lainnya Data data mengambil pendekatan terdesentralisasi untuk manajemen data dan memperoleh nilai dari data. Ini berbagi kesamaan dengan data .