Ebay usa Hadoop?
Hadoop – Il potere dell’elefante
Nel complesso Williams ha ritenuto che il progetto fosse ambizioso ma era andato rapidamente e bene e che il team è stato in grado di utilizzare Hadoop e Hbase per costruire un’esperienza di ricerca significativamente migliorata.
Ebay prepara la ricerca di prossima generazione costruita con Hadoop e HBase
Ebay ha presentato un keynote a Hadoop World, descrivendo l’architettura del suo motore di ricerca completamente ricostruito, Cassini, previsto per il Live nel 2012. Indicizza tutto il contenuto e i metadati dell’utente per produrre classifiche migliori e aggiorna gli indici ogni ora. È creato utilizzando Apache Hadoop per aggiornamenti di indice orario e Apache HBase per fornire accesso casuale alle informazioni sull’articolo. Hugh e. Williams, la ricerca, l’esperienza e le piattaforme VP per i mercati eBay hanno consegnato il keynote, dove ha delineato la scala, le tecnologie utilizzate e le esperienze da uno sforzo di 18 mesi da parte di oltre 100 ingegneri per ricostruire completamente la ricerca del sito di EBay di Ebay. La nuova piattaforma, Cassini, supporterà:
- 97 milioni di acquirenti e venditori attivi
- 250 milioni di domande al giorno
- 200 milioni di articoli vivono in oltre 50.000 categorie
eBay memorizza già 9 PB di dati nei cluster Hadoop e Teradata per l’analisi, ma questa sarà la loro prima applicazione di produzione che gli utenti usano direttamente. Il nuovo sistema sarà più esteso di quello attuale (Galileo):
Old System: Galileo | Nuovo sistema: Cassini |
---|---|
10 di fattori utilizzati per la classifica | 100 di fattori utilizzati per la classifica |
partita solo per il titolo per impostazione predefinita | Utilizzare tutti i dati per abbinare per impostazione predefinita |
Intervento manuale per lancio, monitoraggio, bonifica | lancio automatizzato, monitoraggio, bonifica |
Cassini manterrà online 90 giorni di dati storici – Attualmente 1 miliardo di articoli e includerà dati utente e comportamentali per la classifica. La maggior parte del lavoro richiesto per supportare il sistema di ricerca viene svolto in lavori batch orari che funzionano a Hadoop. Diversi tipi di indici saranno tutti generati nello stesso cluster (un miglioramento rispetto a Galileo, che aveva cluster diversi per ogni tipo di indicizzazione). L’ambiente Hadoop consente a eBay di ripristinare o riclassificare l’intero inventario del sito man mano che vengono creati miglioramenti.
Gli articoli sono archiviati in HBase e vengono normalmente scansionati durante gli aggiornamenti dell’indice orario. Quando è elencato un nuovo elemento, verrà cercato in HBase e aggiunto all’indice in tempo reale in pochi minuti. Hbase consente anche scritture di oggetti in blocco e incrementali e letture e scritture rapide per l’annotazione degli articoli.
Williams ha indicato che il team aveva familiarità con la corsa di Hadoop e aveva funzionato in modo affidabile con pochi problemi. Al contrario, ha indicato che “la corsa finora con Hbase è stata accidentata.”Williams ha osservato che eBay rimane impegnata nella tecnologia, ha contribuito a correggere i problemi che hanno trovato, stanno imparando rapidamente e che le ultime due settimane sono andate senza intoppi. Il team di ingegneria era nuovo nell’uso di HBase e si è imbattuto in alcuni problemi durante il test su larga scala, come ad esempio:
- Configurazione del cluster di produzione per i loro carichi di lavoro
- Problemi di hardware
- Stabilità: server della regione instabile, master instabile, regioni bloccate in transizione
- Monitoraggio HBase Health: spesso i problemi non sono stati rilevati fino a quando non hanno un impatto sul servizio in tempo reale: il team sta aggiungendo un sacco di monitoraggio
- Gestione dei lavori MapReduce a più fasi
Nel complesso Williams ha ritenuto che il progetto fosse ambizioso ma era andato rapidamente e bene e che il team è stato in grado di utilizzare Hadoop e Hbase per costruire un’esperienza di ricerca significativamente migliorata.
Hadoop – Il potere dell’elefante
In un precedente post, Junling ha discusso del data mining e della nostra necessità di elaborare i petabyte di dati per ottenere approfondimenti dalle informazioni. Usiamo diversi strumenti e sistemi per aiutarci con questo compito; Quello che discuterò qui è Apache Hadoop.
Creato da Doug Cuting nel 2006 che lo ha chiamato dopo l’elefante giallo imbottito di suo figlio e basato sul documento MapReduce di Google nel 2004, Hadoop è un framework open source per il calcolo tollerante, scalabile e distribuito sugli errori sugli hardware delle materie prime.
MapReduce è un modello di programmazione flessibile per l’elaborazione di set di dati di grandi dimensioni:
Carta geografica prende coppie di tasti/valore come input e genera un’uscita intermedia di un altro tipo di coppie di tasti/valore, mentre Ridurre Prende i tasti prodotti nella fase della mappa insieme a un elenco di valori associati alla stessa chiave per produrre l’output finale di coppie di tasti/valori.
Carta geografica (Key1, Value1) -> Elenco (Key2, Value2)
Ridurre (Key2, List (Value2)) -> Elenco (Key3, Value3)
Ecosistema
Atena, il nostro primo grande cluster è stato messo in uso all’inizio di quest’anno.
Diamo un’occhiata allo stack dal basso verso l’alto:
- Nucleo – The Hadoop Runtime, alcune utility comuni e il file system distribuito Hadoop (HDFS). Il file system è ottimizzato per la lettura e la scrittura di grandi blocchi di dati (da 128 MB a 256 MB).
- Riduci mappa – Fornisce le API e i componenti per sviluppare ed eseguire posti di lavoro.
- Accesso ai dati – I quadri di accesso ai dati più importanti oggi sono HBase, Pig e Hive.
- Hbase -Database spaziale multidimensionale orientato alla colonna ispirato alla bigtable di Google. Hbase fornisce l’accesso ordinato ai dati mantenendo partizioni o regioni di dati. Lo spazio di archiviazione sottostante è HDFS.
- Maiale (Latino) – Un linguaggio procedurale che fornisce capacità per caricare, filtrare, trasformare, estrarre, aggregare, join e dati di gruppo. Sviluppare
Domande:
- Cos’è Apache Hadoop?
- Cos’è MapReduce?
- Quello che è il nuovo motore di ricerca di eBay chiamato?
- Quali tecnologie vengono utilizzate nel motore di ricerca di eBay?
- Quali sono i miglioramenti nel nuovo motore di ricerca rispetto al vecchio sistema?
- Come vengono archiviati i dati nel nuovo motore di ricerca?
- Quali sono alcune sfide che eBay deve affrontare quando si utilizza HBase?
- Quanti dati eBay attualmente archiviano nei cluster Hadoop e Teradata?
- Cos’è Hbase?
- Cos’è il maiale?
- Qual è lo scopo degli HDF?
- Qual è lo scopo di Athena?
- Quanto tempo impiegò il team di eBay per ricostruire la ricerca del sito principale?
- Qual è la portata del nuovo motore di ricerca di eBay?
- Quali miglioramenti offre Hadoop al sistema di ricerca di eBay?
Apache Hadoop è un framework open source per il calcolo di tolleranza di guasto, scalabile e distribuito sull’hardware delle materie prime. È stato creato da Doug Cuting nel 2006 in base al documento MapReduce di Google.
MapReduce è un modello di programmazione flessibile per l’elaborazione di set di dati di grandi dimensioni. Prende coppie chiave/valore come input nella fase della mappa e genera un’uscita intermedia di un altro tipo di coppia chiave/valore. Il passaggio di riduzione prende le chiavi prodotte nella fase della mappa insieme a un elenco di valori associati alla stessa chiave per produrre l’output finale di coppie chiave/valore.
Il nuovo motore di ricerca di eBay si chiama Cassini.
Il motore di ricerca di eBay utilizza Apache Hadoop per gli aggiornamenti dell’Indice orario e Apache HBase per fornire accesso casuale alle informazioni sull’articolo.
Il nuovo motore di ricerca (CASSINI) utilizza 100 di fattori per la classifica rispetto al vecchio sistema (Galileo) che ha utilizzato 10 di fattori. Utilizza anche tutti i dati disponibili per abbinare per impostazione predefinita, supporta l’implementazione, il monitoraggio e la bonifica automatizzati e include 90 giorni di dati storici online.
Gli articoli sono archiviati in HBase, che consente letture e scritture rapide per l’annotazione degli articoli.
Ebay ha affrontato sfide come la configurazione del cluster di produzione, i problemi hardware, la stabilità dei server della regione e il master e il monitoraggio della salute HBase. Stanno lavorando attivamente per risolvere questi problemi.
eBay attualmente memorizza 9 PB di dati in cluster Hadoop e Teradata.
Hbase è un database spaziale multidimensionale orientato alla colonna ispirato alla bigtable di Google. Fornisce l’accesso ordinato ai dati mantenendo partizioni o regioni di dati.
Il maiale è un linguaggio procedurale che fornisce capacità per caricare, filtrare, trasformare, estrarre, aggregare, join e dati di gruppo.
HDFS (file system distribuito Hadoop) è l’archiviazione sottostante per Hadoop. È ottimizzato per leggere e scrivere grandi blocchi di dati.
Atena è un cluster di grandi dimensioni utilizzato da eBay per l’elaborazione dei dati. Fa parte dell’ecosistema Hadoop di eBay.
La squadra di eBay ha impiegato 18 mesi per ricostruire completamente la ricerca del sito principale.
Il nuovo motore di ricerca di eBay, Cassini, supporterà 97 milioni di acquirenti e venditori attivi, gestirà 250 milioni di domande al giorno e avrà 200 milioni di articoli in diretta in oltre 50.000 categorie.
Hadoop consente a eBay di generare diversi tipi di indici nello stesso cluster, ripristinare o riclassificare l’intero inventario del sito ed eseguire lavori batch orari per supportare il sistema di ricerca.
Hadoop – Il potere dell’elefante
Nel complesso Williams ha ritenuto che il progetto fosse ambizioso ma era andato rapidamente e bene e che il team è stato in grado di utilizzare Hadoop e Hbase per costruire un’esperienza di ricerca significativamente migliorata.
Ebay prepara la ricerca di prossima generazione costruita con Hadoop e HBase
Ebay ha presentato un keynote a Hadoop World, descrivendo l’architettura del suo motore di ricerca completamente ricostruito, Cassini, previsto per il Live nel 2012. Indicizza tutto il contenuto e i metadati dell’utente per produrre classifiche migliori e aggiorna gli indici ogni ora. È creato utilizzando Apache Hadoop per aggiornamenti di indice orario e Apache HBase per fornire accesso casuale alle informazioni sull’articolo. Hugh e. Williams La ricerca, l’esperienza e le piattaforme VP per i mercati eBay hanno consegnato il keynote, dove ha delineato la scala, le tecnologie utilizzate ed esperienze da uno sforzo di 18 mesi da oltre 100 ingegneri per ricostruire completamente la ricerca del sito di EBay di Ebay. La nuova piattaforma, Cassini, supporterà:
- 97 milioni di acquirenti e venditori attivi
- 250 milioni di domande al giorno
- 200 milioni di articoli vivono in oltre 50.000 categorie
eBay memorizza già 9 PB di dati nei cluster Hadoop e Teradata per l’analisi, ma questa sarà la loro prima applicazione di produzione che gli utenti usano direttamente. Il nuovo sistema sarà più esteso di quello attuale (Galileo):
Old System: Galileo | Nuovo sistema: Cassini |
---|---|
10 di fattori utilizzati per la classifica | 100 di fattori utilizzati per la classifica |
partita solo per il titolo per impostazione predefinita | Utilizzare tutti i dati per abbinare per impostazione predefinita |
Intervento manuale per lancio, monitoraggio, bonifica | lancio automatizzato, monitoraggio, bonifica |
Cassini manterrà online 90 giorni di dati storici – Attualmente 1 miliardo di articoli e includerà dati utente e comportamentali per la classifica. La maggior parte del lavoro richiesto per supportare il sistema di ricerca viene svolto in lavori batch orari che funzionano a Hadoop. Diversi tipi di indici saranno tutti generati nello stesso cluster (un miglioramento rispetto a Galileo, che aveva cluster diversi per ogni tipo di indicizzazione). L’ambiente Hadoop consente a eBay di ripristinare o riclassificare l’intero inventario del sito man mano che vengono creati miglioramenti.
Gli articoli sono archiviati in HBase e vengono normalmente scansionati durante gli aggiornamenti dell’indice orario. Quando è elencato un nuovo elemento, verrà cercato in HBase e aggiunto all’indice in tempo reale in pochi minuti. Hbase consente anche scritture di oggetti in blocco e incrementali e letture e scritture rapide per l’annotazione degli articoli.
Williams ha indicato che il team aveva familiarità con la corsa di Hadoop e aveva funzionato in modo affidabile con pochi problemi. Al contrario, ha indicato che “la corsa finora con Hbase è stata accidentata.”Williams ha osservato che eBay rimane impegnata nella tecnologia, ha contribuito a correggere i problemi che hanno trovato, stanno imparando rapidamente e che le ultime due settimane sono andate senza intoppi. Il team di ingegneria era nuovo nell’uso di HBase e si è imbattuto in alcuni problemi durante il test su larga scala, come ad esempio:
* Configurazione del cluster di produzione per i loro carichi di lavoro
* Problemi hardware
* Stabilità: server regionali instabili, master instabile, regioni bloccate in transizione
* Monitoraggio HBase Health: spesso i problemi non sono stati rilevati fino a quando non hanno un impatto sul servizio in tempo reale – Il team sta aggiungendo un sacco di monitoraggio
* Gestione dei lavori MapReduce in più passi
Nel complesso Williams ha ritenuto che il progetto fosse ambizioso ma era andato rapidamente e bene e che il team è stato in grado di utilizzare Hadoop e Hbase per costruire un’esperienza di ricerca significativamente migliorata.
Hadoop – Il potere dell’elefante
In un precedente post, Junling ha discusso del data mining e della nostra necessità di elaborare i petabyte di dati per ottenere approfondimenti dalle informazioni. Usiamo diversi strumenti e sistemi per aiutarci con questo compito; quello i’Discutere qui è Apache Hadoop.
Creato da Doug Cuting nel 2006 che lo ha chiamato dopo suo figlio’S ripieni di elefanti gialli e basato su Google’S MapReduce Paper Nel 2004, Hadoop è un framework open source per il calcolo a tollerante di guasti, scalabile e distribuito sull’hardware delle materie prime.
MapReduce è un modello di programmazione flessibile per l’elaborazione di set di dati di grandi dimensioni:
Carta geografica prende coppie di tasti/valore come input e genera un’uscita intermedia di un altro tipo di coppie di tasti/valore, mentre Ridurre Prende i tasti prodotti nella fase della mappa insieme a un elenco di valori associati alla stessa chiave per produrre l’output finale di coppie di tasti/valori.
Carta geografica (Key1, Value1) -> Elenco (Key2, Value2)
Ridurre (Key2, List (Value2)) -> Elenco (Key3, Value3)
Ecosistema
Atena, il nostro primo grande cluster è stato messo in uso all’inizio di quest’anno.
Permettere’S Guarda lo stack dal basso verso l’alto:
- Nucleo – The Hadoop Runtime, alcune utility comuni e il file system distribuito Hadoop (HDFS). Il file system è ottimizzato per la lettura e la scrittura di grandi blocchi di dati (da 128 MB a 256 MB).
- Riduci mappa – Fornisce le API e i componenti per sviluppare ed eseguire posti di lavoro.
- Accesso ai dati – I quadri di accesso ai dati più importanti oggi sono HBase, Pig e Hive.
- Hbase – Database spaziale multidimensionale orientato alla colonna ispirato a Google’s bigtable. Hbase fornisce l’accesso ordinato ai dati mantenendo partizioni o regioni di dati. Lo spazio di archiviazione sottostante è HDFS.
- Maiale(Latino) – Un linguaggio procedurale che fornisce capacità per caricare, filtrare, trasformare, estrarre, aggregare, join e dati di gruppo. Gli sviluppatori usano il maiale per la costruzione di condotte e fabbriche di dati.
- Alveare – Un linguaggio dichiarativo con sintassi SQL utilizzata per creare data warehouse. L’interfaccia SQL rende Hive una scelta attraente per gli sviluppatori di convalidare rapidamente i dati, per i product manager e per gli analisti.
Infrastruttura
I nostri server aziendali eseguono Redhat Linux a 64 bit.
- Namenode è il server principale responsabile della gestione degli HDF.
- JobTracker è responsabile del coordinamento dei lavori e delle attività associate ai lavori.
- Hbasemaster Memorizza la memoria radicale per HBase e facilita il coordinamento con blocchi o regioni di archiviazione.
- Zookeeper è un coordinatore del blocco distribuito che fornisce coerenza per HBase.
I nodi di archiviazione e calcolo sono unità 1U che eseguono il sistema operativo centrale con 2 macchine quad core e spazio di archiviazione da 12 a 24 TB. Imballiamo i nostri rack con 38-42 di queste unità per avere una griglia molto densa.
Sul lato del networking, utilizziamo gli switch di rack con una larghezza di banda del nodo di 1 Gbps. Gli switch del rack uplink agli switch core con una velocità di linea di 40 GPB per supportare l’elevata larghezza di banda necessaria per la mescolanza dei dati.
Programmazione
Il nostro cluster è utilizzato da molti team all’interno di eBay, per la produzione e un lavoro una tantum. Usiamo Hadoop’S Fair Scheduler per gestire gli allocazioni, definire i pool di lavoro per i team, assegnare pesi, limitare i lavori simultanei per utente e team, impostare timeout di preemption e pianificazione ritardata.
Sourcing dei dati
Su base giornaliera ingeriamo da 8 a 10 TB di nuovi dati.
Strada da percorrere
Ecco alcune delle sfide a cui stiamo lavorando mentre costruiamo la nostra infrastruttura:
- Scalabilità
Nella sua attuale incarnazione, il server principale Namenode ha problemi di scalabilità. Man mano che il file system del cluster cresce, anche l’impronta di memoria mantiene l’intero metadati in memoria. Per 1 pb di memoria è necessario circa 1 GB di memoria. Le possibili soluzioni sono il partizionamento dello spazio dei nomi gerarchici o sfruttando Zookeeper in combinazione con HBase per la gestione dei metadati. - Disponibilità
Namenode’La disponibilità è fondamentale per i carichi di lavoro di produzione. La comunità open source sta lavorando su diverse opzioni di standby fredde, calde e calde come il checkpoint e i nodi di backup; Nodi avatar che cambiano avatar dal Namenode secondario; Tecniche di replica dei metadati del diario. Li stiamo valutando per costruire i nostri gruppi di produzione. - Discovery dei dati
Supportare la gestione dei dati, la scoperta e la gestione dello schema in cima a un sistema che intrinsecamente non supporta la struttura. Un nuovo progetto propone di combinare Hive’S Metadata Store e gufo in un nuovo sistema, chiamato Howl. Il nostro sforzo è quello di legarlo alla nostra piattaforma di analisi in modo che i nostri utenti possano scoprire facilmente i dati attraverso i diversi sistemi di dati. - Movimento dei dati
Stiamo lavorando sugli strumenti di movimento dei dati di pubblicazione/abbonamento per supportare la copia e la riconciliazione dei dati tra i nostri diversi sottosistemi come Data Warehouse e HDFS. - Politiche
Abilita buone politiche di conservazione, archivio e backup con gestione della capacità di archiviazione attraverso quote (le attuali quote Hadoop necessitano di un po ‘di lavoro). Stiamo lavorando per definirli attraverso i nostri diversi cluster in base al carico di lavoro e alle caratteristiche dei cluster. - Metriche, metriche, metriche
Stiamo costruendo strumenti robusti che generano metriche per l’approvvigionamento dei dati, il consumo, il budget e l’utilizzo. Le metriche esistenti esposte da alcuni dei server di Hadoop Enterprise non sono abbastanza o transitorie che rendono difficili i modelli di utilizzo del cluster.
eBay sta cambiando il modo in cui raccoglie, trasforma e utilizza i dati per generare business intelligence. Noi’re assumere e noi’D ti amo venire ad aiutare.
Anil Madan
Direttore dell’ingegneria, sviluppo della piattaforma di analisiCome eBay utilizza Big Data e Machine Learning per guidare il valore aziendale
La trasformazione digitale, sebbene non nuova, è cambiata enormemente con l’avvento di nuove tecnologie per l’analisi dei big data e l’apprendimento automatico. La chiave degli sforzi di trasformazione digitale della maggior parte dell’azienda è sfruttare le approfondimenti da vari tipi di dati al momento giusto. Fortunatamente, le organizzazioni ora hanno accesso a una vasta gamma di soluzioni per raggiungere questo obiettivo.
Come si avvicinano i leader nello spazio oggi? Di recente ho avuto una discussione con Seshu ADUUTHULA, Senior Director of Analytics Infrastructure di eBay, per discutere di questa questione. eBay è sempre stato un business digitale, ma anche i leader IT delle aziende che sono nate come aziende digitali stanno abbracciando le ultime tecnologie digitali per migliorare i loro processi esistenti e costruire nuove esperienze. Secondo Adunuthula, “i dati sono la risorsa più importante di eBay.”Ebay gestisce circa 1 miliardo di elenchi dal vivo e 164 milioni di acquirenti attivi ogni giorno. Di questi, eBay riceve 10 milioni di nuovi elenchi via Mobile ogni settimana . Chiaramente, l’azienda come grandi volumi di dati, ma la chiave del suo futuro successo sarà la velocità con cui può trasformare i dati in un’esperienza personalizzata che guida le vendite.
Progettare e aggiornare una strategia tecnica
La prima sfida con cui Ebay ha lottato è stata quella di trovare una piattaforma, a parte il suo tradizionale data warehouse, in grado di archiviare un’enorme quantità di dati che variavano per tipo. Adunuthula ha affermato che il tipo di dati, la struttura dei dati e la velocità richiesta dell’analisi significavano che la società doveva evolversi da una struttura tradizionale di data warehouse a ciò che chiama dati laghi. Ad esempio, l’azienda deve conservare circa nove quarti di dati sulle tendenze storiche per fornire approfondimenti su articoli come la crescita di anno in anno. Deve anche analizzare i dati in tempo reale per aiutare gli acquirenti durante il ciclo di vendita.
La capacità di supportare i dati su scala di una società Internet è stata una considerazione chiave nella selezione di tecnologie e partner. La società ha scelto di lavorare con il prodotto Hadoop di Hortonwork perché offriva una piattaforma open source che era altamente scalabile e il fornitore era disposto a lavorare con eBay per progettare miglioramenti del prodotto. Con una base di Hadoop e Hortonworks, gli altri due componenti della strategia della piattaforma dati di eBay sono ciò che chiama flussi e servizi.
Una grande sfida tecnica per eBay e ogni azienda ad alta intensità di dati è quella di distribuire un sistema in grado di analizzare e agire rapidamente sui dati mentre arriva ai sistemi dell’organizzazione (chiamati dati di streaming). Esistono molti metodi in rapida evoluzione per supportare l’analisi dei dati di streaming. Ebay sta attualmente lavorando con diversi strumenti tra cui Apache Spark, Storm, Kafka e Hortonworks HDF. Il livello dei servizi dati della sua strategia fornisce funzioni che consentono a un’azienda di accedere e interrogare i dati. Consente agli analisti dei dati dell’azienda di cercare tag di informazioni che sono stati associati ai dati (chiamati metadati) e lo rendono consumabile a quante più persone possibili con il giusto livello di sicurezza e autorizzazioni (chiamato governance dei dati). Sta anche usando un motore di query interattivo su Hadoop chiamato Presto. La società è stata in prima linea nell’uso delle soluzioni di big data e contribuisce attivamente alle sue conoscenze alla comunità open source.
L’attuale strategia dei big data di eBay rappresenta alcune delle potenziali combinazioni e opzioni disponibili per le aziende che cercano di elaborare un grande volume di dati che non sono simili in formato e combinazioni di dati che potrebbero essere analizzati in tempo reale o archiviati per l’analisi in un secondo momento. Naturalmente, la selezione di soluzioni di big data dipende da ciò che stai cercando di realizzare come azienda.
Utilizzo di una piattaforma di apprendimento di big data e machine per fornire valore aziendale
Nel caso di eBay, l’azienda utilizza soluzioni di big data e machine learning per affrontare casi d’uso come personalizzazione, merchandising e test A/B per nuove funzionalità per migliorare l’esperienza dell’utente. Ad esempio, la personalizzazione dei modelli eBay su cinque quarti di strutturato (E.G. Un miliardo di elenchi, acquisti, ecc.) e non strutturato (sinossi dell’attività comportamentale, nuvole di parole, badge ecc.) dati. Il merchandising è migliorato utilizzando l’analisi e l’apprendimento automatico per aiutare a raccomandare elementi simili sui posizionamenti chiave sul sito e sui dispositivi mobili. Articoli, come Deal Discovery, utilizza l’apprendimento automatico per trovare modelli nei dati strutturati. eBay sta anche creando modelli predittivi di apprendimento automatico per il rilevamento delle frodi, l’acquisizione dell’account e l’abilitazione della previsione del rischio dell’acquirente/venditore. Chiaramente, eBay ha trascorso un enorme tempo e risorse per raggiungere questo livello di competenza nell’elaborazione dei dati e nel miglioramento del flusso di lavoro aziendale. Per eBay e molti altri, il viaggio è tutt’altro che finito. La società desidera continuare a ottimizzare l’analisi dello streaming e migliorare la governance dei dati.
Cosa dovresti fare dopo?
Per quelle aziende che stanno iniziando, Adunuthula ha offerto alcune parole di saggio consigli. La più grande sfida è la governance dei dati e impedirgli di diventare il selvaggio West. Un’azienda non può semplicemente scaricare tutto in un sistema e preoccuparsi della governance più tardi. Se stai costruendo una strategia di dati oggi, inizia con la governance.
Esempi di questo potrebbero includere la definizione del processo per consentire l’accesso a persone diverse e come abilitare la conformità PCI nei set di dati per i rivenditori. La strategia dovrebbe delineare come rendere i dati rilevabili e come evolvere il processo. Ha osservato che ci sono nuove soluzioni, come Atlas e Navigator, che emergono oggi. Tuttavia, il paesaggio cambia continuamente. Se stai iniziando il viaggio oggi, un’azienda può mettere in atto una governance dei dati prima di costruire set di dati, data warehouse e laghi di dati enormi. È più facile aggiungere la governance dei dati all’inizio del processo.
Dalle discussioni con i miei clienti, ho appreso che ci sono diversi passaggi importanti nella costruzione di una strategia di big data che include:
- Definizione di una vittoria rapida e un caso d’uso a lungo termine. Costruire un caso d’uso strettamente con ambito è essenziale per acquisire finanziamenti e dimostrare un valore immediato dagli sforzi della strategia dei dati. Ad esempio, molte aziende definiscono un caso d’uso che prevede la connessione e l’analisi di nuove fonti di dati per comprendere i comportamenti di acquisto. La selezione di un caso di utilizzo ristretto consente agli analisti dei dati di testare nuove tecnologie e fornire nuove approfondimenti al business.
- Valutare ciò di cui hai bisogno in un partner di dati. eBay ha un sofisticato team di ingegneria e sa cosa stava cercando di ottenere. La società era alla ricerca di un partner per aiutare a fornire scala e assistenza per migliorare le soluzioni open source. Una società potrebbe anche aver bisogno del proprio partner per fornire più formazione, servizi di consulenza e architetture di riferimento basate sul settore.
- Costruire l’ecosistema giusto. Non esiste una soluzione di archiviazione e analisi dei dati che risolverà tutti i casi d’uso di un’azienda. In alcune aree, le soluzioni di data warehouse esistenti di un’azienda funzionano perfettamente. In altri casi, avrai bisogno di analisi di streaming. Allo stesso modo, non esiste un singolo strumento o un fornitore che fornirà tutto il necessario. Il mondo dell’analisi dei dati di oggi richiede un ecosistema di strumenti e partner. Cerca partnership tra venditori che faciliteranno le sfide di integrazione.
- Alla ricerca di nuovi casi d’uso. Invece di replicare ciò che hai, un’azienda dovrebbe cercare modi in cui nuovi dati possano essere acquisiti e analizzati per migliorare i processi aziendali. Parte del vantaggio di questi nuovi strumenti di dati e analisi è la scoperta di modelli, anomalie e nuove intuizioni che non esistevano nel sistema di analisi dei dati legacy. I leader aziendali dovrebbero lavorare con esso per cercare modi in cui le nuove soluzioni di archiviazione e analisi dei dati possono rispondere a domande a cui non erano facili da rispondere in passato.
Ebay usa Hadoop?
- I CIO assumono l’adattabilità organizzativa, la resilienza CIO e altri dirigenti tecnologici stanno preparando le loro organizzazioni fanno ciò che serve per rimanere flessibile in un periodo di imprevedibile .
- FTC esamina la concorrenza nel cloud computing La Federal Trade Commission sta esaminando l’impatto di una manciata di grandi aziende tecnologiche come Amazon, Microsoft e Google .
- U.S. La crisi del debito potrebbe colpire gli appaltatori del governo che gli appaltatori del governo duro dovrebbero prepararsi ora per l’u.S. a inadempienza sul suo debito, il che comporterebbe pagamenti interrotti tra gli altri .
- Chiusura del libro alla conferenza RSA 2023 AI, sicurezza del cloud, modernizzazione e igiene della sicurezza e gestione della postura erano tutti argomenti caldi alla RSAC a San Francisco .
- Il firmware del router TP-Link TP-Link Cinese Apt Exploits tramite le tecnologie software di controllo dell’impianto ha affermato che l’impianto dannoso, che ha attribuito al “Drago Camaro” cinese APT era il firmware .
- Proteggi dalle minacce attuali e future con le minacce informatiche attuali e future di crittografia, come ransomware, intelligenza artificiale generativa, calcolo quantistico e un aumento della sorveglianza, sono .
- Sonic NOS affronta sfide che si adattano alle stime di Gartner mainstream che meno di 200 imprese abbiano una produzione sonora, da un potenziale mercato dei data center di 100.000. Uno.
- 12 Protocolli di rete comuni e le loro funzioni hanno spiegato che il networking fa funzionare Internet, ma nessuno dei due può avere successo senza protocolli. Protocolli di rete comuni e le loro funzioni sono .
- Python Interpreter vs. IDE: ciò che gli ingegneri di rete dovrebbero sapere quando si utilizzano Python per l’automazione della rete, gli ingegneri di rete spesso lavorano con gli interpreti e l’ambiente di sviluppo integrato .
- Rendi efficienti le operazioni del mainframe con queste strategie i mainframe influiscono sui profitti organizzativi. Un esperto delinea alcune strategie chiave per mantenere l’affidabilità mantenendo .
- Come utilizzare CHATGPT per Mainframe Application Management Chatgpt può aiutare a gestire le applicazioni mainframe convertendo, ottimizzando e migliorando il codice. Inoltre, può creare .
- Esplora l’impatto del calcolo quantistico sulla crittografia quando i computer quantistici saranno disponibili, molti tipi di crittografia saranno vulnerabili. Impara perché e cosa viene ricercato .
- QLik completa l’acquisto di Talend, aumenta la suite di integrazione con l’acquisizione, il fornitore di analisi di lunga data aggiunge un approccio di dati di dati e una migliore qualità dei dati e abilità di governance .
- I database mainframe insegnano a un vecchio cane che nuovi trucchi di sopravvivenza prevedevano a lungo di svanire a favore di architetture più moderne, i mainframe svolgono ancora un ruolo fondamentale nell’IT aziendale IT .
- Mesh di dati vs. Altre opzioni di gestione dei dati Mesh Data Adotta un approccio decentralizzato alla gestione dei dati e deriva dal valore dai dati. Condivide somiglianze con i dati .