האם eBay משתמשת ב- Hadoop?
Hadoop – כוחו של הפיל
בסך הכל וויליאמס חש שהפרויקט שאפתני אך הלך במהירות ובאופן טוב, וכי הצוות הצליח להשתמש ב- Hadoop וב- HBase כדי לבנות חווית חיפוש משופרת משמעותית.
eBay קוראת לחיפוש הדור הבא שנבנה עם Hadoop ו- HBase
eBay הציגה מפתח מפתח ב- Hadoop Worl. זה מדד את כל המטא נתונים של התוכן והמשתמשים כדי לייצר דירוגים טובים יותר ומרענן אינדקסים לפי שעה. הוא בנוי באמצעות Apache Hadoop לעדכוני אינדקס לפי שעה ו- Apache HBase כדי לספק גישה אקראית למידע על פריט. יו ה. וויליאמס, סמנכ”ל חיפוש, ניסיון ופלטפורמות עבור Marketpancal. הפלטפורמה החדשה, קאסיני, תתמוך:
- 97 מיליון קונים ומוכרים פעילים
- 250 מיליון שאילתות ביום
- 200 מיליון פריטים חיים בלמעלה מ- 50,000 קטגוריות
eBay כבר מאחסנת 9 PB נתונים באשכולות Hadoop ו- Teradata לניתוח, אך זה יהיה יישום הייצור הראשון שלהם שמשתמשים משתמשים בהם ישירות. המערכת החדשה תהיה נרחבת יותר מזו הנוכחית (גלילאו):
מערכת ישנה: גלילאו | מערכת חדשה: קאסיני |
---|---|
10 גורמים המשמשים לדירוג | 100 גורמים המשמשים לדירוג |
התאמה כותרת בלבד כברירת מחדל | השתמש בכל הנתונים כדי להתאים כברירת מחדל |
התערבות ידנית להפעלה, ניטור, תיקון | הפעלה אוטומטית, ניטור, תיקון |
קאסיני ישמור על 90 יום של נתונים היסטוריים באופן מקוון – כיום מיליארד פריטים, ויכלול נתוני משתמשים והתנהגות לדירוג. מרבית העבודה הנדרשת לתמיכה במערכת החיפוש נעשית בעבודות אצווה לפי שעה הפועלות ב- Hadoop. סוגים שונים של אינדקסים ייווצרו כולם באותו אשכול (שיפור לעומת גלילאו, שהיו להם אשכולות שונים לכל סוג של אינדקס). סביבת Hadoop מאפשרת ל- eBay לשחזר או לסווג מחדש את מלאי האתר כולו כשיפור שיפורים.
הפריטים מאוחסנים ב- HBASE, והם בדרך כלל נסרקים במהלך עדכוני האינדקס לשעה. כאשר רשום פריט חדש, הוא יחפש אותו ב- HBase ויוסיף לאינדקס החי תוך דקות. HBASE מאפשר גם כתיבת פריט בתפזורת ומצטברת וקריאות פריטים מהיר וכותב להערת פריטים.
וויליאמס ציין כי הצוות מכיר את ריצת Hadoop וזה עבד באופן אמין עם מעט בעיות. לעומת זאת, הוא ציין כי “הרכיבה עד כה עם Hbase הייתה מהמורות.”וויליאמס ציין כי eBay נותרה מחויבת לטכנולוגיה, תורמת תיקונים לבעיות שהם מצאו, לומדים מהר וכי בשבועיים האחרונים עברו בצורה חלקה. צוות ההנדסה היה חדש בשימוש ב- HBase ונתקל בבעיות מסוימות בבדיקה בקנה מידה, כגון:
- תצורת אשכול ייצור לעומסי העבודה שלהם
- בעיות חומרה
- יציבות: שרתי אזור לא יציבים, אדון לא יציב, אזורים תקועים במעבר
- מעקב אחר HBase Health: לעתים קרובות לא התגלו בעיות עד שהן משפיעות על שירות חי – הצוות מוסיף הרבה מעקב
- ניהול משרות MapReduce רב-שלבי
בסך הכל וויליאמס חש שהפרויקט שאפתני אך הלך במהירות ובאופן טוב, וכי הצוות הצליח להשתמש ב- Hadoop וב- HBase כדי לבנות חווית חיפוש משופרת משמעותית.
Hadoop – כוחו של הפיל
בפוסט קודם, ג’ונלינג דן בכריית נתונים ובצורך שלנו לעבד פטביטים של נתונים כדי לקבל תובנות ממידע. אנו משתמשים בכמה כלים ומערכות כדי לעזור לנו במשימה זו; זה שאדון כאן הוא אפאצ’י הדופ.
Hadoop, שנוצר על ידי דאג קיצוץ בשנת 2006, שכינה אותו על שם הפיל הצהוב הממולא של בנו, ומבוסס על נייר MapReduce של גוגל בשנת 2004, הוא מסגרת קוד פתוח למחשוב סובלני תקלות, מדרגיות ומופצות על חומרת סחורות.
MapReduce הוא מודל תכנות גמיש לעיבוד מערכי נתונים גדולים:
מַפָּה לוקח זוגות מפתח/ערך כקלט ומייצר פלט ביניים של סוג אחר של זוגות מפתח/ערך, ואילו לְהַפחִית לוקח את המפתחות המיוצרים בשלב המפה יחד עם רשימת ערכים המשויכים לאותו מקש כדי לייצר את הפלט הסופי של זוגות מפתח/ערך.
מַפָּה (Key1, Value1) -> רשימה (Key2, Value2)
לְהַפחִית (מפתח 2, רשימה (ערך 2)) -> רשימה (Key3, Value 3)
מערכת אקולוגית
אתנה, האשכול הגדול הראשון שלנו הועמד לשימוש מוקדם יותר השנה.
בואו נסתכל על הערימה מלמטה למעלה:
- הליבה – זמן הריצה של Hadoop, כמה כלי עזר נפוצים ומערכת הקבצים המופצת של Hadoop (HDFS). מערכת הקבצים מותאמת לקריאה וכתיבת בלוקים גדולים של נתונים (128 מגה -בייט עד 256 מגה בייט).
- MAPREDUCE – מספק את ממשקי ה- API והרכיבים לפיתוח וביצוע משרות.
- גישה למידע – מסגרות הגישה לנתונים הבולטות ביותר כיום הן Hbase, Pig and Hive.
- HBase -מסד נתונים מרחבי רב-ממדי מונחה עמודות בהשראת BigTable של גוגל. HBASE מספקת גישה לנתונים ממוינים על ידי שמירה על מחיצות או אזורים של נתונים. האחסון הבסיסי הוא HDFS.
- חֲזִיר (לטינית) – שפה פרוצדורלית המספקת יכולות לטעון, לסנן, לשנות, לחלץ, לצבור, להצטרף ולנתונים קבוצתיים. לְפַתֵחַ
שאלות:
- מה זה אפאצ’י Hadoop?
- מה זה mapreduce?
- מה נקרא מנוע החיפוש החדש של eBay?
- באילו טכנולוגיות משתמשים במנוע החיפוש של eBay?
- מהם השיפורים במנוע החיפוש החדש בהשוואה למערכת הישנה?
- כיצד מאוחסנים נתונים במנוע החיפוש החדש?
- מהם כמה אתגרים מתמודדים עם eBay בעת השימוש ב- HBase?
- כמה נתונים מאחסנים כיום eBay באשכולות Hadoop ו- Teradata?
- מה זה HBase?
- מה זה חזיר?
- מה המטרה של HDF?
- מה מטרת אתנה?
- כמה זמן לקח לקבוצה של eBay לבנות מחדש את חיפוש האתר העיקרי שלהם?
- מה סולם מנוע החיפוש החדש של eBay?
- אילו שיפורים מביא Hadoop למערכת החיפוש של eBay?
Apache Hadoop הוא מסגרת קוד פתוח למחשוב סובלני תקלות, מדרגיות ומופצות על חומרת סחורות. זה נוצר על ידי דאג קיצוץ בשנת 2006 על בסיס נייר MapReduce של גוגל.
MapReduce הוא מודל תכנות גמיש לעיבוד מערכי נתונים גדולים. זה לוקח זוגות מפתח/ערך כקלט בשלב המפה ומייצר פלט ביניים מסוג מפתח/זוג אחר של זוג/ערך. שלב הפחתת לוקח את המפתחות המיוצרים בשלב המפה יחד עם רשימת ערכים המשויכים לאותו מקש כדי לייצר את הפלט הסופי של זוגות מפתח/ערך.
מנוע החיפוש החדש של eBay נקרא קאסיני.
מנוע החיפוש של eBay משתמש ב- Apache Hadoop לעדכוני אינדקס לפי שעה ו- Apache HBase כדי לספק גישה אקראית למידע על פריטים.
מנוע החיפוש החדש (קאסיני) משתמש במאה גורמים לדירוג בהשוואה למערכת הישנה (גלילאו) שהשתמשו ב -10 גורמים. הוא גם משתמש בכל הנתונים הזמינים כדי להתאים כברירת מחדל, תומך בהפעלה אוטומטית, ניטור ותיקון, וכולל 90 יום של נתונים היסטוריים באופן מקוון.
הפריטים מאוחסנים ב- HBase, המאפשר קריאות פריטים מהירות וכותבים להערת פריטים.
eBay התמודדה עם אתגרים כמו תצורת אשכול ייצור, בעיות חומרה, יציבות של שרתי אזורים ומאסטר, ומעקב אחר HBase Health. הם עובדים באופן פעיל על פתרון סוגיות אלה.
eBay מאחסנת כיום 9 PB נתונים באשכולות Hadoop ו- Teradata.
HBASE הוא מסד נתונים מרחבי רב-ממדי מונחה עמודות בהשראת BigTable של גוגל. הוא מספק גישה לנתונים ממוינים על ידי שמירה על מחיצות או אזורים של נתונים.
חזיר היא שפה פרוצדורלית המספקת יכולות לטעון, לסנן, לשנות, לתמציות, לצבור, להצטרף ולקבוצות נתונים.
HDFS (מערכת הקבצים המופצת של Hadoop) היא האחסון הבסיסי עבור Hadoop. זה מותאם לקריאה וכתיבת בלוקים גדולים של נתונים.
אתנה היא אשכול גדול המשמש את eBay לעיבוד נתונים. זה חלק מהמערכת האקולוגית של Hadoop של eBay.
לקח צוות של eBay 18 חודשים כדי לבנות מחדש לחלוטין את חיפוש האתר העיקרי שלהם.
מנוע החיפוש החדש של EBAY, קאסיני, יתמוך ב 97 מיליון קונים ומוכרים פעילים, יטפל ב -250 מיליון שאילתות ביום ויש בו 200 מיליון פריטים גרים בלמעלה מ- 50,000 קטגוריות.
Hadoop מאפשר ל- eBay לייצר סוגים שונים של אינדקסים באותו אשכול, לשחזר או לסווג מחדש את מלאי האתר ולבצע עבודות אצווה לפי שעה כדי לתמוך במערכת החיפוש.
Hadoop – כוחו של הפיל
בסך הכל וויליאמס חש שהפרויקט שאפתני אך הלך במהירות ובאופן טוב, וכי הצוות הצליח להשתמש ב- Hadoop וב- HBase כדי לבנות חווית חיפוש משופרת משמעותית.
eBay קוראת לחיפוש הדור הבא שנבנה עם Hadoop ו- HBase
eBay הציגה מפתח מפתח ב- Hadoop Worl. זה מדד את כל המטא נתונים של התוכן והמשתמשים כדי לייצר דירוגים טובים יותר ומרענן אינדקסים לפי שעה. הוא בנוי באמצעות Apache Hadoop לעדכוני אינדקס לפי שעה ו- Apache HBase כדי לספק גישה אקראית למידע על פריט. יו ה. וויליאמס חיפוש, ניסיון ופלטפורמות של סמנכ”לית עבור EBAY Marketplaces העביר את המפתח, שם הוא תיאר את הסולם, הטכנולוגיות בהן נעשה שימוש וחוויות ממאמץ של 18 חודשים של למעלה ממאה מהנדסים לבניית חיפוש אתר הליבה של eBay מחדש לחלוטין. הפלטפורמה החדשה, קאסיני, תתמוך:
- 97 מיליון קונים ומוכרים פעילים
- 250 מיליון שאילתות ביום
- 200 מיליון פריטים חיים בלמעלה מ- 50,000 קטגוריות
eBay כבר מאחסנת 9 PB נתונים באשכולות Hadoop ו- Teradata לניתוח, אך זה יהיה יישום הייצור הראשון שלהם שמשתמשים משתמשים בהם ישירות. המערכת החדשה תהיה נרחבת יותר מזו הנוכחית (גלילאו):
מערכת ישנה: גלילאו | מערכת חדשה: קאסיני |
---|---|
10 גורמים המשמשים לדירוג | 100 גורמים המשמשים לדירוג |
התאמה כותרת בלבד כברירת מחדל | השתמש בכל הנתונים כדי להתאים כברירת מחדל |
התערבות ידנית להפעלה, ניטור, תיקון | הפעלה אוטומטית, ניטור, תיקון |
קאסיני ישמור על 90 יום של נתונים היסטוריים באופן מקוון – כיום מיליארד פריטים, ויכלול נתוני משתמשים והתנהגות לדירוג. מרבית העבודה הנדרשת לתמיכה במערכת החיפוש נעשית בעבודות אצווה לפי שעה הפועלות ב- Hadoop. סוגים שונים של אינדקסים ייווצרו כולם באותו אשכול (שיפור לעומת גלילאו, שהיו להם אשכולות שונים לכל סוג של אינדקס). סביבת Hadoop מאפשרת ל- eBay לשחזר או לסווג מחדש את מלאי האתר כולו כשיפור שיפורים.
הפריטים מאוחסנים ב- HBASE, והם בדרך כלל נסרקים במהלך עדכוני האינדקס לשעה. כאשר רשום פריט חדש, הוא יחפש אותו ב- HBase ויוסיף לאינדקס החי תוך דקות. HBASE מאפשר גם כתיבת פריט בתפזורת ומצטברת וקריאות פריטים מהיר וכותב להערת פריטים.
וויליאמס ציין כי הצוות מכיר את ריצת Hadoop וזה עבד באופן אמין עם מעט בעיות. לעומת זאת הוא ציין כי “הרכיבה עד כה עם HBase הייתה מהמורות.”וויליאמס ציין כי eBay נותרה מחויבת לטכנולוגיה, תורמת תיקונים לבעיות שהם מצאו, לומדים מהר וכי בשבועיים האחרונים עברו בצורה חלקה. צוות ההנדסה היה חדש בשימוש ב- HBase ונתקל בבעיות מסוימות בבדיקה בקנה מידה, כגון:
* תצורת אשכול ייצור לעומסי העבודה שלהם
* בעיות חומרה
* יציבות: שרתי אזור לא יציבים, אדון לא יציב, אזורים תקועים במעבר
* מעקב אחר HBase Health: לעתים קרובות לא התגלו בעיות עד שהן משפיעות על שירות חי – הצוות מוסיף הרבה ניטור
* ניהול משרות MapReduce רב-שלבי
בסך הכל וויליאמס חש שהפרויקט שאפתני אך הלך במהירות ובאופן טוב, וכי הצוות הצליח להשתמש ב- Hadoop וב- HBase כדי לבנות חווית חיפוש משופרת משמעותית.
Hadoop – כוחו של הפיל
בפוסט קודם, ג’ונלינג דן בכריית נתונים ובצורך שלנו לעבד פטביטים של נתונים כדי לקבל תובנות ממידע. אנו משתמשים בכמה כלים ומערכות כדי לעזור לנו במשימה זו; זה אני’אם הדיון כאן הוא אפאצ’י הדופ.
נוצר על ידי דאג קיצוץ בשנת 2006 שקרא לו על שם בנו’S פיל צהוב ממולא, ומבוסס על גוגל’S MapReduce נייר בשנת 2004, Hadoop הוא מסגרת קוד פתוח למחשוב סובלני לתקלות, מדרגיות ומופצות על חומרת סחורות.
MapReduce הוא מודל תכנות גמיש לעיבוד מערכי נתונים גדולים:
מַפָּה לוקח זוגות מפתח/ערך כקלט ומייצר פלט ביניים של סוג אחר של זוגות מפתח/ערך, ואילו לְהַפחִית לוקח את המפתחות המיוצרים בשלב המפה יחד עם רשימת ערכים המשויכים לאותו מקש כדי לייצר את הפלט הסופי של זוגות מפתח/ערך.
מַפָּה (Key1, Value1) -> רשימה (Key2, Value2)
לְהַפחִית (מפתח 2, רשימה (ערך 2)) -> רשימה (Key3, Value 3)
מערכת אקולוגית
אתנה, האשכול הגדול הראשון שלנו הועמד לשימוש מוקדם יותר השנה.
לתת’S התבונן בערימה מלמטה למעלה:
- הליבה – זמן הריצה של Hadoop, כמה כלי עזר נפוצים ומערכת הקבצים המופצת של Hadoop (HDFS). מערכת הקבצים מותאמת לקריאה וכתיבת בלוקים גדולים של נתונים (128 מגה -בייט עד 256 מגה בייט).
- MAPREDUCE – מספק את ממשקי ה- API והרכיבים לפיתוח וביצוע משרות.
- גישה למידע – מסגרות הגישה לנתונים הבולטות ביותר כיום הן Hbase, Pig and Hive.
- HBase – מסד נתונים מרחבי רב -ממדי מונחה עמודות בהשראת גוגל’s bigtable. HBASE מספקת גישה לנתונים ממוינים על ידי שמירה על מחיצות או אזורים של נתונים. האחסון הבסיסי הוא HDFS.
- חֲזִיר(לָטִינִית) – שפה פרוצדורלית המספקת יכולות לטעון, לסנן, לשנות, לחלץ, לצבור, להצטרף ולנתונים קבוצתיים. מפתחים משתמשים בחזיר לבניית צינורות נתונים ומפעלים.
- כוורת – שפה הצהרתית עם תחביר SQL המשמשת לבניית מחסן נתונים. ממשק SQL הופך את HIVE לבחירה אטרקטיבית עבור מפתחים לאמת במהירות נתונים, עבור מנהלי מוצרים ולאנליסטים.
תַשׁתִית
שרתי הארגון שלנו מפעילים 64 סיביות Redhat Linux.
- Namenode האם שרת הראשי האחראי על ניהול ה- HDFS.
- JobTracker אחראי לתיאום המשרות והמשימות הקשורות למשרות.
- Hbasemaster מאחסן את אחסון השורש עבור HBase ומאפשר את התיאום עם בלוקים או אזורי אחסון.
- Zookeeper הוא רכז מנעול מבוזר המספק עקביות ל- HBase.
צמתי האחסון והחישוב הם יחידות 1U המפעילות את מערכת ההפעלה עם 2 מכונות ליבות מרובעות ושטח אחסון של 12 עד 24 טמפר. אנו אורזים את המתלים שלנו עם 38 עד 42 מהיחידות הללו כדי לקבל רשת צפופה ביותר.
בצד הרשתות, אנו משתמשים במתגי המתלים העליונים עם רוחב פס של צומת של 1 ג’יגה -ביט לשנייה. מתגי המתלה קישורים למתגי הליבה עם קצב קו של 40 ג’יגה -בתים כדי לתמוך ברוחב הפס הגבוה הדרוש לנתונים שיובלו סביב.
תזמון
האשכול שלנו משמש צוותים רבים בתוך eBay, לייצור כמו גם למשרות חד פעמיות. אנו משתמשים ב- Hadoop’S מתזמן הוגן לניהול הקצאות, הגדרת מאגר משרות לצוותים, להקצות משקולות, להגביל עבודות במקביל למשתמש ולצוות, קבעו פסק זמן לקראת תזמון מעוכב.
מקור נתונים
על בסיס יומיומי אנו בולקים כ- 8 עד 10 TB של נתונים חדשים.
דרך לפניך
להלן כמה מהאתגרים עליהם אנו עובדים כשאנחנו בונים את התשתית שלנו:
- מדרגיות
בגלגולו הנוכחי, ל- NameNode של שרת הראשי יש בעיות מדרגיות. ככל שמערכת הקבצים של האשכול גדלה, כך גם טביעת הרגל של הזיכרון מכיוון שהיא שומרת על כל המטא נתונים בזיכרון. עבור 1 PB של אחסון יש צורך בזיכרון של כ -1 ג’יגה -בייט. פתרונות אפשריים הם מרחב שמות היררכי חלוקת חלוקה או מינוף ZookeePer בשילוב עם HBASE לניהול מטא נתונים. - זמינות
Namenode’הזמינות היא קריטית לעומסי עבודה בייצור. קהילת הקוד הפתוח עובדת על כמה אפשרויות המתנה קרה, חמות וחמות כמו צמתים של מחסום וגיבוי; צמתים אווטריים מחליפים אווטאר מהנמנווד המשני; טכניקות שכפול מטא נתונים. אנו בוחנים את אלה כדי לבנות את אשכולות הייצור שלנו. - גילוי נתונים
תמיכה בניהול נתונים, גילוי וניהול סכמות על גבי מערכת אשר מטבעו אינה תומכת במבנה. פרויקט חדש מציע לשלב כוורת’S חנות מטא נתונים וינשוף למערכת חדשה, הנקראת Howl. המאמץ שלנו הוא לקשור את זה לפלטפורמת הניתוח שלנו כך שהמשתמשים שלנו יוכלו לגלות בקלות נתונים על פני מערכות הנתונים השונות. - תנועת נתונים
אנו עובדים על כלי תנועת נתונים לפרסום/מנוי לתמיכה בהעתקת נתונים ופיוס על פני מערכות המשנה השונות שלנו כמו מחסן הנתונים ו- HDFS. - מדיניות
אפשר מדיניות שמירה, ארכיון וגיבוי טוב עם ניהול קיבולת אחסון באמצעות מכסות (מכסות Hadoop הנוכחיות צריכות עבודה מסוימת). אנו עובדים על הגדרת אלה על פני האשכולות השונים שלנו על בסיס עומס העבודה ועל מאפייני האשכולות. - מדדים, מדדים, מדדים
אנו בונים כלים חזקים המייצרים מדדים למקור נתונים, צריכה, תקצוב וניצול. הערכים הקיימים שנחשפו על ידי חלק משרתי הארגון של Hadoop אינם מספיקים, או חולפים שמקשים על דפוסי השימוש באשכול.
eBay משנה את האופן בו הוא אוסף, הופך ומשתמש בנתונים כדי לייצר אינטליגנציה עסקית. אָנוּ’שכר מחדש, ואנחנו’D אוהב שתבוא עזרה.
אניל מדן
מנהל הנדסה, פיתוח פלטפורמות ניתוחכיצד eBay משתמשת בנתונים גדולים וללמוד מכונות כדי להניע ערך עסקי
טרנספורמציה דיגיטלית, אף שהיא לא חדשה, השתנתה מאוד עם כניסתן של טכנולוגיות חדשות לניתוח נתונים גדולים ולמידה במכונה. המפתח למאמצי הטרנספורמציה הדיגיטלית של מרבית החברה הוא לרתום תובנות מסוגים שונים של נתונים בזמן הנכון. למרבה המזל, לארגונים יש כעת גישה למגוון רחב של פתרונות להשגת מטרה זו.
איך מנהיגים במרחב מתקרבים לבעיה כיום? לאחרונה קיימתי דיון עם סשו אדונוטולה, מנהל בכיר בתשתית אנליטיקס ב- eBay, כדי לדון בעניין זה. eBay תמיד היה עסק דיגיטלי, אבל אפילו מנהיגי IT של חברות שנולדו כעסקים דיגיטליים מאמצים את הטכנולוגיות הדיגיטליות האחרונות כדי לשפר את התהליכים הקיימים שלהם ולבנות חוויות חדשות. על פי אדונוטולה, “הנתונים הם הנכס החשוב ביותר של eBay.”eBay מנהלת כמיליארד רשימות חיות ו -164 מיליון קונים פעילים מדי יום. מתוכם, eBay מקבלת 10 מיליון רשימות חדשות דרך נייד מדי שבוע . ברור שהחברה כנפחים גדולים של נתונים, אך המפתח להצלחה העתידית שלה יהיה כמה מהר היא יכולה להפוך נתונים לחוויה מותאמת אישית שמניעה מכירות.
תכנון ועדכון אסטרטגיה טכנית
האתגר הראשון ש- eBay התמודד איתו היה למצוא פלטפורמה, מלבד מחסן הנתונים המסורתי שלה, שהיה מסוגל לאחסן כמות עצומה של נתונים ששונו לפי סוג. אדונוטולה הצהיר כי סוג הנתונים, מבנה הנתונים ומהירות הניתוח הנדרשת פירושו שהחברה הייתה צריכה להתפתח ממבנה מחסן נתונים מסורתי למה שהיא מכנה אגמי נתונים. לדוגמה, החברה צריכה לשמור בערך תשעה רבעים של נתוני מגמות היסטוריות כדי לספק תובנות על פריטים כמו צמיחה של שנה על השנה. זה צריך גם לנתח נתונים בזמן אמת כדי לסייע לקונים לאורך כל מחזור המכירה.
היכולת לתמוך בנתונים בהיקף של חברת אינטרנט הייתה שיקול מרכזי בבחירת הטכנולוגיות והשותפים. החברה בחרה לעבוד עם המוצר של Hadoop של Hortonwork מכיוון שהיא הציעה פלטפורמת קוד פתוח שהייתה מדרגית מאוד והספק היה מוכן לעבוד עם eBay כדי לתכנן שיפורי מוצרים. עם בסיס של Hadoop ו- Hortonworks, שני המרכיבים האחרים באסטרטגיית פלטפורמת הנתונים של eBay הם מה שהיא מכנה זרמים ושירותים.
אתגר טכני גדול עבור eBay וכל עסק אינטנסיבי נתונים הוא לפרוס מערכת שיכולה לנתח במהירות ולפעול על נתונים בזמן שהיא מגיעה למערכות הארגון (נקראות נתונים סטרימינג). ישנן שיטות רבות המתפתחות במהירות התומכת בניתוח נתונים של סטרימינג. eBay עובד כעת עם מספר כלים כולל אפאצ’י ספארק, סטורם, קפקא והורטונוורקס HDF. שכבת שירותי הנתונים של האסטרטגיה שלה מספקת פונקציות המאפשרות לחברה לגשת לנתוני שאילתה. זה מאפשר לאנליטיקאי הנתונים של החברה לחפש בתגי מידע שקשורים לנתונים (המכונה מטא נתונים) והופך את התכליתי לכמה שיותר אנשים עם רמת האבטחה וההרשאות הנכונה (נקרא ממשל נתונים). זה משתמש גם במנוע שאילתה אינטראקטיבי ב- Hadoop בשם Presto. החברה הייתה בחזית השימוש בפתרונות נתונים גדולים ותורמת באופן פעיל את הידע שלה בחזרה לקהילת הקוד הפתוח.
אסטרטגיית הנתונים הגדולים הנוכחיים של eBay מייצגת כמה מהשילובים והאפשרויות הפוטנציאליות העומדות לרשות חברות המבקשות לעבד נפח גדול של נתונים שאינם דומים בפורמט ובשילובי נתונים שעשויים להידרש בזמן אמת או לאחסן לניתוח במועד מאוחר יותר. כמובן שבחירת פתרונות הנתונים הגדולים תלויה במה שאתה מנסה להשיג כעסק.
שימוש בפלטפורמת למידת נתונים ומכונה גדולים כדי לספק ערך עסקי
במקרה של eBay, החברה משתמשת בפתרונות Big Data ו- Machine Learning כדי לטפל במקרי שימוש כמו התאמה אישית, סחורה ובדיקת A/B לתכונות חדשות כדי לשפר את חווית המשתמש. לדוגמה, eBay מודלים התאמה אישית של חמישה רבעים של מובנים (ה.ז. מיליארד רשימות, רכישות וכו ‘.) ולא מובנה (תקציר פעילות התנהגותית, ענני מילים, תגים וכו ‘.) נתונים. סחורה השתפרה על ידי שימוש באנליטיקס ולמידת מכונות כדי לעזור להמליץ על פריטים דומים על מיקומי מפתח באתר ובנייד. פריטים, כמו גילוי עסקות, משתמשים בלמידה במכונה כדי למצוא דפוסים בנתונים מובנים. EBAY’s גם יצירת מודלים של למידת מכונות חזויה לגילוי הונאה, השתלת חשבונות ומאפשרת חיזוי סיכון לקונה/מוכר. ברור ש- eBay בילה זמן ומשאבים אדירים בהשגת רמת מומחיות זו בעיבוד נתונים ושיפור זרימת עבודה עסקית. עבור eBay ורבים אחרים, המסע רחוק מלהסתיים. החברה מעוניינת להמשיך ולבצע אופטימיזציה של ניתוח סטרימינג ולשפר את ממשל הנתונים.
מה אתה צריך לעשות הלאה?
לאותן חברות שמתחילות, אדונוטולה הציעה כמה מילים של עצות מרווה. האתגר הגדול ביותר הוא ממשל נתונים ומונע ממנה להפוך למערב הפרוע. עסק לא יכול פשוט לזרוק הכל למערכת ולדאוג לממשל בהמשך. אם אתה בונה היום אסטרטגיית נתונים, התחל עם הממשל.
דוגמאות לכך יכולות לכלול הגדרת התהליך לאפשר גישה לאנשים שונים וכיצד לאפשר תאימות ל- PCI במערכות הנתונים עבור קמעונאים. האסטרטגיה אמורה לתאר כיצד ניתן לגלות נתונים וכיצד לפתח את התהליך. הוא ציין כי ישנם פתרונות חדשים, כמו אטלס ונווט, המופיעים היום. עם זאת, הנוף משתנה ללא הרף. אם אתה מתחיל את המסע כיום, עסק יכול להציב ממשל נתונים לפני שבנה מערכי נתונים מאסיביים, מחסני נתונים ואגמי נתונים. קל יותר להוסיף ממשל נתונים בתחילת התהליך.
מדיונים עם לקוחותיי למדתי שיש כמה צעדים חשובים בבניית אסטרטגיית נתונים גדולים הכוללת:
- הגדרת ניצחון מהיר ומקרה שימוש לטווח ארוך יותר. בניית מקרה לשימוש עם סקופ היטב חיונית לרכישת מימון והפגנת ערך מיידי ממאמצי אסטרטגיית הנתונים שלך. לדוגמה, חברות רבות מגדירות מקרה שימוש הכולל חיבור וניתוח מקורות נתונים חדשים להבנת התנהגויות קנייה. בחירת מקרה שימוש צר מאפשרת לאנליסטים של נתונים לבדוק טכנולוגיות חדשות ולהעביר תובנות חדשות לעסק.
- הערכת מה אתה צריך אצל שותף נתונים. ל- eBay יש צוות הנדסה מתוחכם ויודע מה הוא מנסה להשיג. החברה חיפשה שותף שיעזור לספק קנה מידה וסיוע בשיפור פתרונות קוד פתוח. חברה עשויה להזדקק גם לשותפה כדי לספק יותר הכשרה, שירותי ייעוץ ואדריכלות עזר על בסיס התעשייה.
- בניית המערכת האקולוגית הנכונה. אין פיתרון אחסון וניתוח נתונים אחד שיפתור את כל מקרי השימוש של החברה. באזורים מסוימים, פתרונות מחסני הנתונים הקיימים של החברה עובדים בצורה מושלמת. במקרים אחרים, תזדקק לניתוח סטרימינג. באופן דומה, אין כלי או ספק אחד שיספקו את כל מה שצריך. עולם ניתוח הנתונים של היום דורש מערכת אקולוגית של כלים ושותפים. חפש שותפויות בין ספקים שיקלו על אתגרי האינטגרציה.
- מחפש מקרי שימוש חדשים. במקום לשכפל את מה שיש לך, עסק צריך לחפש דרכים שניתן לרכוש ולנתח נתונים חדשים כדי לשפר את התהליכים העסקיים שלך. חלק מהיתרון של כלים חדשים אלה ואנליטיקס הוא לגלות דפוסים, חריגות ותובנות חדשות שלא היו קיימות במערכת ניתוח הנתונים המורשת שלך. על מנהיגים עסקיים לעבוד איתו כדי לחפש דרכים שפתרונות אחסון נתונים וניתוח חדשים יכולים לענות על שאלות שלא היו קל לענות עליה בעבר.
האם eBay משתמשת ב- Hadoop?
- CIOs מקבלים יכולת הסתגלות ארגונית, CIOS חוסן ומנהלים טכניים אחרים מגבילים את הארגונים שלהם עושים את מה שנדרש כדי להישאר גמישים בתקופה של בלתי צפוי .
- FTC בוחנת את התחרות במחשוב ענן ועדת הסחר הפדרלית בוחנת את ההשפעה של קומץ חברות טק גדולות כמו אמזון, מיקרוסופט וגוגל .
- U.ג. משבר חוב יכול לפגוע בקבלני הממשלה קבלנים ממשלתיים קשים צריכים להתכונן כעת ל- U.ג. כברירת מחדל על חובו, מה שיביא לתשלומים נעצרים בין אחרים .
- סגירת הספר בכנס RSA 2023 AI, אבטחת ענן, מודרניזציה של SOC והיגיינת אבטחה וניהול יציבה היו כולם נושאים חמים ב- RSAC בסן פרנסיסקו .
- סיני APT מנצלים קושחה של נתב TP-Link באמצעות שתל בדיקת פוינט טכנולוגיות אמרו כי השתל זדוני, אותו ייחס ל”קמארו דרקון “סיני, היה קושחה .
- להגן מפני איומים עכשוויים ועתידיים עם איומי סייבר עכשוויים ועתידיים, כמו תוכנת כופר, AI גנוצרי, מחשוב קוונטי ועלייה במעקב, הם .
- סוניק NOS עומד בפני אתגרים המתאימים לזרם המרכזי מעריך כי פחות מ -200 ארגונים סובלים מייצור, מתוך שוק פוטנציאלי למרכז נתונים של 100,000. אחד.
- 12 פרוטוקולי רשת נפוצים ופונקציותיהם הסבירו את הרשתות גורמות לאינטרנט לעבוד, אך אף אחד מהם אינו יכול להצליח ללא פרוטוקולים. פרוטוקולי רשת נפוצים ופונקציותיהם הם .
- מתורגמן פייתון נגד. IDE: אילו מהנדסי רשת צריכים לדעת בעת השימוש בפיתון לאוטומציה של רשת, מהנדסי רשת עובדים לעתים קרובות עם מתורגמנים וסביבת פיתוח משולבת .
- הפוך את פעולות המיינפריים ליעילות עם אסטרטגיות אלה מסגרות ראשי משפיעות על השורות התחתונות הארגוניות. מומחה מתאר כמה אסטרטגיות מפתח לשמירה על אמינות תוך שמירה על .
- כיצד להשתמש ב- CHATGPT לניהול יישומים MainFrame CHATGPT יכול לעזור לו לממשל לנהל יישומי Mainframe על ידי המרת, אופטימיזציה ושיפור הקוד. כמו כן, זה יכול ליצור .
- חקור את ההשפעה של מחשוב קוונטי על קריפטוגרפיה כאשר מחשבים קוונטיים הופכים לזמינים, הרבה סוגי הצפנה יהיו פגיעים. ללמוד מדוע ומה נחקר .
- Qlik משלים את רכישת Talend, מגביר את חבילת האינטגרציה עם הרכישה, ספק הניתוח הוותיק מוסיף גישת בד נתונים ושיפור איכות הנתונים והמשל .
- מסדי נתונים של Mainframe מלמדים כלב ישן טריקים הישרדותיים חדשים שנחזה זמן רב לדעוך לטובת ארכיטקטורות מודרניות יותר, המסגרות הראשי עדיין ממלאות תפקיד אינטגרלי ב- IT של התאגידים .
- נתוני רשת לעומת. אפשרויות ניהול נתונים אחרות רשת נתונים נוקטת בגישה מבוזרת לניהול נתונים ולגזרת ערך מנתונים. זה חולק קווי דמיון עם נתונים .