לשחרר את עוצמת ה-AI בטיפול בנתונים

לשחרר את עוצמת ה-AI בטיפול בנתונים

מאת: יוסי רודריק, מנכ"ל קבוצת UCL

הצורך בתובנות מתוך נתונים החל להתגבש עם הופעתן של אפליקציות מחשב ראשונות. בתחילת הדרך, פותחו מערכות דו"חות ושאילתות שהתבססו על מערכות OLTP. עם התרחבות המערכות והעלייה במספר המשתמשים, נוצרו עומסים ותעבורת יתר, שיצרו צווארי בקבוק – מה שהוביל לצורך בהקמת מחסני נתונים (Data Warehouses).

בהמשך, ככל שכמות הנתונים הלכה וגדלה, יחד עם הופעתם של סוגי נתונים חדשים – חלקם לא מובנים (Unstructured) – ארגונים רבים החלו לאמץ פתרונות Lakehouse, שהתבססו על Hadoop ועל מסדי נתונים שתומכים בגישה זו.

המעבר לעולם הדיגיטלי ואל הענן, יחד עם ריבוי מקורות נתונים מבוזרים, אילץ ארגונים לחשב מסלול מחדש בכל הקשור לניהול וארגון הנתונים. הצורך ביצירת "אמת ארגונית אחת", תוך צמצום שכפולים ומתן גישה מהירה ונוחה לנתונים, הפך למשימה אסטרטגית.

ניהול נתונים בעידן ה-AI

כיום, בעידן ה-AI וה-AI Agents, החשיבות של ניהול נתונים חכם ומדויק הפכה לקריטית. יכולות ה-AI הן תנאי הכרחי לתפעול מיטבי של הארגון, לזיהוי הזדמנויות עסקיות חדשות ולהובלה בתחרות, ולכן נדרשת תשתית נתונים עדכנית, אמינה ונגישה.

לפי חברת המחקר גרטנר, כ-85% מהפרויקטים בתחום ה-AI וה-ML אינם עומדים בציפיות, ו-60% מהם נכשלים לחלוטין עוד בשלב הפיילוט. הסיבה המרכזית? בעיות איכות וזמינות הנתונים.

עוצמתה של הבינה המלאכותית נקבעת על פי הנתונים שהיא יכולה לגשת אליהם.

בעולם שבו AI ו-ML מתפתחים במהירות, נתונים איכותיים יהפכו ליתרון תחרותי משמעותי. ארגונים שישקיעו בטיוב ואופטימיזציה של הנתונים שלהם יהיו אלו שיובילו את השוק.

על מנת ליצור את היתרון התחרותי, יש לבנות ארכיטקטורה מותאמת שתאפשר גישה מהירה לנתונים באשר הם, לעיתים אף ללא צורך לשכפלם, דבר הגוזל זמן ו-Time to market.

ללא קשר לאסטרטגיית הענן שנבחרה, מרבית הארגונים צפויים להמשיך לפעול במבנה היברידי, שבו הנתונים מפוזרים בין מערכות ענן לסביבות מקומיות (On-Premise) – תצורה שעתידה ללוות אותנו גם בעשור הקרוב. הסיבות לכך רבות: עבור חלק מהארגונים, עלויות הענן עדיין מהוות חסם משמעותי; אחרים כפופים לרגולציות שמגבילות את העברת המידע מחוץ לגבולות הארגון; ישנם מקרים שבהם קיימות מגבלות גישה טכנולוגיות שמקשות על עבודה בענן; ולא מעט ארגונים מביעים חששות אמיתיים סביב נושאי אבטחת מידע, שליטה ונראות.

פלטפורמה מודרנית לאנליטיקה ובינה מלאכותית. Starburst.

פלטפורמה מודרנית לאנליטיקה ובינה מלאכותית. Starburst. צילום: ChatGPT

Starburst – כי אין זמן לחכות לנתונים

כאן נכנסת לתמונה Starburst – פלטפורמה מודרנית לאנליטיקה ובינה מלאכותית, שמאפשרת לארגונים לממש את הפוטנציאל של הנתונים שלהם, בלי צורך בהעתקה או העברה פיזית של המידע.
Starburst מחברת בין מקורות נתונים מגוונים – בענן, ב On-Premis או בשניהם – ומאפשרת גישה אחודה, מהירה ובטוחה לנתונים, תוך שמירה על מדיניות אבטחת מידע ועמידה בדרישות רגולציה.
באמצעות Starburst ארגונים יכולים להפיק תובנות עסקיות קריטיות מכלל הנתונים – בכל מקום שבו הם נמצאים – תוך שמירה על שליטה, יעילות וגמישות מלאה.

השילוב בין Starburst לבין Open Lakehouse מאפשר לארגונים לנהל את הנתונים שלהם (Structured  ו-Unstructured) במאגר אחד מרכזי, שהולך וגדל תוך כדי הפרדה בין כוח המחשוב לבין נפחי הדיסק של הנתונים.

Starburst מאפשרת שליפה מהירה ויעילה של נתונים ממאגרים המאחסנים קבצים על גבי דיסקים התואמים ל-S3, כגון ‏Dell ECS, תוך שימוש במנגנונים מתקדמים כמו ‏Apache Iceberg.

Apache Iceberg הוא פורמט קבצים מודרני לניהול טבלאות גדולות בסביבות‏ Big Data ו-Data Lakes.  מטרתו היא לאפשר עבודה אמינה, יעילה וגמישה עם נתונים מבוזרים ומורכבים.

במילים פשוטות -‏ Iceberg הוא "שכבת ניהול חכמה" לנתונים המאוחסנים בקבצים, שמאפשרת להתייחס אליהם כאל טבלאות במסד נתונים, גם כשהם שמורים בפורמטים כמו Parquet או ‏ORC בתוך Data Lake.

מימוש ארכיטקטורה מעין זו משחרר את הארגון מלהיות תלוי בספק זה או אחר.

שימוש בפלטפורמת Starburst מייתר את הצורך בבניית תהליכי ETL נוספים, מפחית את התלות בצוותי ‏IT  כספקי מידע, ומקצר משמעותית את הזמן הנדרש לגישה לנתונים – כל זאת מבלי לשכפל אותם.

בין אם הארגון נמצא בתהליך מעבר לענן ובין אם הוא פועל בסביבת ‏Data Lake מקומית (On-Premise), מתן יכולות Self-Service לגישה אל ולניתוח של נתונים יאפשר להאיץ את תהליך הפיתוח וההטמעה של AI Agents, תוך מיצוי טוב יותר של הנכסים הדיגיטליים של הארגון.

לפרטים על וובינר אנשים ומחשבים בנושא – הקישו כאן

שתפו את המאמר