سازمانها بهمنظورافزایش درآمد، کاهش هزینه و کنترل ریسک، معماری جریان داده ها را ایجاد میکنند.
سازمانها بهمنظور افزایش درآمد، کاهش هزینه و کنترل ریسک، معماری جریان دادهها را ایجاد میکنند.
با جایگزینی معماری جریان دادهها، گروههای دادهای میتوانند امکان تصمیمگیری آنی، یادگیری ماشین بلادرنگ، بهبود کارایی، افزایش مقیاس و سرعتبخشی به برنامههای کاربردی را فراهم سازند. بسیاری از سازمانها معماری جریان دادهها را بهعنوان بخشی از ابتکارات استراتژیک فراگیرتر در نظر میگیرند که شامل نوسازی ابر و خودکارسازی کانال دادهها میباشد.
برای تحقق این مزایا، تیمهای داده باید بهدقت موارد استفاده خود را ارزیابی کرده و فناوریهای مناسب را برای دستکاری مؤثر دادههای در حال انتقال انتخاب نمایند. آنها باید کارایی پردازشها را افزایش دهند، درحالیکه باید توجه داشت که همچنان، یکپارچهسازی نقاط پایانی ناهمگن و سازگاری انعطافپذیر معماری آنها، بیانگر الزامات تغییراتی میباشد.
این مقاله مزایا، چالشها، الگوهای سازگاری و موارد استفاده را برای روش استریم در مدیریت داده بررسی میکند. این روش متولیان دادهها را از طریق قابلیتها و معیارهای برنامهریزی برای هر مؤلفه معماری (منابع دادهها، جمعآوری، تبدیل، اهداف و تحلیلها) همانطور که قانون تکنولوژی زیرساختهای ترکیبی و هیبریدی را هدایت کردهاست، راهنمایی میکند.
پیشنهادات کلیدی
جهت نوسازی کسبوکار خود، استقرار معماری جریان دادههای رویدادها را مدنظر قرار دهید.
جریان آنی رویدادها، گلوگاههای رویکردهای منسوخ در ETL را از بین میبرد و مبنایی اقتضایی، کارآمد و آنی را جهت تحلیلهای پیشرفته فراهم میکند.
با معماری استریم رویدادها، کسبوکار شما قادر خواهد بود تا دادهها را در تأخیر نزدیک به صفر بهروزرسانی تدریجی کند. این امر به شما امکان میدهد تا دادههای بیشتری را در واحد سیپییو (واحد پردازنده مرکزی) یا پهنای باند تبدیل و تحلیل کنید.
یک طرح کلینگر بسازید. بهمنظور تحقق بخشیدن به کارایی و مزایای تحلیلی استریم رویدادها، موارد کاربردی و الزامات خود را با دقت تعریف کنید.
همچنین، هنگام طراحی معماری خود برای رسیدن به آن الزامات، توازنها و وابستگیهای متقابل هر یک از مؤلفهها را بسنجید.
رویکرد افزایشی را در نظر بگیرید.
ابتدا با حذف یک یا چند مورد از گلوگاههای پردازش دستهای از طریق راهحلهای جریان سازی مبتنی بر فنآوریهایی همچون CDC یا کافکا، به دنبال کاهش مشکل باشید.
زمانیکه به این دستاورد سریع رسیدید، معماری برقراری استریم دادههای خود را به نقاط انتهایی جدید گسترش دهید و موارد کاربردی جدیدی از دادهها را تعریف کنید.
هنگام مقیاسگذاری، زیرساختهای ابری را بهعنوان پلتفرم سرویس (SaaS) در نظر بگیرید. این امر هزینههای عملیاتی شما را کاهش میدهد درحالی که ریسک شما را نیز به حداقل میرساند.
ما در یک جهان رویدادگرا زندگی میکنیم. خریدهایی که با یک کلیک از آمازون شروع میشود، رویدادهای بیشماری را به وجود میآورد و انواع روشها و تولیدکنندگان دیگری را از جریان تولید خارج میکند و فرصتهای شغلی جدیدی را در قالب دیجیتال برای کسبوکارهای دیگر ایجاد میکند.
سازمانها با بهرهگیری از معماری جریان دادهها قادر خواهند بود ضمن پردازش دادههای رویداد (هنگام ایجاد و پیش از ذخیره) ارزش تجاری کوتاهمدت کسب کنند.
سازمانها برای دستیابی به تصمیمگیری آنی و یادگیری ماشین، بهبود کارایی، افزایش مقیاس و افزایش سرعت برنامههای کاربردی، باید معماری جریان دادهها را ایجاد کنند.
با این روش، آنها درآمدها را افزایش، هزینهها را کاهش و ریسک را کنترل میکنند.
این فرصت بزرگ موجب تحریک فعالیتها و عملکرد کل سازمان میشود. گروههای IT جریانهای رویدادی را تولید میکنند و باعث انتقال جریان داده میشوند. همچنین تیمهای کسبوکار داده و تحلیلی به دنبال تحلیل آن جریانهای رویداد هستند. آنها قصد دارند بهسرعت روی وقایع و نتایج جریانسازی دادهها سرمایهگذاری کرده و راهبردهای جدیدی طراحی کنند.
اما چالشهای موجود زیاد است. گروههای داده باید موارد کاربری خود را بهدقت ارزیابی کنند و فناوریهای مناسب را برای دستکاری مؤثر دادههای در حال حرکت (انتقال) انتخاب کنند. آنها باید حین یکپارچهسازی نقاط انتهایی ناهمگن، موجب تسهیل پردازشها شوند.
کسبوکارها با معماری صرفاً دستهای دادهها با مشکلات زیادی مواجه هستند. آنها طی سالهای متمادی دادهها را بهصورت دستهای و متناوب پردازش میکردند. تیمهای داده و نرمافزار “استخراج، تبدیل و بارگذاری (ETL)” را برای کپی کردن دستههای کاملی از دادههای عملیاتی را از پایگاههای داده مثل امور مالی، فروش یا منابع انسانی در هر ساعت، روز یا هفته، برنامهریزی میکردند. این دستهها میتوانستند بهصورت مجموعهای از فایلها باشند.
نرمافزار ETL اغلب بر روی یک سرور میانی اجرا میشود. سپس دستهای از دادهها را در یک انبار جداگانه بارگذاری میکند و ردیفها و ستونهای آن را در طول مسیر تغییر شکل میدهد. سازمانها هنوز از ETL دستهای برای پشتیبانی از بارهای کاری کمحجم و قابل پیشبینی استفاده میکنند. این امر در مورد وظایف ابتدایی و اساسی همچون ثبت سوابق و گزارش هفتگی استفاده میشود. شکل 1 این معماری قدیمی را نشان میدهد.
جدای از این جایگاه مناسب، باید گفت که «کسبوکارهای مرسوم» با معماری صرفاً دستهای قادر به تأمین نیازهای جدید شرکت نیستند. آنها به دلیل تأخیر موجود شکست میخورند. چون امروزه بسیاری از مصرفکنندگان داده منتظر بهروزرسانی خستهکننده دستهای دادهها نمیمانند. مدیران اجرایی فروش به گزارشهای ساعتی درآمد مربوط به منطقه، نمایندگی یا محصول نیاز دارند. هشدارهای استهلاکهای عملیاتی بهصورت صورتجلسه باید آنی در اختیار مدیران کارخانه قرار بگیرد. ارائهدهندگان مراقبتهای پزشکی از راه دور به آمار و نمودارهای حیاتی آنی نیاز دارند تا وضعیت بیماران بستری در خانه را طی چند ثانیه پیگیری کنند. شرکتهای مربوط به کارتهای اعتباری باید معاملات مشکوک را در صدمثانیه شناسایی و مسدود کنند.
«کسبوکارهای مرسوم» با معماریهای صرفاً دستهای در مدیریت کارآمد پایگاههای دادهای موفق نبودهاند. آنها بارها دادههای بدون تغییر را کپی میکنند، فرایندهای پردازنده را فعال میکنند، در ظرفیتهای حافظهها دخالت میکنند و باعث بهروزرسانیهای سختافزاری پرهزینه میشوند. معماریهای صرفاً دستهای منابع فراوانی را مصرف میکنند، با این حال نمیتوانند بهطور مقرونبهصرفه حجمهای وسیعی از دادههای لازم را برای تحلیلهای پیشرفته و کاربردی مانند یادگیری ماشین یا انواع دیگر هوش مصنوعی را پردازش نمایند. رویکرد صرفاً دستهای موجب از بین رفتن پول و مسدود شدن نوآوری در بسیاری از موارد کاربری جدید میشود.
معماری جریان دادهها مسائل مربوط به سرعت و کارایی را حل میکنند. اول سرعت مطرح است. هر جا که امکان داشته باشد، آنها رویدادها را بهصورت آنی از منبع تا هدف و اغلب با تغییر شکل این حوادث در طول مسیر «جاری میسازند». این امر باعث همگامسازی پایگاههای دادهشده و اطلاعات را بهصورت آنی یا نزدیک به زمان واقعی فراهم میآورد. این امر همچنین مشکل کارایی را نیز حل میکند. با پردازش مداوم و پردازش تغییرات افزایشیافته بهصورت مداوم، نیاز به تکرار تکثیر دستهای دادههای بدون تغییر را از بین میبرند.
این امر قدرت پردازش و الزامات پهنای باند را بهشدت کاهش میدهد. در ضمن، این امکان را فراهم میکند که سازمانها را قادر میسازد تا از حجمهای داده بیشتری با زیرساختهای یکسان پشتیبانی کنند. شکل ۲ معماری جریان داده نمونه را در سطح مفهومی نشان میدهد.
گروههای داده میتوانند از استریمسازی رویداد برای اجرای آسانتر پروژهها و تأمین الزامات در سطح سرویس استفاده کنند. آنها قابلیت افزودن منابع داده و جذب حجم دادههای رو به افزایش را دارند. ضمناً میتوانند بدون افزایش زیرساختها، زمان پاسخ برنامههای کاربردی را بهبود بخشند.
معماری جریان دادهها، دادههای بلادرنگ را به پلتفرمهایی همچون انبار دادهها و منابع مختلف دادهها وارد میکند. این امر برای تحلیلگران تجاری اطلاعات فوری و لازم جهت پاسخگویی به فرصتها و ریسکهای کوتاهمدت را فراهم میدهد. به عنوان مثال، یک تحلیلگر خردهفروشی میتواند الگوی خرید مشتری را در صبح شنبه شناسایی کند و سپس تا بعدازظهر قیمتها را تنظیم کند.
در ضمن، دانشمندان داده و تحلیلگران داده میتوانند از تحلیلهای جریانی به لایههای جدیدی از شناخت دست یابند و در حل مشکلات کسبوکار استفاده کنند. به عنوان مثال، یک تحلیلگر خردهفروشی میتواند از نتایج کمپین خود جهت بهبود پیشبینی و راهبرد خود در ماه یا فصل یا سال آتی استفاده کند.
جریانسازی رویداد، شرکتها را قادر میسازد تا فرصتهایی را ایجاد کرده و مشکلات مربوطه را حل کنند یا از بروز آنها جلوگیری کنند. اصلاح و نگهداری فعال و شناسایی تقلب جهت کنترل هزینه و ریسک از جریانسازی رویدادهای بلادرنگ استفاده میکند. به عنوان مثال، یک اپراتور ناوگان پخش قادر خواهد بود پیش از خراب شدن کامیون تحویلدهنده، یک متخصص فنی را جهت بررسی با استفاده از داشبوردهای اخطار اعزام کند. یک شرکت کارت اعتباری میتواند معاملات پرخطر را پیش از بسته شدن شناسایی و مسدود کند.
جریانسازی رویداد همچنین موجب ایجاد ایدهها و برنامههایی در بین کل کارکنان سازمان میشود و برای شکلگیری مجدد مشاغل آنها کمک میکند. به عنوان مثال، سازندگان تجهیزات، سرویس و تعمیر و نگهداری هوشمند را راهاندازی میکنند که با حسگرها وسیله نقلیه را پایش میکنند. صندوقهای سرمایهگذاری، برنامههای جدید الگوریتمی معاملات سهام را طراحی میکنند. راهبردهایی از این قبیل با افزایش داده و استریم آنها، جریانهای درآمدی جدید ایجاد میکنند.
معماری جریانسازی آنی دادهها، بهجای پردازش دستهای دادههای قدیمی، با پردازش تدریجی دادههای رویداد بهصورت آنی، الزامات افزایش CPU و در پی آن هزینه را کاهش میدهد. ضمناً این کار الزامات پهنای باند جهت یکپارچهسازی دادهها را کاهش میدهد. مخصوصاً هنگام جریانسازی دادهها از یک منبع درونسازمانی از طریق شبکه ناحیه گسترده (WAN) به یک هدف ابری، این کار مقرونبهصرفه است.
گروههای داده میتوانند از جریانسازی رویداد برای اجرای راحتتر پروژهها و تأمین الزامات سطح خدمات (SLAها) استفاده کنند. آنها میتوانند منابع داده را اضافه کنند، حجم دادههای رو به افزایش را جذب کنند و بدون افزودن زیرساختها، زمان پاسخ برنامه را بهبود بخشند.
مقیاسپذیری
مزیت کارایی پردازش افزایشی جریان دادهها این است که گروههای داده میتوانند بهراحتی مجموعه دادههای عظیم موردنیاز برای یادگیری ماشین و انواع مختلف هوش مصنوعی را سازگار نمایند. در ضمن، آنها قادر خواهند بود از جریانسازی برای تبدیل و فیلتر کردن (پاکسازی دادهها) مجموعههای بزرگ داده پیش از رسیدن به پلتفرم هدف استفاده کنند و بهاینترتیب، مقیاسپذیری را بیشتر افزایش دهند.
عملکرد برنامه کاربردی
جریان بلادرنگ دادهها زمان پاسخ برنامههای کاربردی را کاهش میدهد و بار کاری عملیاتی یا تحلیلی را سرعت میبخشد. بهعنوانمثال، یک شرکت بیمه میتواند سوابق معاملاتی را برای رسیدگی به مطالبات با زمان تأخیر نزدیک به صفر همگامسازی کند و بهسرعت به مشتریان کمک کند. یک خردهفروش آنلاین نیز میتواند برای تأیید و بهروزرسانی وضعیت حملونقل تحویل خودکار در صورت تقاضای مشتری از یک ربات نرمافزاری استفاده کند.
سادگی
ابزارهای نوین جریانسازی خودکار به گروههای داده کمک میکنند تا مسئولیت توسعهدهندگان را کاهش دهند و پروژهها را تسریع کنند. این ابزارها به کاربران با دانش فنی کم کمک میکنند تا مشاغل جریانسازی دادهها را با حداقل امکانات آغاز کنند و نیز با حداقل ریسک خطای انسانی زمانبر، پیکربندی و نظارت کنند.
سازمانها با چالشهای متعددی در حوزه مدیریت دادهها و معماری مواجه هستند. تبدیل به معماری جریان سازی دادهها در ابتدای این فرایند، این چالشها را تشدید میکند. دلایل این امر به شرح زیر است:
سردرگمی راهبردی
تیمهای تحلیل تجاری و دادهای ممکن است موارد کاربرد جریان سازی را بهطور ناصحیح ارزیابی کنند. تحلیلگران و دانشمندان دادهای که تحلیلهای بلادرنگ را بهعنوان یک «درمان جامع» میدانند، ممکن است تمرکز خود را بر سایر اطلاعات از دست بدهند. بهعنوان مثال، تعمیر و نگهداری پیشگیرانه بلادرنگ نباید جایگزین عیبیابی ریشهای علت شود.
تبدیلهای بلادرنگ
بسیاری از راهحلهای رایج نمیتوانند تبدیلهای پیچیده دادههای در حال حرکت را انجام دهند. در حالی که امروزه به تجزیه و تحلیلهای چندمنبعی و مقیاس بالا نیاز است.
ناهمگنی
سازمانها با افزودن مؤلفههای جدید معماری دادهها، امر پردازش داده را تغییر داده و بار مدیریتی را افزایش میدهند. آنها منابع دادهای همچون جریانهای مربوط به رسانههای اجتماعی را جهت سنجش احساس مشتری، حسگرهای اینترنت اشیا را جهت ردیابی تشکیلات، یا نرمافزار بهعنوان سرویس (SaaS) مبتنی بر ابر را جهت انجام وظایف دفتری اضافه میکنند. آنها اهدافی همچون انبارهای داده ابر را جهت دادههای ساختار یافته و دریاچههای داده را جهت دادههای چندگانه و غیر ساختاری یا NoSQL را جهت ذخیره اسناد اضافه میکنند. در ضمن آنها نرمافزارهای سفارشی و تجاری را جهت تبدیل و تحلیل دادهها اضافه میکنند. هر مؤلفه جدید ارزش کسبوکار بالقوه را به همراه دارد، اما کار بیشتری نیز لازم دارد.
پیچیدگی
تیمهای داده بیشتر اوقات با عدم خودکارسازی درگیر هستند. زیرساختهای درونسازمانی نیاز به پایش و تنظیم دقیق جهت پاسخگویی به SLAهای دقیق دارد.
محیطهای قدیمی مانع از ابتکارات داده محور میشوند. انبارهای داده درونسازمانی هنگام بهروزرسانی کند و پرهزینه هستند. گروههای داده برای بهکارگیری مؤلفههای جدید تلاش میکنند، زیرا جهت ایجاد تعامل به کدگذاری خاصی نیاز دارند. همچنین آنها برای باز کردن قفل دادهها از سیستمهای پرهزینه قدیمی مانند پردازنده اصلی استفاده میکنند و این امر برای تبدیل قالبهای منسوخشده به موارد مصرفی به مهارتهای محدود برنامهنویسی نیاز دارد.
توصیهها
برای غلبه بر این چالشها، سازمانها باید موارد زیر را در نظر بگیرند:
رویکرد و روند سازمانها
معماری جریانسازی دادهها بهعنوان بخشی از تحول گستردهتر در راهبرد دادههای خود، رویکرد و روند بسیاری از سازمانها است.
حال قصد داریم رایجترین روند تطبیقی را بررسی کنیم.
در ادامه، رایجترین روندهای تطبیقی در معماری جریان داده ها را بررسی میکنیم.
خودکارسازی خط لوله(انتقال) دادهها
تیمهای داده خطوط انتقال داده را جهت اتصال نقاط انتهایی مختلف ایجاد میکنند. با بهرهگیری از ابزارهای خودکار، این معماری با یک رابط گرافیکی جایگزین میشود. این ابزار، کاربران را قادر میسازد تا خودشان کار را انجام دهند، بدون اینکه منتظر توسعهدهندگانی باشند که مشغله کاری زیادی دارند. این امر، ایجاد خطوط انتقال جریان دادههای جدید را سریعتر، راحتتر و مقرونبهصرفهتر میکند.
مدرنیزه نمودن دادهها کلود محور
تیمهای داده بارکاری تحلیلی را از پلتفرم اصلی یا سایر سیستمهای گرانقیمت قدیمی به پلتفرمهای مدرن انتقال میدهند. آنها بر مبنای دریاچههای داده، انبارهای داده یا NoSQL برای ارائه موارد کاربردی جدید و همزمان با سادهسازی و کاهش هزینهها، به زیرساخت ابری بهعنوان ارائهدهنده سرویس (SaaS) منتقل میشوند. آنها نرمافزارهایی را بر پایه پلتفرم ابری بهعنوان ارائهدهنده سرویس (پلتفرم به عنوان سرویس) توسعه میدهند و در نرمافزار بهعنوان سرویس (SaaS) عضو میشوند.
اپهای تلفنهای هوشمند
انتظارات از تحلیل طی ده سال گذشته بهطور قابلتوجهی تغییر کرده است.
برنامههای کاربردی هوشمند اکنون به دادههای بلادرنگ متکی هستند تا سرویسهای دقیق از دادهها را به کاربران تلفنهای همراه ارائه دهند. آنها بهروزرسانیهای پیوسته مربوط به اخبار موبایل، پیشبینیهای هواشناسی، خدمات نظارت بر ترافیک بر مبنای منبعیابی جمعیتی و سایر برنامهها را ارائه میدهند.
مدلهای یادگیری ماشین (ML). شرکتهای مختلفی مدلهای ML را ساخته، آموزش داده و گسترش میدهند. البته بدون اینکه برای این کار به صراحت راهنمایی شوند؛ از الگوهای داده یاد گرفته و با آنها سازگار میشوند. ML ابداعات و ابتکارات تحلیلی موجود را ارتقا داده و نیز موارد کاربردی جدید را معرفی میکند و بهمنظور تولید دقیقترین نتایج به حجم بالایی از دادهها باکیفیت بالا نیاز دارد. این امر نیاز به پردازش حجم زیادی از داده به صورت کارآمد، آنی و/یا کم تأخیر دارد.
اگر در مورد پلتفرم داینامیک استریم کردن دادهها سؤالی داشتید لطفاً با ما در ارتباط باشید.
اینگرو (Ingrow) و ابزارهای جریان رویدادها
در حال حاضر، ما اینگرو را به عنوان ابزاری برای جریان رویدادها معرفی میکنیم. اینگرو بدون ایجاد هرگونه بار اضافی بر روی بستر شرکتها، یک پلتفرم Big-Data را برای استریم کردن و گزارشگیری از دادهها در اختیار آنها قرار میدهد. اینگرو به کاربران امکان این را میدهد که دادهها را در هر زمان و هر مکانی که نیاز دارند، ارسال، ذخیره و درخواست کنند.
با اینگرو، هر رویدادی را از اولین touchpoint و با هر رویدادی، به صورت داینامیک و بدون نیاز به مدلسازی، استریم کنید و با غنیسازی دادهها (Enrich & transform)، به مجهولات شناخته نشده و معلومات ناشناخته از طریق دادهها پی ببرید.
اینگرو با مقیاس پذیری و ذخیرهسازی دادههای ساخته شده بر روی بستر Apache Cassandra، امکان ذخیره سریع اطلاعات با حجم بسیار بالا را فراهم میکند.
اینگرو این فرایند را قابل تکرار، مقیاسپذیر و سازگار با مدل توسعه شرکتها و سازمانها کرده است.
برگرفته شده از یادداشت آلن چایت، مدیر اجرایی جریانهای رویداد IBM