ย้อนกลับไปราว 20 ปีก่อนใครจะไปเชื่อว่าแม้แต่ข้อมูลที่เกิดขึ้นที่จุดขายบนเครื่อง POS (Point of Sales System) ก็ไม่ได้ถูกจัดเก็บครบทั้งปี เนื่องจากต้นทุนของสื่อจัดเก็บข้อมูลยังแพงอยู่มาก เวลาผ่านไปอย่างรวดเร็ว จินตนาการแบบในภาพยนตร์ซีรีย์ Person of Interest ที่เครื่องจักรอัจฉริยะสามารถเข้าถึงข้อมูลทุกอย่าง และทำการประมวลผลพยากรณ์ความเสี่ยงด้านความมั่นคงล่วงหน้าเริ่มเข้าใกล้ความเป็นจริงมากขึ้น แม้จะไม่ได้ไปไกลถึงขนาดนั้นแต่องค์กรขนาดใหญ่ ทั้งภาครัฐและเอกชนในหลายวงการก็ได้ใช้ทั้งโมเดลและเทคโนโลยี Big Data มาระยะหนึ่งแล้ว

Big Data ได้เชื่อมรวมเอางานข้อมูล สถิติ การวิจัย และไอซีทีเข้ามาไว้ด้วยกัน ซึ่งองค์กรขนาดใหญ่ในหลายวงการที่การพยากรณ์มีความสำคัญยิ่งยวดในเชิงพันธกิจ (Mission Critical) ต่อความสำเร็จและล้มเหลวของธุรกิจ (เช่น ธุรกิจประกัน การค้าหลักทรัพย์ และการค้าเงินตราต่างประเทศ) รวมถึงองค์กรภาครัฐที่การพยากรณ์อาจมีผลต่อความเป็นความตายของประชาชน (เช่น การพยากรณ์อากาศ) ได้นำมาใช้มาระยะหนึ่งแล้ว

แต่ด้วยการพัฒนาขององค์ประกอบที่จำเป็นสำหรับ Big Data หลายๆ ด้านทั้งเรื่องสื่อจัดเก็บข้อมูลที่มีขนาดใหญ่ขึ้นแต่ราคาที่ถูกลง และความสามารถในการประมวลผลข้อมูลปริมาณมหาศาลได้ด้วยต้นทุนที่องค์กรต่างๆ สามารถเข้าถึงได้ เช่น การใช้สถาปัตยกรรมการประมวลผลแบบกระจายตัว (Distributed Computing) และการใช้ทรัพยากรประมวลผลในฐานะบริการบนคลาวด์ (Cloud Computing) ซึ่งองค์ประกอบที่สนับสนุนการก้าวสู่ยุคของ Big Data เหล่านี้เป็นสัญญาณที่บอกองค์กรทั้งหลายว่า ถ้าคุณไม่รีบนำเอาโซลูชัน Big Data มาใช้กับธุรกิจของคุณ ความสามารถทางการแข่งขันขององค์กรคุณน่าจะไม่มีทางตามทันองค์กรที่นำเอา Big Data มาใช้ และคุณอาจจะแปลกใจว่าพวกเขาเหล่านั้นช่างรู้กระแสตลาด และความต้องการของลูกค้าอย่างรวดเร็วเหมือนมีเทพพยากรณ์เป็นพนักงาน หรือกรรมการบริหารองค์กรอย่างไงอย่างงั้นเลยทีเดียว

องค์ประกอบขององค์กรซึ่งพร้อมที่จะดำเนินกลยุทธ์ Big Data
1. มีการวางแผนในการติดตามตรวจสอบ รวบรวม จัดเก็บ และบริหารจัดการข้อมูลในระดับ Big Data
2. มีการใช้เทคโนโลยีใหม่ๆ ที่จะจัดการติดตามตรวจสอบและจัดเก็บข้อมูลระดับ Big Data ได้
3. มีโซลูชัน Big Data ที่มีความพร้อมทั้งพื้นที่จัดเก็บข้อมูล พลังการประมวลผล การประยุกต์ใช้งาน และระบบรายงานถูกต้องเหมาะสม
4. มีบุคลากรที่มีความเชี่ยวชาญในวิทยาศาสตร์และคณิตศาสตร์การพยากรณ์ เพื่อการบริหารที่เหมาะสมกับงานโซลูชัน Big Data

เตรียมพร้อม Big Data & Data Analytics
แน่นอนว่าเมื่อได้ยินว่าองค์กรมากมายต่างต้องการใช้โซลูชัน Big Data เพื่อเพิ่มความสามารถทางการแข่งขันของตนเอง คุณก็คงจะเป็นคนหนึ่งที่อยากจะนำเอาเทคโนโลยี Big Data มาใช้บ้าง แต่ Big Data ไม่ได้เหมือนเรื่องพลังการประมวลผลของเซิร์ฟเวอร์ หรือขนาดพื้นที่จัดเก็บข้อมูล การจะใช้โซลูชัน Big Data ให้ได้ผลจริงๆ อยู่ที่ปริมาณและธรรมชาติข้อมูลขององค์กรคุณอยู่ในระดับ Big Data แล้วหรือยัง ปริมาณข้อมูลที่มีการจัดเก็บ ประเภทของข้อมูล ความครบถ้วนและหลากหลายของข้อมูลที่เกี่ยวข้องกับธุรกิจ ซึ่งความสมบูรณ์พร้อมนี้เท่านั้นที่จะสามารถนำเอาโซลูชัน Big Data มาแยกเอาข้อมูลออกเป็นกลุ่มตามความเหมือนและต่าง และหาความสัมพันธ์ระหว่างกันจนสามารถหาความหมายหรือคำอธิบายที่อาจบ่งบอกถึงทิศทางหรือเทรนด์ความต้องการ ความชอบ หรือพฤติกรรมของลูกค้าที่กำลังเปลี่ยนไปได้

ถ้าจะให้คำอธิบายหรือขยายความง่ายๆ เกี่ยวกับ Big Data ก็คือ การวิเคราะห์ข้อมูลใหม่เพื่อหาข้อสรุปได้อย่างทันทีทันใด ด้วยเทคโนโลยีสารสนเทศยุคใหม่ที่มีความสามารถอย่างเหลือเชื่อ การวิเคราะห์ข้อมูลนั้นเริ่มต้นจากการต่อยอดของสถิติเชิงวิเคราะห์ (Analytical Statistics) ที่เดิมก็ถูกนำมาใช้ในองค์กรขนาดใหญ่หรือเอนเตอร์ไพรซ์อยู่บ้างแล้ว ในรูปของ Data Analytics ซึ่งข้อแตกต่างกับสถิติเชิงวิเคราะห์ก็คือ เราไม่เน้นการตั้งสมมติฐานก่อนแบบงานวิจัยเชิงสถิติ แต่ดูจากรูปแบบและความสัมพันธ์ของชุดข้อมูลที่ออกมา โดยปล่อยให้งานทางด้านการสร้างโมเดลเพื่อหาคำตอบของสมมติฐาน และการใช้เครื่องมือทางสถิติอื่นๆ เป็นงานของนักสร้างโมเดลคณิตศาสตร์ และหลายครั้งที่จริงๆ ทีมงานอาจไม่มีคำถามอะไรก่อนการวิเคราะห์ชุดข้อมูลเลยด้วยซ้ำ แต่อาศัยความสามารถของโซลูชัน Big Data และนักวิเคราะห์ข้อมูลที่จะเห็นรูปแบบความสัมพันธ์บางอย่างจากชุดข้อมูลที่ทั้งมีปริมาณมหาศาลและมีหลากหลายของ Big Data และหาข้อสรุปให้แก่ผู้บริหารในองค์กรต่อไป

และเมื่อถึงยุคของ Big Data ปริมาณ ประเภท ความหลากหลายของข้อมูลทุกอย่างที่องค์กรมีไม่ใช่เพียงแค่เฉพาะที่ได้จากการจัดเก็บโดยส่วนงานที่เกี่ยวข้อง เช่น ส่วนงานขาย การผลิต การเงินและบัญชี หรือระบบการบริหารการซื้อที่จุดขาย (POS) แต่อาจรวมถึงการใช้เทคโนโลยีด้านข้อมูลใหม่ๆ เช่น RFID, Geo Tag, Semantic Web, ฯลฯ นั่นหมายถึงรากฐานของแหล่งกำเนิดข้อมูลในองค์กรนั้นๆ มีความเป็นข้อมูลระดับ Big Data อย่างแท้จริง และด้วยการใส่ความพยายามที่จะตรวจจับ ติดตาม จัดเก็บ บริหารและวิเคราะห์ข้อมูลอย่างครอบคลุมมากที่สุดด้วยเครื่องมือต่างๆ ที่กล่าวมา นั่นจะทำให้ความพร้อมในการวิเคราะห์ข้อมูลขององค์กรคุณขึ้นสู่ระดับ Big Data และแน่นอนว่าที่จริงแล้วก่อนจะไปสนใจกับปลายทางของการวิเคราะห์ข้อมูลระดับ Big Data องค์กรของคุณจึงต้องใส่ใจกับการติดตาม จัดเก็บ และบริหารจัดการข้อมูลให้เป็น Big Data อย่างแท้จริงเสียก่อนด้วย เพื่อที่จะมีข้อมูลที่เกี่ยวข้องและจำเป็นไว้ครอบคลุมครบถ้วน และมีปริมาณมากพอที่จะนำมาใช้ด้วย

แหล่งข้อมูลสำหรับ Big Data มีอะไรบ้าง?
1. ข้อมูลการเข้าใช้งานเว็บไซต์
2. ข้อมูลการซื้อเนื้อหา บริการ และสินค้าผ่านอีคอมเมิร์ซ
3. ข้อมูล POS
4. ข้อมูลการขนส่ง
5. ข้อมูลคลังสินค้า
6. พฤติกรรมการในร้านค้า / จุดจำหน่ายสินค้าของลูกค้า
7. ข้อมูลการซื้อของลูกค้า + ข้อมูลรายละเอียดเกี่ยวกับองค์กร/ตัวลูกค้า
ฯลฯ

ตัวอย่างสิ่งที่จะได้จาก Big Data
1. แนวโน้มการตลาด
2. พฤติกรรมลูกค้าทั้งในร้านค้าและออนไลน์ (Buying Pattern, Internet Behavior, ฯลฯ)
3. ความสัมพันธ์ระหว่างรายละเอียดลูกค้าและความต้องการสินค้า/บริการ
4. การเปลี่ยนแปลงของอัตราส่วนลูกค้าแต่ละกลุ่มแบ่งตามอายุ และความชอบของกลุ่มอายุต่างๆ ที่จะมีผลต่อคุณสมบัติสำคัญที่ผลิตภัณฑ์หรือบริการจะต้องมี หรือต้องมุ่งเน้นเป็นพิเศษ
5. ความสัมพันธ์เชิงภูมิศาสตร์กับคุณสมบัติของสินค้า / บริการในความต้องการ
6. อิทธิพลของผู้ใช้ในเครือข่าย Social Media
7. ความรู้สึกของลูกค้าต่อแบรนด์บน Social Media (Customer Sentiment)
8. ผลกระทบยอดขายที่ลดลงของลูกค้ารายที่กำหนดต่อความเสี่ยงทางการเงินของบริษัท
9. การเพิ่มหรือลดสินค้าในแต่ละกลุ่มสินค้า (Categories) และการเพิ่มลดกลุ่มย่อยกับผลต่อรายได้และกำไรของบริษัท
10. การวิเคราะห์ความเสี่ยง (Risk Analysis) และการตรวจจับการฉ้อโกง (Fraud Detection)

ก่อนจะมาเป็น Big Data
ที่จริงแล้วการคิดเอาโซลูชัน Big Data มาใช้งานก็คงไม่ได้เป็นสิ่งที่องค์กรต้องเริ่มจากศูนย์ เพราะที่จริงแล้วองค์กรมีการบริหารจัดการข้อมูลในระดับใดระดับหนึ่งอยู่แล้วไม่มากก็น้อย ซึ่งถ้าจะอ้างอิงถึงเราคงคุ้นเคยกับคำศัพท์ เช่น Database, Data Warehouse และ Data Mining กันอยู่บ้างแล้ว

ในอดีตการบริหารจัดการข้อมูลในองค์กรมักเป็นการบริหารเชิงรับ คือนำเอาข้อมูลที่ต้องใช้งานเข้ามาจัดเก็บ และบริหารจัดการให้ค้นหาได้ง่ายเมื่อต้องการ และมีการวิเคราะห์โดยพื้นฐานในระดับหนึ่ง นั่นคือสิ่งที่ Database ทำในยุคแรกๆ ซึ่งการวิเคราะห์ส่วนใหญ่ก็ขึ้นอยู่กับข้อมูลที่มีโครงสร้าง (Structured Data) และการวิเคราะห์หลายครั้งก็อิงกับสมมติฐานและการคาดการณ์ที่ผู้บริหารในองค์กรพอจะทราบหรือคาดเดาได้อยู่บ้างแล้ว

แต่เมื่อมาถึงยุคของ Data Mining เป้าหมายของการใช้งาน Data Mining คือการค้นหารูปแบบหรือความสัมพันธ์ของข้อมูลที่องค์กรไม่เคยรู้มาก่อน และจากแนวคิดของ Data Mining ก็ได้มีการต่อยอดมาถึงจุดที่องค์กรพยายามที่จะทำให้ความสามารถในการวิเคราะห์ดังกล่าวเกิดขึ้นกับข้อมูลที่มีปริมาณมหาศาล และไม่เพียงแค่ดำเนินการกับข้อมูลที่มีการรวบรวม คัดเลือกและจัดการจนเป็นกลุ่มข้อมูลที่ต้องการ (Batch Processing) แต่ต้องสามารถดำเนินการกับข้อมูลที่มีการใช้งานในเวลาจริงได้ด้วย เช่น Streaming Data เป็นต้น

ความก้าวหน้าสูงสุดก็คือ Big Data ให้ความสำคัญและความสนใจที่ครอบคลุมเรื่องกลยุทธ์ข้อมูล และสารสนเทศเชิงกลยุทธ์ที่มากกว่า ทุกแนวคิดด้านการบริหารจัดการข้อมูลที่ผ่านมา Big Data สนใจแม้กระทั่งว่า คุณจะหาวิธีได้มาซึ่งข้อมูลเพื่อนำมาวิเคราะห์ได้อย่างไร เช่น หาวิธีเข้าไปดึงข้อมูลจากแหล่งข้อมูลบนอินเทอร์เน็ตของหน่วยงานที่เกี่ยวข้องมาด้วยสคริปต์ท์ที่เขียนขึ้นมาอย่างชาญฉลาด หรือหา RFID หรืออุปกรณ์ในการวัดค่าที่ต้องการในแบบอื่นๆ เพื่อให้ได้ข้อมูลที่ต้องการ และนำมาประมวลผลเพื่อตอบโจทย์ Big Data ที่ต้องการ

ผู้สังเกตการณ์และผู้เชี่ยวชาญหลายท่านกล่าวว่า แนวคิดหนึ่งที่คนที่จะดูแลส่วนงาน Big Data ต้องมีคือ การรับรู้ถึงเป้าหมายเชิงธุรกิจที่เป็นที่มาของกลยุทธ์ Big Data แล้วพัฒนากลยุทธ์ Big Data ที่เหมาะสมสำหรับการตอบโจทย์นั้นๆ ขึ้นมา โดยมุ่งเน้นที่การตอบสนองการตอบโจทย์ทางธุรกิจ ไม่ว่าจะเป็นกลยุทธ์ที่เกิดขึ้นในระยะสั้น หรือเป็นการดำเนินการต่อเนื่องในระยะยาวก็ตาม ตามแนวคิดนี้เท่ากับว่า Big Data ไม่ใช่แค่โซลูชันด้านไอทีและสารสนเทศขององค์กร แต่ก้าวข้ามไปเป็นกลยุทธ์เชิงรุกของธุรกิจ ซึ่งหากไปได้ถึงจุดนั้นก็เท่ากับองค์กรสามารถเพิ่มความสามารถทางการแข่งขันด้วยกลยุทธ์ Big Data เชิงรุกได้ ซึ่งมากกว่าแค่การรอให้ข้อมูลในระบบชององค์กรแสดงแนวโน้มอะไรบางอย่างที่น่าสนใจขึ้นมา เพราะนั่นอาจจะช้าเกินไปสำหรับการแข่งขันก็ได้

วิทยาศาสตร์-คณิตศาสตร์
กลจักรสำคัญทำ Big Data
ถึงแม้เทคโนโลยีการจัดเก็บและวิเคราะห์ข้อมูล Big Data จะมีความก้าวหน้าเป็นอย่างมาก แต่คงไม่ใช่เรื่องง่ายที่จะให้ระบบสามารถเข้าไปวิเคราะห์ข้อมูลมหาศาลในแต่ละองค์กรแล้วแจ้งผลที่น่าสนใจต่างๆ ได้ทันที เหตุผลหลักๆ ก็คือ ความแตกต่างของแต่ละองค์กรในเรื่องของข้อมูลที่มีการติดตามจัดเก็บและบริหารจัดการ รวมถึงประเภทและธรรมชาติของธุรกิจที่องค์กรนั้นๆ ดำเนินการด้วย

ถ้าเริ่มต้นจากสมมติฐานที่ว่า ฝ่ายบริหารของทุกองค์กรสามารถตั้งคำถาม หรือโจทย์ทางธุรกิจที่ต้องการทราบจากข้อมูลที่บริษัทมีได้ (ดูตัวอย่างจากล้อมกรอบ “ตัวอย่างของสิ่งที่ได้จาก Big Data”) หรือยิ่งไปกว่านั้นคือ สามารถตั้งคำถามทางธุรกิจเพื่อการทำกลยุทธ์ Big Data เชิงรุกได้ตามที่ได้นำเสนอไปในหัวข้อก่อนนี้แล้ว จากนั้นทีมงานได้หาวิธีที่จะได้มาซึ่งข้อมูลที่ต้องการแล้ว แต่การนำชุดข้อมูลดังกล่าวใส่เข้าไปในระบบยังไม่สามารถทำให้ได้คำตอบที่ฝ่ายธุรกิจต้องการออกมาได้ หากขาดสิ่งที่เป็นสมองของโซลูชัน Big Data ไป

สิ่งที่องค์กรต้องมีเพิ่มเติมนอกเหนือจากข้อมูลที่หลากหลายและมีปริมาณมากพอ กับโซลูชัน Big Data ที่เหมาะสมก็คือผู้เชี่ยวชาญที่มีความรู้ในศาสตร์ที่เกี่ยวข้องกับการทำ Big Data ซึ่งไม่ได้หมายถึงผู้บริหาร ผู้เชี่ยวชาญทางธุรกิจ-เศรษฐกิจ และผู้เชี่ยวชาญด้านไอทีที่องค์กรน่าจะมีอยู่แล้ว แต่เป็นผู้เชี่ยวชาญทางด้านศาสตร์สถิติและคณิตศาสตร์เพื่อการบริหาร ซึ่งจะเป็นกลุ่มบุคคลที่มีความจำเป็นอย่างมากในการทำงานด้าน Big Data

เช่นเดียวกับงานของผู้เชี่ยวชาญสาขาวิทยาศาสตร์อื่นๆ เช่น วิศวกรรม แพทย์ เภสัชกรรม ฯลฯ ที่อธิบายให้กับคนอื่นเข้าใจได้ยาก แต่หลายคนก็คงมีคำถามว่างานของนักวิเคราะห์ข้อมูล นักคณิตศาสตร์สถิติ หรือผู้เชี่ยวชาญในเชิงข้อมูลอื่นๆ ที่จะทำให้กับโซลูชัน Big Data นี้คืออะไรบ้าง อาจสรุปได้ว่างานเชิงสถิติ วิจัยและวิเคราะห์ข้อมูลทุกประเภทคืองานที่เหล่าผู้เชี่ยวชาญด้านนี้สามารถทำให้ธุรกิจผ่านโซลูชัน Big Data ได้ โดยหลักการทางสถิติที่สำคัญที่ต้องนำมาใช้ในงาน Big Data คือสถิติอนุมาน (Inductive Statistics) สำหรับการบ่งชี้ระบบที่ไม่ใช่เชิงเส้น (Nonlinear system identification) หากท่านใดสนใจที่จะศึกษาในเชิงลึกก็สามารถหาอ่านตามหัวข้อดังกล่าวได้

big-data

ทั้งนี้งานของนักคณิตศาสตร์สถิต นักคณิตศาสตร์สารสนเทศ หรือนักวิเคราะห์ข้อมูลสามารถทำให้องค์กรด้วยโซลูชัน Big Data ได้มีรายละเอียดดังต่อไปนี้

1. การตั้งสมมติฐานแล้วใช้เครื่องมือสถิติพื้นฐาน อย่าง Z-test หรือ Chi-Square ในการพิสูจน์
2. การวิเคราะห์จากกราฟหรือตาราง เพื่อดูรูปแบบ เช่น Seasonal, Cycle, Pattern อื่นๆ และความสัมพันธ์ ซี่งเป็นเครื่องมือที่พื้นฐานที่สุด แต่ใช้การได้มากมายที่สุดตัวหนึ่งในการวิเคราะห์ข้อมูล โดยมีคำศัพท์เรียกกันอย่างไม่เป็นทางการว่า “การพลิกข้อมูลดูในหลายๆ มุมที่แตกต่าง”
3. การตั้งโมเดลด้วยเทคนิคทางปัญญาประดิษฐ์ (AI) หรือ Machine Learning เช่น Bayesian Network หรือ K-MeansClustering
4. การทำบทสรุปการวิเคราะห์ ซึ่งไม่ได้หมายถึงการทำกราฟและข้อสรุปเชิงบรรยาย เช่น การทำงานวิจัยทั่วไป แต่ต้องอาศัยความสามารถในการแสดงผลข้อมูลออกมาเป็นภาพ (Visualization) ของโซลูชัน Big Data เพื่อที่จะทำให้ได้ผลลัพธ์ที่ต้องการอย่างเป็นอัตโนมัติและสมบูรณ์แบบยิ่งขึ้น

อย่างไรก็ตาม มีความเป็นไปได้สูงที่บริษัทซึ่งมีความสนใจในกลยุทธ์ Big Data จะก้าวจากองค์กรที่ใช้การวิจัยทางการตลาดทั่วไปไปสู่ Big Data โดยไม่เคยทำการวิเคราะห์ข้อมูลด้วยโซลูชันก้าวหน้าอื่นๆ เช่น Data Mining หรือ Data Warehouse แต่ก้าวสู่ Big Data เลย และสิ่งที่โซลูชัน Big Data สามารถให้ผลลัพธ์ได้จะรวดเร็วกว่าการตั้งสมมติฐานหรือคำถามทางธุรกิจของผู้บริหารจะตามทัน จนกลายเป็นหน้าที่ของผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลที่จะต้องวิเคราะห์หาความสัมพันธ์ของชุดข้อมูลต่างๆ ที่เข้าสู่ระบบ เช่นเดียวกับต้องวางแผนให้องค์กรในการติดตามและจัดเก็บข้อมูลใหม่ๆ หรือด้วยวิธีการใหม่ๆ ที่จะสามารถนำมาใช้กับโซลูชัน Big Data ได้ในเวลาต่อมาด้วย

เทคโนโลยี Big Data
คำถามที่หลายคนอยากจะทราบคำตอบน่าจะเป็นเรื่องของเทคโนโลยีว่ามีอะไรบ้างที่องค์กรจะต้องมีเพื่อที่จะแน่ใจได้ว่าจะสามารถดำเนินกลยุทธ์ Big Data ให้ได้ผลสัมฤทธิ์ตามหัวใจของกลยุทธ์อย่างควรจะเป็นอย่างแท้จริง

หัวใจหลักน่าจะเป็นส่วนของโครงสร้างพื้นฐานที่เกี่ยวข้อง ได้แก่ ส่วนจัดเก็บข้อมูลที่รองรับได้ทั้งปริมาณข้อมูลมหาศาล และมีความเร็วในการเข้าถึงที่สูงพอ รวมทั้งพลังการประมวลผลที่ทรงพลังพอจะรับการประมวลผลข้อมูลปริมาณมหาศาลของ Big Data ได้ ซึ่งแต่เดิมนั้นยากที่องค์กรทั่วไปจะสามารถจัดหา หรือเข้าถึงทรัพยากรที่จำเป็นเหล่านั้นได้ แม้แต่องค์กรระดับเอนเตอร์ไพรซ์หลายแห่งก็ใช่ว่าจะได้ทรัพยากรเหล่านั้นมาในระดับที่มีความคุ้มค่าในเชิงต้นทุน

ปัจจัยหนึ่งในเรื่องเทคโนโลยีที่ทำให้โซลูชัน Big Data สามารถนำมาใช้ในองค์กรต่างๆ ได้อย่างกว้างขวางมากขึ้น คือเทคโนโลยีทั้งในเรื่องการประมวลผลและการจัดเก็บข้อมูลผ่านคลาวด์ (Cloud Service) เช่นเดียวกับการสื่อสารอินเทอร์เน็ตความเร็วสูง ซึ่งพัฒนาขึ้นมาจนถึงระดับที่พร้อมใช้งานกับ Big Data มาระยะหนึ่งแล้ว ซึ่งนั่นทำให้โซลูชันที่เป็นองค์กรประกอบต่างๆ ทั้งหมดถูกพัฒนาขึ้นมาให้ตอบสนององค์กรทั่วไปได้มากยิ่งขึ้น พูดง่ายๆ องค์กรที่เดิมไม่มีทางจะเข้าถึงโครงสร้างพื้นฐาน และทรัพยากรที่จำเป็นสำหรับการทำ Big Data ก็จะสามารถดำเนินการได้ในยุคปัจจุบันนี้

สำหรับรายละเอียดการพัฒนาของโซลูชันที่ทำให้ Big Data น่าจะสามารถกลายมาเป็นโซลูชันกระแสหลักสำหรับองค์กรชั้นนำนั้นก็เช่น ส่วนโต้ตอบกับผู้ใช้ (UI) ซึ่งเริ่มมีความง่ายในการใช้ตั้งแต่ขั้นตอนการติดตั้งและกำหนดค่าต่างๆ แม้แต่ในเรื่องการตั้งค่าในการวิจัยและวิเคราะห์ข้อมูลใน Big Data โดยใช้ UI แบบกราฟิกและการใช้งานแบบลากและวาง (Drag and Drop) มาเพิ่มความสะดวกให้กับผู้ใช้มากยิ่งขึ้น ไปจนกระทั่งขั้นตอนการจัดทำรายงาน และแสดงผลการวิเคราะห์โดยเน้นการแสดงผลด้วยภาพ (Visualization) ระดับ Dashboard เพื่อให้ได้ผลเชิงภาพรวมที่เข้าใจได้ง่ายและตอบสนองความต้องการทางธุรกิจได้อย่างรวดเร็วด้วย

รายละเอียดของเทคโนโลยีที่สำคัญเพื่อการใช้งานโซลูชัน Big Data
1. ฐานข้อมูล NoSQL ซึ่งเป็นฐานข้อมูลยุคถัดจาก RDBMS มุ่งเน้นการจัดการข้อมูลที่มีพลวัตร (Dynamic) มากกว่าข้อมูลที่มีโครงสร้างและมีการจัดเก็บเป็นระบบ ซึ่งก็คือฐานข้อมูลสำหรับ Big Data อย่างแท้จริง เช่น Apache Cassandra ซึ่งมีความสามารถในการอ่านเขียนข้อมูลได้อย่างรวดเร็ว ทำให้สามารถทำงานกับข้อมูลปริมาณมหาศาลของ Big Data ได้ และยังเป็น Open source ด้วย
2. การจัดเก็บข้อมูลปริมาณมหาศาลโดยใช้บริการ Cloud Storage ซึ่งผู้ให้บริการตั้งแต่ระดับนานาชาติอย่าง Amazon หรือ Google ไปจนกระทั่ง ISP และ Vendor ในแต่ละประเทศก็ขยายธุรกิจของตนออกมาครอบคลุมบริการในส่วนนี้ด้วย เพราะในยุคของ Cloud service เช่นนี้ ผู้ที่ให้บริการหนึ่งรายการมักจะได้เป็นผู้ให้บริการรวมทั้งโซลูชัน โดยสามารถได้รายได้จากบริการอื่นๆ ที่เกี่ยวข้องกับ Big Data ติดตามมาทั้งหมดในที่สุดด้วย
3. เทคโนโลยีการประมวลผลแบบ Parallel Processing ที่มาแรงอย่าง Hadoop ซึ่งมีความสามารถในการบริหารจัดการงานประมวลผลโดยกระจายงานออกไปยัง Cloud Processing, ประมวลผล และรวบรวมผลลัพธ์กลับมาให้ผู้ใช้ในระดับที่สามารถรองรับการทำงานด้าน Big Data ได้อย่างสบาย อย่างไรก็ตามด้วยต้นกำเนิดของ Hadoop ที่เป็น Open source ทำให้มีข้อจำกัดในหลายๆ ประเด็น บริษัทผู้ค้าซอฟต์แวร์และโซลูชันหลายรายจึงนำเอาแนวทางของ Hadoop ไปพัฒนาให้มีความเชื่อถือได้ (Reliability) ในการทำงานมากขึ้น เช่น GPFS (General Parallel File System) ของ IBM โดยเพิ่มความยืดหยุ่น, ความปลอดภัย, การสำรองข้อมูล, ความสอดคล้องกันของข้อมูล (Integrity) ฯลฯ ซึ่งจะทำให้การบริหารจัดการ Parallel Processing ที่มีความซับซ้อนและต้องทำงานกับข้อมูลมหาศาลมีความสะดวก และลดความเสี่ยงลงให้สูงที่สุดได้อีกด้วย
4. ระบบที่มีความสามารถในการทำ Load Balancing และป้องกัน fail over ในสเกลระดับ Big Data
5. ความสามารถในการลบข้อมูลซ้ำ (De-duplication), การติดตามโดยอ้างอิง KPI ที่กำหนดและการประมวลผลแบบ Real time
6. ความสามารถในการจัดตารางงาน (Job Scheduling) โดยอิงตามอีเวนต์และเวลา

โดยสรุปการทำ Big Data ที่จะก้าวไปสู่การวิเคราะห์ข้อมูลเชิงลึกอย่าง Data Analytics เพื่อให้ได้ข้อมูลคุณภาพที่พร้อมนำไปใช้ในการวางแผน และดำเนินธุรกิจได้นั้น องค์กรต้องมีควมพร้อมตั้งแต่รากฐานหรือโครงสร้างของเทคโนโลยี เช่น ระบบประมวลที่รวดเร็ว เครือข่ายที่รองรับ ไปจนถึงเครื่องมือหรือทูลด้าน Big Data หรือข้อมูลที่จะนำมาใช้ในการวิเคราะห์ และสิ่งสำคัญคือ การมีบุคลากรที่จะต้องชำนาญด้านคณิตศาสตร์ และวิทยาศาสตร์ข้อมูล เพื่อให้การวิเคาระห์ข้อมูลได้มาซึ่งข้องมูลที่มีประสิทธิภาพ และตรงกับความต้องการมากที่สุด

เครื่องมือที่เกี่ยวข้องอื่นๆ ของ Hadoop
1. YARN เทคโนโลยีในการบริหารคลัสเตอร์ ใน Hadoop รุ่นที่ 2 โดยมีนิยามล่าสุดคือ ระบบปฏิบัติการแบบกระจายตัวขนาดใหญ่ (Large-scale Distributed Operating System) สำหรับแอพพลิเคชันด้าน Big Data บางกรณีก็ถูกเรียกว่า MapReduce 2.0 โดย YARN แยกเอาความสามารถเรื่องการทำ scheduling และการบริหารทรัพยากรออกมาจากคอมโพเนนต์ด้านการประมวลผลข้อมูล ซึ่งทำให้ Hadoop รองรับการประมวลผลที่หลากหลายและรองรับแอพพลิเคชันได้กว้างขวางมากขึ้น เช่น ทำให้ Hadoop clusters รันการคิวรีแบบอินเทอร์แอกทีฟ และใช้งานแอพพลิเคชันสตรีมมิงดาต้าไปพร้อมกับแบตช์จ็อบของ MapReduce ได้ด้วย
2. MapReduce ซอฟต์แวร์เฟรมเวิร์กเพื่อใช้ในการเขียนโปรแกรมประมวลผลข้อมูลที่ไม่มีโครงสร้างในปริมาณมหาศาลระดับ Big Data โดยผู้พัฒนาจะมีความสะดวกในการเรียกใช้รูทินไลบรารีของฟังก์ชัน Intra cluster ต่างๆ โดยไม่ต้องเขียนขึ้นมาใหม่ MapReduce รองรับการใช้งานหลายภาษา ซึ่งรวมถึง Java, C++, Python, Perl, Ruby และ C อย่างไรก็ตาม MapReduce รองรับเฉพาะแอพพลิเคชันแบบ Batch Processing เท่านั้น
3. Spark เฟรมเวิร์กสำหรับการวิเคราะห์ข้อมูลด้วยการทำ Parallel processing ของข้อมูลขนาดใหญ่ข้ามคอมพิวเตอร์คลัสเตอร์ ซึ่งด้วยวิธีการดังกล่าวทำให้ Spark สามารถรันจ็อบแบบ In-memory ได้เร็วกว่า MapReduce 100 เท่าและรันจ็อบบนดิสก์เร็วกว่า 10 เท่า นอกจากนี้ฟังก์ชันหลักของเอนจิ้นส่วนหนึ่งของ Spark ยังทำหน้าที่ส่วนหนี่งเป็น API และ Spark ยังมีทูลในการบริหารและวิเคราะห์ข้อมูลเช่น เอนจิ้น SQL query, อัลกอริธึมด้าน Machine Learning, ระบบประมวลผลกราฟ และซอฟต์แวร์ประมวลผลข้อมูลแบบสตรีมมิ่งด้วย
4. HIVE ซอฟต์แวร์ Data Warehouse แบบโอเพ่นซอร์สสำหรับใช้เพื่อคิวรีและวิเคราะห์ข้อมูลขนาดใหญ่ที่เก็บใน Hadoop โดย HIVE มีอินเทอร์เฟซที่คล้าย SQL สำหรับทำงานบน Hadoop :ซึ่งช่วยให้ผู้ใช้ไม่ต้องทำโปรแกรมเพิ่มเติมบน MapReduce สำหรับการใช้ฟีเจอร์ดังกล่าวด้วย
5. PIG เทคโนโลยีที่ทำให้ผู้ใช้มีกลไกระดับสูงสำหรับการทำ Parallel Programming ในการนำจ็อบของ MapReduce ไปทำงานบนคลัสเตอร์ Hadoop ซึ่ง PIG ทำให้ผู้ใช้สามารถกำหนดเอ็กซีคิวชันรูทินสำหรับการคิวรีงานวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่ถูกจัดเก็บกระจายกันอยู่ได้โดยไม่ต้องทำงานระดับโลว์ลีเวลบน MapReduce

ตัวอย่างแนวคิดกลยุทธ์ Big Data เพื่อสำรวจความนิยมของแบรนด์บน Social Media

เป้าหมาย
เพื่อทราบถึงผลตอบรับในแคมเปญการตลาดเพื่อโปรโมตความนิยมในแบรนด์สินค้า/บริการของบริษัทต่อกลุ่มเป้าหมายทางการตลาด

ตัวชี้วัด
1. จำนวน Like บน Facebook Page
2. จำนวนการทวิตที่มี Hashtag ที่กำหนดใน Twitter
3. จำนวนการแชร์ภาพตามกติกาที่กำหนดบน Instagram โดยใส่ Hashtag
4. ความสัมพันธ์ระหว่างคำสำคัญ (Keyword) ที่มีความหมายทางบวกกับแบรนด์ของบริษัท

แนวทางการดำเนินการ
1. ประสานกับส่วนงานการตลาด สื่อสารการตลาดและเอเยนซี่
2. นำเอาตัวชี้วัดในข้อ 1-3 มากำหนดการติดตามตรวจสอบในระบบ
3. สร้างโมเดลความสัมพันธ์ระหว่างคำสำคัญ (Keyword) ที่ต้องการและแบรนด์ของบริษัท
4. พัฒนาเครื่องมือหรือใช้เครื่องมือในโซลูชัน Big Data ในการเก็บข้อมูล
5. นำเอาข้อมูลที่ได้มาวิเคราะห์โดยโมเดลที่กำหนดไว้
6. วิเคราะห์หาข้อสรุป และสร้างรายงานจากระบบ