Phân tích Dữ liệu lớn
Abstract
Giáo trình Phân tích dữ liệu lớn tập trung các bài giảng về phân tích dữ liệu lớn được tác giả sử dụng để giảng dạy cho sinh viên đại học và học viên cao học ngành CNTT tại trường Đại học Công nghệ Thông tin, ĐHQG-HCM từ năm 2015 đến nay.Giáo trình được biên soạn theo đề cương môn học và một số phần nâng cao cho học viên cao học dựa trên kết quả của các đề tài nghiên cứu khoa học, khóa luận, các bài báo khoa học của sinh viên, học viên cao học, nghiên cứu sinh mà tôi đã hướng dẫn trong các năm qua. Bên cạnh đó, chúng tôi cũng đã sử dụng kết quả của đề tài B2017-26-02 "Xây dựng và khai phá kho dữ liệu các bài báo trong lĩnh vực khoa học máy tính trên nền tính toán phân tán Hadoop hỗ trợ nghiên cứu khoa học” (2017) do tôi làm chủ nhiệm Tôi xin cám ơn các nghiên cứu sinh, học viên cao học, sinh viên đã nỗ lực cùng tôi hoàn thành các công trình nghiên cứu về phân tích dữ liệu lớn trên Hadoop và Apache Spark, trong đó có NCS Phạm Thế Anh Phú (chương 6), NCS Phan Hồng Trung (chương 11). Mặc dù các tác giả đã hết sức cố gắng, nhưng do những giới hạn về thời gian và tài liệu tham khảo nên giáo trình khó tránh khỏi một số chỗ chưa được hoàn thiện. Kính mong độc giả đóng góp để chúng tôi bổ sung và chỉnh lý trong những lần tái bản sau.