Bài cuối: Spotify mất 86 triệu bài hát - hack mà không hack?

(CATP) Tuần qua, trong thời điểm cuối năm 2025 bận rộn, thế giới âm nhạc kỹ thuật số đã rung chuyển bởi một vụ việc được xem là một trong những cuộc "trộm cắp dữ liệu" lớn nhất lịch sử. Nhóm hoạt động chống bản quyền (pirate activist) mang tên Anna's Archive công bố rằng họ đã scrape (thu thập dữ liệu, hay cạo quét dữ liệu) thành công gần như toàn bộ thư viện âm nhạc của Spotify - nền tảng phát nhạc trực tuyến (streaming) lớn nhất thế giới với hơn 700 triệu người dùng. Anna's Archive cho biết đã lấy được metadata (dữ liệu mô tả) của khoảng 256 triệu tracks (bài hát), cùng với file audio của 86 triệu bài hát, tổng dung lượng lên đến 300TB. Dữ liệu này bao gồm hầu hết các bản nhạc từ năm 2007 đến giữa năm 2025, chiếm 99,6% lượng nghe thực tế trên Spotify. Đây không phải là một vụ hack truyền thống với việc xâm nhập hệ thống máy chủ, mà là một hoạt động scraping quy mô lớn, trong thời gian dài. Vụ mất dữ liệu này không chỉ là một sự cố kỹ thuật mà còn là một cú sốc văn hóa và kinh tế đối với ngành công nghiệp âm nhạc.

Vụ mất dữ liệu ảnh hưởng đến Spotify ra sao?

Vụ việc được Anna's Archive công bố vào ngày 20/12/2025, ngay trước Giáng sinh, đã tạo nên một làn sóng phản ứng mạnh mẽ trên mạng xã hội và các diễn đàn công nghệ, đa số bày tỏ sự ngạc nhiên và lo ngại. Các tờ báo lớn như The Guardian, Billboard và The Verge nhanh chóng đưa tin, mô tả đây là cú sốc lớn nhất của ngành streaming kể từ vụ hack Sony năm 2014.

Spotify (công ty xuất xứ từ Thụy Điển đã trở thành biểu tượng của sự chuyển dịch từ mua đĩa CD sang streaming) sở hữu một thư viện khổng lồ với hơn 100 triệu bài hát và Anna's Archive đã lấy được gần 100% nội dung phổ biến nhất. Dữ liệu không chỉ bao gồm tên bài hát, nghệ sĩ, album mà còn mã ISRC (mã nhận dạng quốc tế cho bản ghi âm), giúp dễ dàng tái tạo một nền tảng streaming tương tự. File audio được thu thập dữ liệu ở định dạng OGG Vorbis 160kbps cho các bản hit, và OGG Opus 75kbps cho các bản ít phổ biến hơn, bảo đảm chất lượng đủ dùng cho việc phát lại. Điều này có nghĩa là bất kỳ ai cũng có thể tải về và xây dựng một "bản sao Spotify" không có bản quyền, đe dọa trực tiếp mô hình kinh doanh dựa trên đăng ký của Spotify.

Vụ sao chép dữ liệu tự động ảnh hưởng đến Spotify là đa chiều và nghiêm trọng. Đầu tiên, về mặt tài chính, công ty đã đầu tư hàng tỷ đô la vào việc mua bản quyền từ các hãng thu âm lớn như Universal, Sony và Warner. Vụ sao chép dữ liệu làm vô hiệu hóa các biện pháp bảo vệ quyền kỹ thuật số (DRM), cho phép tải tự do các bài hát trên mạng ngang hàng (P2P torrent). Điều này có thể dẫn đến giảm doanh thu từ quảng cáo và đăng ký, vì người dùng có thể chuyển sang các nguồn không bản quyền. Spotify đã báo cáo doanh thu 13,2 tỷ Euro trong năm 2024, nhưng vụ việc này có thể làm giảm tăng trưởng dự kiến cho năm 2026.

Tuần qua, thế giới âm nhạc kỹ thuật số rung chuyển bởi vụ "trộm cắp dữ liệu" quy mô lớn tại nền tảng phát nhạc trực tuyến Spotify

Thứ hai, về danh tiếng, Spotify bị chỉ trích vì không bảo vệ được dữ liệu của mình, dù đã có các biện pháp chống scraping. Công ty đã phải khóa hàng ngàn tài khoản người dùng thật để ngăn chặn hoạt động của Anna's Archive, dẫn đến gián đoạn dịch vụ và khiếu nại từ khách hàng. Trên các diễn đàn như Reddit, cộng đồng DataHoarder kêu gọi mọi người chia sẻ qua các mạng P2P, biến vụ việc thành một phong trào "bảo tồn văn hóa" chống lại sự độc quyền của các ông lớn công nghệ.

Thứ ba là ảnh hưởng đến nghệ sĩ và ngành âm nhạc. Nhiều nghệ sĩ lo ngại rằng dữ liệu bài hát bị mất sẽ được dùng để huấn luyện trí tuệ nhân tạo (AI), tạo ra các bản nhạc giả mạo hoặc nhái giọng (voice cloning) mà không có sự đồng ý của ca sĩ, nhạc sĩ. Một bài đăng trên X từ @MicahRead nhấn mạnh rằng vụ việc này làm nổi bật nhu cầu về hệ thống xác thực nguồn gốc cho âm nhạc sống, sử dụng công nghệ để chống nhạc do AI tạo ra. Các hãng thu âm có thể giảm lòng tin vào Spotify, dẫn đến đàm phán bản quyền khó khăn hơn.

Scraping dữ liệu quy mô lớn là gì?

Scraping dữ liệu, hay còn gọi là web scraping, là quá trình tự động thu thập thông tin từ các trang web hoặc ứng dụng mà không cần sự cho phép của chủ sở hữu. Trong trường hợp của Spotify, đây không phải là hack (xâm nhập trái phép vào hệ thống máy chủ), mà là scraping thông qua sử dụng hàng ngàn tài khoản người dùng thật để truy cập và tải về dữ liệu một cách hợp pháp từ góc nhìn người dùng, nhưng vi phạm điều khoản dịch vụ.

Để giải thích dễ hiểu, hãy tưởng tượng scraping như việc bạn đi vào một thư viện công cộng, photocopy từng cuốn sách một cách thủ công. Nhưng với scraping quy mô lớn, bạn sử dụng robot (bot) để làm việc đó 24/7, với tốc độ siêu nhanh. Anna's Archive đã sử dụng hàng ngàn tài khoản Spotify (có thể từ người dùng thật hoặc tạo mới) để bỏ qua DRM, lớp bảo vệ ngăn chặn việc tải về file audio. Họ ưu tiên sao chép dữ liệu các bản phổ biến trước, sử dụng công cụ tự động để trích xuất dữ liệu mô tả như tên bài, nghệ sĩ và mã nhận dạng.

Quá trình scraping bao gồm các bước sau: Thu thập đường link hoặc điểm truy cập bằng cách sử dụng API công khai hoặc playlist để lấy danh sách bài hát. Sau đó là tự động hóa truy cập bằng các đoạn mã để mô phỏng hành vi người dùng, tránh bị hệ thống phát hiện. Bước tiếp theo là trích xuất dữ liệu bằng cách tải về dữ liệu mô tả và audio, sau đó lưu trữ và phân phối qua mạng ngang hàng. Trong vụ Spotify, Anna's Archive đã sao chép trong nhiều tháng, lấy 300TB dữ liệu, tương đương với hàng triệu giờ nghe nhạc.

Tranh luận gay gắt về pháp lý

Vụ sao chép dữ liệu này đã khơi mào một cuộc tranh luận gay gắt về pháp lý, xoay quanh ranh giới giữa bảo tồn văn hóa và vi phạm bản quyền. Spotify gọi đây là "thu thập dữ liệu sai luật" bởi những người cực đoan chống bản quyền (anti-copyright extremists), vi phạm luật bản quyền quốc tế và điều khoản dịch vụ của họ. Công ty có thể kiện Anna's Archive dựa trên luật DMCA (Digital Millennium Copyright Act) tại Mỹ, yêu cầu gỡ bỏ torrent và bồi thường thiệt hại.

Ngược lại, Anna's Archive biện minh rằng đây là "preservation archive", chỉ nhằm bảo tồn văn hóa âm nhạc chống lại chiến tranh, thiên tai hoặc đóng cửa dịch vụ. Họ so sánh mình với Sci-Hub hoặc Z-Library, các kho lưu trữ sách không có bản quyền, và nhấn mạnh rằng họ không lấy dữ liệu cá nhân người dùng mà chỉ lấy nội dung công khai từ danh sách phát nhạc.

Tranh cãi còn liên quan đến AI. Dữ liệu sao chép có thể dùng huấn luyện mô hình AI mà không xin phép nghệ sĩ, ca sĩ dẫn đến kiện tụng từ các hãng thu âm. Luật bản quyền hiện tại ở EU và Mỹ chưa rõ ràng về thu thập dữ liệu cho mục đích phi thương mại, nhưng các chuyên gia dự đoán Spotify sẽ thắng kiện, tương tự các vụ trước với LinkedIn hoặc Facebook. Ngoài ra, có tranh luận về trách nhiệm của Spotify trong việc bảo vệ dữ liệu và liệu người dùng có quyền truy cập nội dung đã trả phí hay không.

Hậu quả ngắn hạn đã rõ: Spotify chịu thiệt hại danh tiếng, mất doanh thu tiềm năng và phải đầu tư thêm vào bảo mật. Dữ liệu lan truyền qua mạng ngang hàng P2P có thể dẫn đến sự bùng nổ các nền tảng nhạc vi phạm bản quyền, làm suy yếu hệ thống streaming toàn cầu. Về dài hạn, rủi ro lớn nhất là lạm dụng AI. Khối dữ liệu 300TB có thể huấn luyện mô hình tạo nhạc giả, giả giọng hát hay thậm chí dùng deepfake tạo ra video giả mạo với hình ảnh và giọng nói thật của ca sĩ, đe dọa quyền lợi nghệ sĩ. Các chuyên gia cảnh báo về việc chủ sở hữu bản quyền nhạc phải liên tục kiện tụng để gỡ bỏ nội dung vi phạm, nhưng khó kiểm soát hoàn toàn.

Vụ mất dữ liệu này không chỉ là một sự cố kỹ thuật mà còn là lời cảnh tỉnh về sự mong manh của hệ sinh thái kỹ thuật số, nơi dữ liệu có thể bị lấy đi mà không cần hack trực tiếp. Vụ mất dữ liệu Spotify năm 2025 không chỉ là một sự cố mà còn là bước ngoặt, buộc ngành công nghiệp âm nhạc phải tái cấu trúc để đối phó với thời đại AI và dữ liệu mở.

Hàng nghìn hệ thống n8n tại Việt Nam đối mặt nguy cơ bị chiếm quyền kiểm soát

Ngày 25/12/22025, Bkav phát đi cảnh báo gần 8.000 hệ thống n8n đang hoạt động tại Việt Nam có nguy cơ bị tin tặc tấn công và chiếm quyền kiểm soát do tồn tại một lỗ hổng bảo mật đặc biệt nghiêm trọng. Với số lượng hệ thống bị ảnh hưởng lớn, Việt Nam hiện nằm trong nhóm 10 quốc gia có mức độ rủi ro cao nhất, trong bối cảnh toàn cầu ghi nhận hơn 200.000 hệ thống n8n có nguy cơ tương tự.

n8n là nền tảng tự động hóa quy trình công việc, cho phép kết nối và xử lý dữ liệu giữa nhiều ứng dụng như Gmail, Zalo, Excel, cơ sở dữ liệu và các hệ thống nội bộ doanh nghiệp. Do thường được triển khai ở vị trí trung tâm của hạ tầng công nghệ thông tin, n8n giữ vai trò quan trọng trong việc xử lý, luân chuyển và kiểm soát dữ liệu quan trọng. Trung bình mỗi tuần, nền tảng này ghi nhận khoảng 57.000 lượt tải mới trên toàn cầu. Theo các chuyên gia an ninh mạng của Bkav, lỗ hổng bảo mật nói trên được định danh là CVE-2025-68613, có điểm CVSS 9,9/10 - mức đặc biệt nghiêm trọng. Lỗ hổng ảnh hưởng đến các phiên bản n8n từ 0.211.0 đến trước 1.120.4. Đáng chú ý, chỉ cần sở hữu một tài khoản n8n thông thường, tin tặc có thể lợi dụng lỗ hổng này để can thiệp trái phép vào cơ chế xử lý của hệ thống, từ đó thực thi mã tùy ý trên máy chủ.

Khi đó, kẻ tấn công có thể chiếm quyền điều khiển toàn bộ hệ thống n8n cùng các tài nguyên mà hệ thống được cấp quyền truy cập, bao gồm email, dữ liệu khách hàng, thông tin đơn hàng, dữ liệu tài chính và các quy trình tự động quan trọng. Trong những trường hợp nghiêm trọng hơn, lỗ hổng còn có thể trở thành "bàn đạp" để tin tặc xâm nhập sâu vào hạ tầng nội bộ doanh nghiệp, gây gián đoạn hoạt động, phá hoại dữ liệu hoặc làm rò rỉ thông tin nhạy cảm, ảnh hưởng trực tiếp đến hoạt động kinh doanh. Ông Lê Tiến Thịnh, chuyên gia an ninh mạng Bkav cảnh báo: "Trong hạ tầng doanh nghiệp, n8n giữ vai trò trung tâm. Việc hệ thống này bị xâm nhập, đồng nghĩa toàn bộ các hệ thống liên quan đều rơi vào tình trạng rủi ro nghiêm trọng. Hiện mã khai thác lỗ hổng đã xuất hiện trên Internet và bắt đầu bị lợi dụng trên diện rộng". Trước tình hình trên, Bkav khuyến cáo các tổ chức, doanh nghiệp cần khẩn trương rà soát hệ thống, cập nhật n8n lên phiên bản đã được vá lỗi, hạn chế mở trang đăng nhập ra Internet, triển khai hệ thống trong môi trường cô lập, kiểm soát chặt quyền truy cập của người dùng, đồng thời tăng cường giám sát an ninh để kịp thời phát hiện các dấu hiệu bất thường.

Bài 2: Hacker làm cách nào để ATM "phun" tiền?

(CATP) Trong thế giới bóng tối của tội phạm mạng, ít có thủ đoạn nào thu hút trí tưởng tượng như ATM jackpotting, tức kỹ thuật mà hacker buộc các máy ATM "phun" tiền ra đến đồng cuối cùng. Được đặt tên từ thuật ngữ "jackpot" (một khoản tiền lớn có được trong các trò chơi xổ số tự chọn), kiểu tấn công này đã phát triển từ các thủ đoạn vật lý thô sơ đến các hoạt động tinh vi do phần mềm độc hại từ xa. Kiểu tấn công này khiến các ngân hàng thiệt hại hàng triệu đô la và phơi bày những lỗ hổng nghiêm trọng trong cơ sở hạ tầng tài chính.

TÂN PHONG - XUÂN HƯƠNG

Từ Khóa hack