Bài 2: Từ tool nội địa đến Deepfake-as-a-Service

(CATP) Trong chuyên án do Công an tỉnh Thanh Hóa triệt phá ngày 26/6/2026, bản kết luận điều tra mô tả công cụ mà Nguyễn Tiến Đạt cùng đồng phạm sử dụng là một "phần mềm nguy hiểm (tool)" với nhiều chức năng tinh vi, gồm: điều hướng và chiếm quyền điều khiển để can thiệp trực tiếp vào camera điện thoại của bị hại; vượt cơ chế bảo mật sinh trắc học khi hệ thống ngân hàng yêu cầu quét khuôn mặt; chặn luồng dữ liệu từ camera thật và thay thế bằng việc truy cập kho ảnh trên thiết bị, lựa chọn ảnh chân dung có sẵn của chính chủ tài khoản để đưa vào quá trình xác thực. Mô tả ngắn gọn này thực chất đã hé lộ một nhóm kỹ thuật tấn công mà giới nghiên cứu an ninh mạng quốc tế đã nhận diện, đặt tên và phân tích trong nhiều năm qua.

Cuộc rượt đuổi không ngừng

Cơ chế của công cụ (tool) mà nhóm đối tượng ở Thanh Hóa sử dụng, nhìn từ góc độ kỹ thuật, là một dạng "tấn công tiêm nhiễm sinh trắc học" (biometric injection attack). Thay vì để hệ thống ngân hàng tự thu nhận hình ảnh thật của khuôn mặt thông qua camera điện thoại, kẻ tấn công can thiệp vào luồng dữ liệu giữa camera vật lý và ứng dụng ngân hàng. Camera thật bị chặn lại, còn dữ liệu được "bơm" vào ứng dụng là một hình ảnh đã được chuẩn bị sẵn, thường là ảnh chân dung của chính chủ tài khoản, được lấy từ kho ảnh trong thiết bị hoặc từ các nguồn dữ liệu bị rò rỉ trước đó.

Với những đối tượng bán tài khoản ngân hàng, các đối tượng yêu cầu cung cấp ảnh và 1 clip khuôn mặt 15 - 20 giây

Loại tấn công này khai thác đúng điểm yếu của các hệ thống xác thực sinh trắc học chỉ đạt tiêu chuẩn cơ bản Level 1. Theo tiêu chuẩn quốc tế ISO/IEC 30107-3 về phát hiện tấn công trình diện sinh trắc học (Presentation Attack Detection - PAD), Level 1 chỉ yêu cầu hệ thống có khả năng chống lại các hình thức giả mạo cơ bản, chi phí thấp như sử dụng ảnh in hoặc phát lại hình ảnh trên màn hình. Ở cấp độ này, hệ thống chủ yếu kiểm tra xem "có phải một khuôn mặt thật đang xuất hiện trước ống kính hay không", chứ chưa đủ năng lực phát hiện việc nguồn hình ảnh đầu vào đã bị thay thế trong quá trình truyền dữ liệu. Một số nghiên cứu trong lĩnh vực an ninh mạng cũng nhận định rằng nhiều công cụ bảo vệ thế hệ cũ chỉ có thể ngăn chặn các hình thức giả mạo bằng ảnh in hoặc phát lại video, nhưng gần như bất lực trước các cuộc tấn công tiêm nhiễm sử dụng camera ảo (virtual camera) hoặc deepfake.

Khi các ngân hàng nâng cấp hệ thống, bổ sung cơ chế kiểm tra liveness - yêu cầu người dùng thực hiện các thao tác như chớp mắt, quay đầu, mỉm cười... để chứng minh sự hiện diện của người thật trước camera - các đối tượng phạm tội tiếp tục chuyển sang một phương thức tinh vi hơn, đó là sử dụng deepfake động. Đây là công nghệ ứng dụng trí tuệ nhân tạo (AI) để tạo ra video khuôn mặt giả nhưng vẫn tái tạo đầy đủ các chuyển động sinh học, đủ khả năng đánh lừa nhiều hệ thống kiểm tra liveness thông thường.

Cơ chế phổ biến của deepfake là "hoán đổi khuôn mặt" (face swap). Một video gốc được xử lý để thay thế khuôn mặt của người xuất hiện trong video bằng khuôn mặt của người khác, trong khi vẫn giữ nguyên biểu cảm, chuyển động môi, ánh mắt và cử chỉ. Theo phân tích của hãng công nghệ xác thực Signzy, phương thức được sử dụng phổ biến hiện nay là "hoán đổi khuôn mặt của nạn nhân lên một video mô phỏng các tín hiệu sống động như chớp mắt, gật đầu và các chuyển động tự nhiên khác". Đối với người dùng cuối hoặc hệ thống xác thực, kết quả hiển thị là một video trông như chính chủ tài khoản đang ngồi trước camera và thực hiện đầy đủ các yêu cầu của ứng dụng.

Thị trường ngầm đã hình thành

Câu hỏi đặt ra là làm thế nào những đối tượng như nhóm ở Thanh Hóa - với tuổi đời còn rất trẻ, đối tượng cầm đầu sinh năm 2004 - lại có thể sở hữu những công cụ kỹ thuật phức tạp như vậy. Câu trả lời nằm ở một thị trường ngầm đã hình thành và đang vận hành trên quy mô toàn cầu: mô hình kinh doanh mang tên "Deepfake-as-a-Service" (DaaS), hay còn gọi là "deepfake dưới dạng dịch vụ”.

Theo báo cáo của hãng an ninh mạng Group-IB, được trang chuyên ngành Biometric Update tổng hợp, một nhà phát triển công nghệ chỉ thu từ 10 đến 50 USD để tạo một dịch vụ deepfake theo yêu cầu cho khách hàng là tội phạm mạng, trong khi một danh tính giả được chuẩn bị sẵn có thể được bán với giá khoảng 15 USD. Ở phân khúc cao cấp hơn là các bộ công cụ chuyên nghiệp phục vụ hoạt động gian lận quy mô lớn. Group-IB ghi nhận một số công ty có trụ sở tại Trung Quốc, như Haotian AI và Chenxin AI, cho thuê phần mềm hoán đổi khuôn mặt với mức giá từ 1.000 đến 10.000 USD, cho phép các nhóm tội phạm mở rộng quy mô hoạt động. Các kênh phân phối chủ yếu là Telegram và các diễn đàn trên web đen (dark web). Group-IB cho biết, từ năm 2022 đến tháng 9/2025, đơn vị này đã thu thập hơn 300 bài đăng trên các kênh ngầm có chứa các từ khóa như "deepfake" và "KYC" - quy trình định danh khách hàng đang được các ngân hàng và sàn giao dịch tiền mã hóa sử dụng.

Một yếu tố khác khiến cuộc chạy đua giữa tội phạm và các hệ thống bảo mật ngày càng trở nên cam go là tốc độ phát triển của công nghệ AI tạo sinh. Theo Trung tâm Chia sẻ và Phân tích Thông tin Dịch vụ Tài chính (FS-ISAC), các công cụ nhân bản giọng nói hiện nay chỉ cần khoảng 20-30 giây ghi âm để tạo ra một bản sao giọng nói đủ chân thực nhằm đánh lừa các hệ thống xác thực bằng giọng nói. Trong khi đó, một video deepfake có thể được tạo ra chỉ trong khoảng 45 phút bằng các phần mềm miễn phí.

Các đối tượng người nước ngoài điều khiển máy tính từ xa, sử dụng những clip này để chuyển tiền

Các số liệu thực tế cũng phản ánh rõ xu hướng này. Hãng công nghệ định danh iProov, trong báo cáo phân tích các cuộc tấn công nhằm vào hệ thống KYC, ghi nhận chỉ trong giai đoạn từ tháng 1 đến tháng 8/2025 đã có 8.065 lượt thử vượt qua bước kiểm tra liveness của một tổ chức tài chính bằng các cuộc tấn công tiêm nhiễm sinh trắc học sử dụng hình ảnh deepfake do AI tạo ra.

Đáng lo ngại hơn, nghiên cứu của iProov cho thấy độ chính xác của con người trong việc phát hiện các video deepfake hiện đại chỉ đạt khoảng 0,1%, đồng nghĩa với việc gần như không thể phân biệt bằng mắt thường. Điều đó cho thấy việc phòng, chống deepfake không thể chỉ dựa vào người dùng cuối hoặc các quy trình kiểm tra thủ công, mà buộc phải dựa vào các hệ thống phát hiện tự động được trang bị chính các thuật toán AI để nhận diện AI.

Phải xây hệ thống phòng thủ nhiều lớp

Vì sao sinh trắc học từng được kỳ vọng là "tấm khiên cuối cùng" trong bảo vệ giao dịch tài chính, nhưng các đường dây tội phạm trong nước vẫn có thể "bẻ gãy" lớp bảo vệ này? Câu trả lời nằm ở khoảng cách giữa các cấp độ bảo mật trong chính công nghệ xác thực sinh trắc học.

Như đã đề cập, theo tiêu chuẩn ISO/IEC 30107-3, hệ thống đạt Level 1 chỉ có khả năng chống lại các hình thức giả mạo cơ bản như sử dụng ảnh in hoặc phát lại hình ảnh trên màn hình. Trong khi đó, ở Level 2, theo phân tích của hãng Identy.io, hệ thống phải vượt qua các bài kiểm thử đối với những phương thức tấn công tinh vi hơn nhiều, bao gồm mặt nạ silicone 3D, ảnh in được chế tạo chuyên biệt và các hình thức truyền dữ liệu tổng hợp bằng công nghệ deepfake. Đây cũng là cấp độ bảo mật thường được yêu cầu trong các lĩnh vực có yêu cầu an toàn cao như ngân hàng, cơ quan chính phủ và viễn thông. Tuy nhiên, trên thực tế, không phải tổ chức tín dụng nào cũng triển khai được hệ thống đáp ứng Level 2, đặc biệt là những đơn vị áp dụng xác thực sinh trắc học muộn hoặc sử dụng các giải pháp có chi phí thấp.

Một khía cạnh khác cần lưu ý là điểm yếu không nhất thiết nằm trong hệ thống của ngân hàng mà có thể xuất hiện ở những mắt xích bên ngoài. Trong vụ án do Công an TP Hà Nội triệt phá ngày 27/3/2026, dấu hiệu bất thường ban đầu không xuất phát từ phía ngân hàng, mà từ việc nhiều khách hàng đột ngột mất quyền sử dụng dịch vụ viễn thông của các nhà mạng mà không rõ nguyên nhân, sau đó bị chiếm đoạt tiền trong tài khoản ngân hàng.

Điều này cho thấy các đối tượng đã chiếm quyền kiểm soát SIM điện thoại trước, từ đó vô hiệu hóa lớp xác thực bằng mã OTP gửi qua tin nhắn, rồi tiếp tục sử dụng công cụ giả mạo sinh trắc học để hoàn tất giao dịch. Toàn bộ chuỗi tấn công cho thấy, ngay cả một hệ thống xác thực sinh trắc học mạnh cũng có thể bị vô hiệu hóa nếu những lớp bảo vệ xung quanh như SIM điện thoại, OTP hoặc dữ liệu cá nhân đã bị xâm phạm từ trước.

Bài toán đặt ra vì vậy không phải là thay thế sinh trắc học bằng một công nghệ khác, mà là xây dựng một hệ thống phòng thủ đa lớp, trong đó xác thực sinh trắc học chỉ là một mắt xích. Khi tất cả các lớp bảo vệ đều được nâng cấp đồng bộ, chi phí và mức độ phức tạp mà tội phạm phải bỏ ra để vượt qua toàn bộ hệ thống sẽ tăng lên đáng kể, làm giảm hiệu quả và động cơ phạm tội do lợi nhuận thu được không còn tương xứng với rủi ro.

Đây cũng không phải là vấn đề riêng của Việt Nam. Xu hướng tội phạm sử dụng AI và deepfake để vượt qua các hệ thống xác thực sinh trắc học đang trở thành thách thức đối với nhiều nền tài chính trên thế giới, từ Hong Kong, Singapore đến Mỹ và nhiều quốc gia châu Âu, với hàng loạt vụ việc điển hình được ghi nhận trong những năm gần đây.

VĂN TOÀN - TÂN PHONG