Tìm hiểu về tấn công AI Prompt Injection

Thứ Sáu, 15/03/2024

Đánh giá cho bài viết:
10 điểm ( 2 đánh giá )

Các cuộc tấn công AI Prompt Injection đầu độc đầu ra từ những công cụ AI mà bạn dựa vào, thay đổi và thao túng đầu ra của nó thành thứ gì đó có hại. Nhưng cuộc tấn công AI Prompt Injection hoạt động như thế nào và bạn có thể làm gì để tự bảo vệ mình như thế nào?

Các cuộc tấn công AI Prompt Injection tận dụng những lỗ hổng của mô hình Generative AI để thao túng đầu ra của chúng. Chúng có thể được bạn thực hiện hoặc được người dùng bên ngoài thực hiện thông qua một cuộc tấn công Prompt Injection gián tiếp. Các cuộc tấn công DAN (Do Anything Now) không gây ra bất kỳ rủi ro nào cho bạn, người dùng cuối, nhưng về mặt lý thuyết, những cuộc tấn công khác có khả năng đầu độc đầu ra mà bạn nhận được từ Generative AI.

Các cuộc tấn công Prompt Injection hoạt động như thế nào?

Các cuộc tấn công Prompt Injection hoạt động bằng cách cung cấp những hướng dẫn bổ sung cho AI mà không có sự đồng ý hoặc hiểu biết của người dùng. Tin tặc có thể thực hiện điều này theo một số cách, bao gồm tấn công DAN và tấn công Prompt Injection gián tiếp.

Tấn công DAN (Do Anything Now)

Tấn công DAN (Do Anything Now)

Các cuộc tấn công DAN (Do Anything Now) là một kiểu tấn công Prompt Injection nhanh chóng liên quan đến những mô hình Generative AI "jailbreak" như ChatGPT. Những cuộc tấn công jailbreak này không gây rủi ro cho bạn với tư cách là người dùng cuối - nhưng chúng mở rộng khả năng của AI, khiến nó trở thành công cụ để lạm dụng.

Ví dụ, nhà nghiên cứu bảo mật Alejandro Vidal đã sử dụng lời nhắc DAN để khiến GPT-4 của OpenAI tạo code Python cho keylogger. Được sử dụng với mục đích xấu, AI đã jailbreak làm giảm đáng kể các rào cản dựa trên kỹ năng liên quan đến tội phạm mạng và có thể cho phép những tin tặc mới thực hiện các cuộc tấn công tinh vi hơn.

Tấn công Training Data Poisoning

Các cuộc tấn công Training Data Poisoning chính xác không phải là tấn công Prompt Injection, nhưng chúng có những điểm tương đồng đáng chú ý về cách thức hoạt động và rủi ro mà chúng gây ra cho người dùng. Không giống như các cuộc tấn công Prompt Injection, những cuộc tấn công Training Data Poisoning là một loại tấn công đối nghịch trong Machine Learning, xảy ra khi tin tặc sửa đổi dữ liệu huấn luyện được sử dụng bởi mô hình AI. Kết quả tương tự cũng xảy ra: Đầu ra bị nhiễm độc và hành vi bị sửa đổi.

Những ứng dụng tiềm năng của các cuộc tấn công Training Data Poisoning thực tế là vô hạn. Ví dụ, về mặt lý thuyết, AI được sử dụng để lọc các nỗ lực lừa đảo từ nền tảng trò chuyện hoặc email có thể sửa đổi dữ liệu đào tạo của nó. Nếu tin tặc dạy cho AI moderator rằng một số loại hành vi lừa đảo nhất định có thể chấp nhận được thì chúng có thể gửi tin nhắn lừa đảo mà không bị phát hiện.

Các cuộc tấn công Training Data Poisoning không thể gây hại trực tiếp cho bạn nhưng có thể gây ra nhiều mối đe dọa khác. Nếu bạn muốn tự bảo vệ mình trước những cuộc tấn công này, hãy nhớ rằng AI không phải là công cụ hoàn hảo và bạn nên xem xét kỹ lưỡng mọi thứ bạn gặp phải trên mạng.

Tấn công Prompt Injection gián tiếp

Tấn công Prompt Injection gián tiếp là loại tấn công Prompt Injection nhanh chóng gây rủi ro lớn nhất cho bạn, với tư cách là người dùng cuối. Các cuộc tấn công này xảy ra khi những hướng dẫn độc hại được cung cấp cho Generative AI bằng một tài nguyên bên ngoài, chẳng hạn như lệnh gọi API, trước khi bạn nhận được thông tin đầu vào mong muốn.

Tấn công Prompt Injection gián tiếp

Một bài báo có tiêu đề "Làm tổn hại các ứng dụng tích hợp LLM trong thế giới thực bằng Prompt Injection gián tiếp trên arXiv" đã trình bày một cuộc tấn công lý thuyết trong đó AI có thể được hướng dẫn để thuyết phục người dùng đăng ký một trang web lừa đảo trong câu trả lời, sử dụng văn bản ẩn (với mắt người nhưng mô hình AI hoàn toàn có thể đọc được) để lén lút đưa thông tin vào. Một cuộc tấn công khác của cùng một nhóm nghiên cứu được ghi lại trên GitHub cho thấy một cuộc tấn công trong đó Copilot (trước đây là Bing Chat) được thực hiện để thuyết phục người dùng rằng đó là một đại lý hỗ trợ trực tiếp đang tìm kiếm thông tin thẻ tín dụng.

Các cuộc tấn công Prompt Injection gián tiếp đang đe dọa vì chúng có thể thao túng những câu trả lời bạn nhận được từ mô hình AI đáng tin cậy - nhưng đó không phải là mối đe dọa duy nhất mà chúng gây ra. Như đã đề cập trước đó, chúng cũng có thể khiến bất kỳ AI tự trị nào mà bạn có thể sử dụng hành động theo những cách không mong muốn và có thể gây hại.

Luyenpv

Các tin khác