Cách DARPA bắt đầu đe dọa Bot Twitter bằng một tay sau lưng

Một trong những hiện tượng đáng lo ngại hơn trên Twitter là sự gia tăng của các bot tự động tạo ra các tweet nhằm mục đích phát tán thư rác, kiếm tiền bất chính thông qua gian lận nhấp chuột, và đáng lo ngại nhất là ảnh hưởng đến cuộc thảo luận về các chủ đề như khủng bố và chính trị.



Số lượng tài khoản Twitter tham gia vào loại hoạt động này không hề nhỏ. Vào năm 2014, Twitter thừa nhận rằng hơn 8% tài khoản của nó đã được tự động hóa — tức là khoảng 23 triệu người dùng Twitter đang hoạt động.

Công ty chỉ ra rằng nhiều tài khoản trong số này hoàn toàn hợp pháp — nhiều tài khoản trong số này công khai đăng lại hoặc hiển thị các tweet từ những người dùng khác. Tuy nhiên, một số lượng đáng kể rõ ràng là không tốt và các bot gây ảnh hưởng là một mối quan tâm đặc biệt.





Ví dụ, nhóm tự xưng là Nhà nước Hồi giáo sử dụng mạng xã hội trực tuyến để thuyết phục những người trẻ tuổi theo đuổi mục tiêu của họ. Một số nhà quan sát tin rằng Nga đã bắt tay vào một chiến dịch thông tin sai lệch lớn trên mạng xã hội về việc sáp nhập Crimea. Những người khác nói rằng bot đóng một vai trò quan trọng trong việc ảnh hưởng đến kết quả của các cuộc bầu cử ở Ấn Độ vào năm 2014.

chế độ làm đẹp tik tok không hoạt động

Vì vậy, một cách đáng tin cậy để phát hiện các bot ảnh hưởng trên Twitter sẽ cực kỳ hữu ích. Năm ngoái, Cơ quan Dự án Nghiên cứu Nâng cao Quốc phòng (DARPA) đã bắt đầu tìm ra một phương pháp như vậy bằng cách tổ chức một cuộc thi kéo dài 4 tuần, trong đó các đội được yêu cầu phát hiện ra các bot trong một luồng bài đăng về chủ đề tiêm chủng. Một nhóm nổi lên như một người chiến thắng rõ ràng và kết quả đã chứng minh một số chiến lược mới quan trọng để xác định bot trong thế giới thực.

Hôm nay, chúng ta có được cái nhìn sâu sắc độc đáo về cuộc thi này và các chiến lược mà các đội đã sử dụng nhờ bài báo của V.S. Subrahmanian tại Đại học Maryland ở College Park và Sentimetrix và một vài người bạn.



bộ não con người có phải là máy tính không

Cuộc thi gần như thực tế như DARPA có thể làm được. Các tweet là các thông điệp được thu thập từ luồng Twitter trong một cuộc tranh luận năm 2014 về tiêm chủng. Trong cuộc tranh luận này, một số bot đã được tạo ra như một phần của cuộc thi để xem chúng có thể ảnh hưởng đến các cuộc thảo luận như thế nào. Vì vậy, DARPA có kiến ​​thức cơ bản về sự thật về tài khoản nào là giả và tài khoản nào là thật.

Tổng cộng, bộ dữ liệu chứa hơn bốn triệu tin nhắn từ hơn 7.000 tài khoản, trong đó có 39 bot thuộc hành lang ủng hộ hoặc chống tiêm chủng. Mỗi tin nhắn chứa một ID duy nhất, một hồ sơ người dùng bao gồm một hình ảnh, một url và một bức ảnh, trong đó chúng được đưa vào. Dữ liệu cũng bao gồm dấu thời gian và ngày tháng cũng như thông tin về những người theo dõi và thời điểm một tài khoản hủy theo dõi tài khoản khác. Tất cả điều này đã được phát cho các đối thủ cạnh tranh trong một môi trường Twitter tổng hợp trong bốn tuần vào tháng Hai và tháng Ba.

Sau đó, các đội phải phân tích luồng Twitter này và đoán xem người dùng nào là bot. Mỗi lần đoán đúng họ được một điểm nhưng mỗi đội bị mất 0,25 điểm cho mỗi lần đoán sai. Một đội đoán tất cả các bot d ngày trước khi kết thúc thử thách cũng có d điểm, vì DARPA đặc biệt quan tâm đến việc phát hiện sớm các bot ảnh hưởng.

Đội chiến thắng đến từ công ty phân tích truyền thông xã hội Sentimetrix, đã đoán tất cả các bot trước thời hạn 12 ngày trong khi chỉ đưa ra một dự đoán sai. Điều đó đã mang lại cho họ số điểm là 50,75 điểm. (Đội hạng nhì, từ Đại học Nam California, ghi được 45 điểm, tìm ra tất cả các bot trước thời hạn sáu ngày mà không có dự đoán sai nào.)



Các chiến lược chiến thắng đang được tiết lộ. Các nhóm bắt đầu bằng cách cố gắng xác định một tập hợp ban đầu của các bot trong dữ liệu. Điều thú vị là không có nhóm nào có thể tự động hóa bước này và hầu hết đều sử dụng ý kiến ​​đóng góp của con người.

chàng béo mặc quần yếm

Sentimetrix đã sử dụng một thuật toán được đào tạo trước để tìm kiếm hành vi giống như bot. Nhóm nghiên cứu đã đào tạo thuật toán này trên dữ liệu Twitter từ cuộc bầu cử năm 2014 ở Ấn Độ, nơi có nhiều bot. Nó tìm kiếm ngữ pháp bất thường, sự tương đồng của ngôn ngữ học với các chatbot ngôn ngữ tự nhiên như Eliza, và các hành vi bất thường như thời gian dài tweet liên tục mà con người không thể dễ dàng thực hiện.

Điều này tiết lộ bốn tài khoản rõ ràng là bot và Sentimetrix sau đó sử dụng những tài khoản này để tìm những người khác. Một giả định được đặt ra là các nhà sản xuất bot có xu hướng tạo ra nhiều bot giống nhau và liên kết chúng với nhau để tăng mức độ phổ biến của chúng. Vì vậy, nhóm đã có thể sử dụng phân tích mạng và cụm để tìm các bot có khả năng khác, sau đó họ so sánh với các bot đã biết.

Nhóm cũng sử dụng các tính năng như hoạt động tạm thời của các tài khoản với giả định rằng một tài khoản tự động sẽ hiển thị các quy định bất thường. Sentimetrix cũng tìm kiếm những người dùng đã thay đổi lòng trung thành trong cuộc tranh luận từ ủng hộ sang chống tiêm chủng (hoặc ngược lại). Họ cho rằng điều này có thể là một chiến lược bot để thâm nhập vào một phía của lập luận và sau đó đăng các lập luận đối lập.

Một tính năng chính trong thành công của Sentimetrix là cách nó trực quan hóa kết quả công việc của mình trên trang tổng quan trực tuyến để người dùng có thể dễ dàng xem trạng thái phân tích của từng người dùng.

Trong giai đoạn thứ hai này, Sentimetrix xác định được 25 bot khác. Điều đó đã cung cấp cho họ đủ dữ liệu để đào tạo một thuật toán học máy nhằm tìm kiếm thông qua dữ liệu cho các bot khác. Và cách tiếp cận này đã dẫn họ đến 10 bot còn lại.

Các đội không biết có bao nhiêu bot đang hoạt động nên một vấn đề lớn là phải biết khi nào nên dừng tìm kiếm. Ví dụ: Sentimetrix đã dừng khi không còn tìm thấy các tài khoản trông giống như bot.

Đó là tác phẩm ấn tượng có thể có ảnh hưởng quan trọng đến nỗ lực tìm kiếm các bot đang cố gắng tác động đến các cuộc thảo luận trực tuyến theo những cách không phù hợp. Việc xuất bản các chiến lược như thế này cũng sẽ giúp những người chơi khác phát triển các chiến thuật chống bot.

Nhưng nó cũng có thể có tác động tiêu cực. Cuộc chiến giữa bot và thợ săn bot là một cuộc chiến không ngừng phát triển. Với những giấy tờ như thế này, những kẻ săn bot đang tiết lộ bàn tay của họ theo cách cho phép các nhà sản xuất bot thiết kế các chiến lược để đánh bại các thuật toán này một cách cụ thể. Theo một cách nào đó, nó giống như chiến đấu với một tay bị trói sau lưng.

tại sao phong cách gangnam lại trở nên phổ biến

Tuy nhiên, sự cám dỗ để giữ bí mật các chiến lược săn bot sẽ là một điều nguy hiểm để thúc đẩy. Sự cởi mở này là một phần của xã hội tự do của chúng ta và chắc chắn là một trong những lý do chính mà nó đáng được đấu tranh để bảo tồn.

Dù bằng cách nào, cuộc chiến mèo và chuột này vẫn sẽ tiếp tục.

Tham khảo: Thử thách Bot Twitter DARPA: arxiv.org/abs/1601.05140

giấu

Công Nghệ ThựC Tế.

Thể LoạI

Chưa Được Phân Loại

Công Nghệ

Công Nghệ Sinh Học

Chính Sách Công Nghệ

Khí Hậu Thay Đổi

Con Người Và Công Nghệ

Thung Lũng Silicon

Tin Học

Tạp Chí Mit News

Trí Tuệ Nhân Tạo

Khoảng Trống

Những Thành Phố Thông Minh

Chuỗi Khối

Câu Chuyện Nổi Bật

Hồ Sơ Cựu Sinh Viên

Kết Nối Cựu Sinh Viên

Tính Năng Mit News

1865

Quan Điểm Của Tôi

77 Đại Lộ Mass

Gặp Gỡ Tác Giả

Hồ Sơ Hào Phóng

Đã Nhìn Thấy Trong Khuôn Viên Trường

Thư Của Cựu Sinh Viên

Tin Tức

Bầu Cử 2020

Có Chỉ Mục

Dưới Mái Vòm

Vòi Chữa Cháy

Truyện Vô Hạn

Dự Án Công Nghệ Đại Dịch

Từ Tổng Thống

Truyện Bìa

Triển Lãm Ảnh

Tạp Chí Tin Tức Mit

Đề XuấT