Google đang tìm kiếm nhiều dữ liệu hơn để đào tạo AI của mình - nhưng với chi phí nào?

Google đang tìm kiếm nhiều dữ liệu hơn để đào tạo AI của mình – nhưng với chi phí nào?

Google đang thể hiện rõ ràng rằng họ có ý định sử dụng nội dung của các nhà xuất bản web để phát triển hệ thống AI của họ. Công ty công nghệ và tìm kiếm khổng lồ này đang đề xuất rằng các công ty phải chọn không tham gia – như họ hiện đang làm đối với việc lập chỉ mục của công cụ tìm kiếm – nếu họ không muốn tài liệu của họ bị lấy cắp.

Các nhà phê bình của mô hình chọn không tham gia này cho rằng chính sách này đảo ngược luật bản quyền đặt gánh nặng cho các thực thể muốn sử dụng tài liệu có bản quyền, thay vì các chủ sở hữu bản quyền.

Kế hoạch của Google được tiết lộ trong bài nộp cho tham vấn của chính phủ Úc về việc điều chỉnh các ứng dụng AI có rủi ro cao. Trong khi Australia đang xem xét việc cấm một số cách sử dụng AI có vấn đề như tin giả và phân biệt đối xử, Google lập luận rằng các nhà phát triển AI cần có quyền truy cập rộng rãi vào dữ liệu.

Như được báo cáo bởi The Guardian, Google đã nói với các nhà hoạch định chính sách Australia rằng “luật bản quyền nên cho phép sử dụng hợp pháp và công bằng của nội dung có bản quyền” để đào tạo AI. Công ty đã chỉ ra trình thu thập nội dung tiêu chuẩn của mình, được gọi là robots.txt, cho phép các nhà xuất bản chỉ định các phần của trang web của họ bị đóng cửa đối với trình thu thập web.

Google không cung cấp chi tiết về cách thức chọn không tham gia sẽ hoạt động. Trong một bài đăng trên blog, nó đã lờ mờ ám chỉ đến các “tiêu chuẩn và giao thức” mới sẽ cho phép các nhà sáng tạo web chọn mức độ tham gia AI của họ.

Công ty đã vận động hành lang Australia kể từ tháng 5 để nới lỏng các quy tắc bản quyền sau khi phát hành chatbot AI Bard của mình ở nước này. Tuy nhiên, Google không phải là công ty duy nhất có tham vọng khai thác dữ liệu. OpenAI, nhà sáng tạo của chatbot hàng đầu ChatGPT, nhằm mở rộng tập dữ liệu đào tạo của mình với một trình thu thập web mới có tên GPTBot. Giống như Google, nó áp dụng mô hình chọn không tham gia yêu cầu các nhà xuất bản thêm quy tắc “không cho phép” nếu họ không muốn nội dung bị lấy cắp.

Đây là một thực tế tiêu chuẩn đối với nhiều công ty công nghệ lớn dựa vào AI (thuật toán học sâu và học máy) để lập bản đồ sở thích của người dùng và đẩy nội dung và quảng cáo phù hợp.

Động thái này nhằm tìm kiếm thêm dữ liệu khi AI ngày càng phổ biến. Khả năng của các hệ thống như ChatGPT và Google Bard dựa trên việc tiêu thụ các tập dữ liệu văn bản, hình ảnh và video khổng lồ. Theo OpenAI, “GPT-4 đã học hỏi từ nhiều nguồn dữ liệu được cấp phép, tạo ra và công khai có sẵn, có thể bao gồm thông tin cá nhân có sẵn công khai.”

Nhưng một số chuyên gia cho rằng việc lấy cắp web mà không có sự cho phép sẽ gây ra vấn đề bản quyền và đạo đức. Các nhà xuất bản như News Corp. đã đàm phán với công ty AI, tìm kiếm tiền thanh toán cho việc sử dụng nội dung của họ. AFP vừa phát hành một bức thư ngỏ về vấn đề này.

“Trí tuệ nhân tạo tổng quát và các mô hình ngôn ngữ lớn cũng thường được đào tạo bằng nội dung truyền thông độc quyền, mà các nhà xuất bản và những người khác đầu tư lượng thời gian và nguồn lực lớn để sản xuất,” bức thư viết. “Những thực tiễn như vậy đang phá hoại các mô hình kinh doanh cốt lõi của ngành truyền thông, vốn dựa trên lượng độc giả và người xem (như đăng ký), cấp phép và quảng cáo.

“Ngoài việc vi phạm luật bản quyền, tác động là làm giảm đáng kể sự đa dạng của phương tiện truyền thông và làm suy yếu khả năng tài chính của các công ty để đầu tư vào việc bảo hiểm, do đó làm giảm khả năng tiếp cận của công chúng với thông tin có chất lượng và đáng tin cậy,” cơ quan truyền thông cho biết thêm.

Cuộc tranh luận này là hiện thân của sự căng thẳng giữa việc thúc đẩy AI thông qua quyền truy cập dữ liệu không giới hạn và tôn trọng quyền sở hữu. Mặt khác, càng nhiều nội dung được tiêu thụ, các hệ thống này càng trở nên có khả năng hơn. Nhưng các công ty này cũng đang thu lợi từ công việc

Đánh giá post

Chuyên mục:

Thẻ:

hộp bí ẩn okx

Tin đáng quan tâm