Mô hình ngôn ngữ AI nguồn mở mới 'Falcon' vượt qua Meta và Google

Mô hình ngôn ngữ AI nguồn mở mới ‘Falcon’ vượt qua Meta và Google

Mô hình LLaMA 2 70 tỷ tham số khổng lồ của Meta đã bị vượt qua bởi Falcon Large Language Model 180 tỷ tham số mới được phát hành.

Cộng đồng trí tuệ nhân tạo có một thành tích mới với việc phát hành Falcon 180B, một mô hình ngôn ngữ lớn (LLM) nguồn mở có 180 tỷ tham số được đào tạo trên một núi dữ liệu. Người mới mạnh mẽ này đã vượt qua các LLM nguồn mở trước đây trên nhiều mặt.

Được công bố trong một bài đăng trên blog của cộng đồng AI Hugging Face, Falcon 180B đã được phát hành trên Hugging Face Hub. Kiến trúc mô hình mới nhất dựa trên loạt Falcon trước đây của các LLM nguồn mở, tận dụng các đổi mới như chú ý đa truy vấn để mở rộng lên 180 tỷ tham số được đào tạo trên 3,5 nghìn tỷ token.

Điều này đại diện cho lần tiền xử lý một epoch dài nhất cho đến nay đối với một mô hình nguồn mở. Để đạt được những thành tích như vậy, 4.096 GPU đã được sử dụng đồng thời trong khoảng 7 triệu giờ GPU, sử dụng Amazon SageMaker để đào tạo và tinh chỉnh.

Để đưa kích thước của Falcon 180B vào quan điểm, các tham số của nó đo được lớn hơn 2,5 lần so với mô hình LLaMA 2 của Meta. LLaMA 2 trước đây được coi là LLM nguồn mở có khả năng nhất sau khi ra mắt vào đầu năm nay, với 70 tỷ tham số được đào tạo trên 2 nghìn tỷ token.

Falcon 180B vượt qua LLaMA 2 và các mô hình khác về cả quy mô và hiệu suất điểm chuẩn trên một loạt các tác vụ xử lý ngôn ngữ tự nhiên (NLP). Nó xếp hạng trên bảng xếp hạng cho các mô hình truy cập mở ở mức 68,74 điểm và đạt gần như ngang bằng với các mô hình thương mại như Google’s PaLM-2 trên các đánh giá như bảng xếp hạng HellaSwag.

Cụ thể, Falcon 180B phù hợp hoặc vượt quá PaLM-2 Medium trên các điểm chuẩn được sử dụng phổ biến, bao gồm HellaSwag, LAMBADA, WebQuestions, Winogrande và hơn thế nữa. Nó gần như ngang bằng với Google’s PaLM-2 Large. Đây là hiệu suất cực kỳ mạnh mẽ đối với một mô hình nguồn mở, ngay cả khi so sánh với các giải pháp được phát triển bởi những người khổng lồ trong ngành.

So với ChatGPT, mô hình mạnh hơn phiên bản miễn phí nhưng kém khả năng hơn một chút so với dịch vụ trả phí “plus”.

“Falcon 180B thường nằm ở đâu đó giữa GPT 3.5 và GPT4 tùy thuộc vào điểm chuẩn đánh giá, và việc tiếp tục tinh chỉnh từ cộng đồng sẽ rất thú vị để theo dõi khi nó được phát hành công khai.” blog cho biết.

Việc phát hành Falcon 180B đại diện cho bước nhảy vọt mới nhất trong tiến bộ nhanh chóng gần đây đã được thực hiện với LLM. Ngoài việc chỉ mở rộng tham số, các kỹ thuật như LoRAs, ngẫu nhiên hóa trọng số và Perfusion của Nvidia đã cho phép đào tạo các mô hình AI lớn hiệu quả hơn đáng kể.

Với Falcon 180B hiện đã được cung cấp miễn phí trên Hugging Face, các nhà nghiên cứu dự đoán rằng mô hình sẽ đạt được thêm lợi ích với các cải tiến tiếp theo được phát triển bởi cộng đồng. Tuy nhiên, việc thể hiện khả năng ngôn ngữ tiên tiến ngay từ đầu đã đánh dấu một sự phát triển thú vị cho AI nguồn mở.

Đánh giá post
hộp bí ẩn okx

Tin đáng quan tâm