Cuộc chiến công nghệ văn bản dài của các công ty mô hình lớn
Từ 4000 đến 400.000 token, mô hình lớn đang trở nên "dài" hơn với tốc độ "nhìn thấy bằng mắt".
Khả năng xử lý văn bản dài dường như trở thành một "tiêu chuẩn" mới mà các nhà cung cấp mô hình lớn phải có.
Ở nước ngoài, OpenAI đã trải qua ba lần nâng cấp, độ dài đầu vào ngữ cảnh của GPT-3.5 tăng từ 4 nghìn lên 16 nghìn token, GPT-4 từ 8 nghìn lên 32 nghìn token; một công ty đã đưa độ dài ngữ cảnh lên tới 100 nghìn token chỉ trong một lần; LongLLaMA đã mở rộng độ dài ngữ cảnh lên tới 256 nghìn token, thậm chí còn nhiều hơn.
Trong nước, một công ty khởi nghiệp mô hình lớn đã phát hành sản phẩm trợ lý thông minh hỗ trợ nhập 200.000 chữ Hán, khoảng 400.000 token; nhóm Đại học Hồng Kông kết hợp với MIT đã phát hành công nghệ mới LongLoRA, có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token và độ dài văn bản của mô hình 70B lên 32.000 token.
Hiện nay, trong và ngoài nước đã có một loạt các công ty, tổ chức và đội ngũ công nghệ mô hình lớn hàng đầu coi việc mở rộng độ dài ngữ cảnh là trọng tâm của việc cập nhật và nâng cấp.
Các công ty hoặc tổ chức mô hình lớn trong và ngoài nước này đều là "ngôi sao đang lên" được thị trường vốn nhiệt tình đón nhận. Một công ty gần đây đang nổi như cồn, liên tiếp bị tiết lộ nhận được đầu tư từ các công ty công nghệ lớn, định giá dự kiến đạt 30 tỷ USD, gấp năm lần so với tháng 3; một công ty khác chỉ mới thành lập được nửa năm đã nhanh chóng hoàn thành vòng gọi vốn đầu tiên, nhận được sự ủng hộ của nhiều quỹ đầu tư mạo hiểm hàng đầu, định giá thị trường đã vượt quá 300 triệu USD.
Các công ty mô hình lớn đang nỗ lực hết sức để chinh phục công nghệ văn bản dài, việc mở rộng chiều dài văn bản lên 100 lần có ý nghĩa gì?
Bề ngoài, có vẻ như độ dài văn bản có thể nhập vào ngày càng tăng và khả năng đọc ngày càng mạnh hơn. Nếu định lượng giá trị token trừu tượng, GPT-3.5 với 4000 token tối đa chỉ có thể nhập 3000 từ tiếng Anh hoặc 2000 ký tự Trung Quốc, thậm chí khó có thể đọc xong một bài viết trên tài khoản công khai; GPT-4 với 32.000 token đã đạt đến mức độ đọc một câu chuyện ngắn; sản phẩm với 100.000 token có thể nhập khoảng 75.000 từ, chỉ mất 22 giây để đọc xong một cuốn "Đại gia Gatsby"; sản phẩm với 400.000 token hỗ trợ nhập 200.000 ký tự Trung Quốc, đọc một tác phẩm dài.
Mặt khác, công nghệ văn bản dài cũng đang thúc đẩy sự hiện thực hóa sâu sắc hơn của các mô hình lớn trong các ngành như tài chính, tư pháp, nghiên cứu khoa học, nơi mà khả năng tóm tắt tài liệu dài, hiểu biết đọc và trả lời câu hỏi là những điều cơ bản, cũng như là sân tập cần được nâng cấp thông minh.
Tham khảo các tham số "cuộn" của các nhà cung cấp mô hình lớn ở vòng trước, tham số của mô hình lớn không phải càng lớn thì càng tốt, các công ty đều đang cố gắng mở rộng tham số để tìm ra "điểm tới hạn" tối ưu hiệu suất của mô hình lớn. Tương tự, một chỉ số khác cùng quyết định hiệu quả của mô hình - độ dài văn bản, cũng không phải càng dài thì hiệu quả của mô hình càng tốt.
Nghiên cứu đã chứng minh rằng không thể trực tiếp đồng nhất giữa việc mô hình lớn hỗ trợ đầu vào ngữ cảnh dài hơn và hiệu suất mô hình tốt hơn. Độ dài ngữ cảnh mà mô hình có thể xử lý không phải là điểm then chốt thực sự, mà điều quan trọng hơn là cách mà mô hình sử dụng nội dung ngữ cảnh.
Tuy nhiên, hiện tại, sự khám phá về độ dài văn bản trong và ngoài nước vẫn chưa đạt đến trạng thái "điểm tới hạn". Các công ty mô hình lớn trong và ngoài nước vẫn đang không ngừng nỗ lực vượt qua, 400.000 token có lẽ chỉ mới là khởi đầu.
Tại sao phải "cuộn" văn bản dài?
Người sáng lập một công ty cho biết, trong quá trình nghiên cứu và phát triển công nghệ, đội ngũ của họ đã phát hiện ra rằng chính do giới hạn độ dài đầu vào của mô hình lớn đã gây ra nhiều khó khăn trong việc triển khai ứng dụng của mô hình lớn, đây cũng là lý do khiến nhiều công ty mô hình lớn hiện nay tập trung vào công nghệ văn bản dài.
Ví dụ, trong các tình huống vai trò ảo, do khả năng xử lý văn bản dài kém, các nhân vật ảo sẽ quên thông tin quan trọng; khi phát triển trò chơi theo kịch bản như trò chơi giết người dựa trên mô hình lớn, nếu độ dài prompt không đủ, thì chỉ có thể giảm bớt quy tắc và thiết lập, từ đó không thể đạt được hiệu quả trò chơi như mong đợi; trong các lĩnh vực chuyên ngành có độ chính xác cao như pháp luật, ngân hàng, phân tích và tạo nội dung sâu thường gặp khó khăn.
Trên con đường hướng tới tương lai của các ứng dụng gốc Agent và AI, văn bản dài vẫn đóng vai trò quan trọng, việc chạy các tác vụ của Agent cần dựa vào thông tin lịch sử để lập kế hoạch và quyết định mới, các ứng dụng gốc AI cần dựa vào ngữ cảnh để duy trì trải nghiệm người dùng liên tục và cá nhân hóa.
Nhà sáng lập này cho rằng, bất kể là văn bản, giọng nói hay video, việc nén dữ liệu khối lượng lớn mà không mất dữ liệu có thể đạt được mức độ thông minh cao. "Tiến bộ của nén không mất dữ liệu hoặc nghiên cứu mô hình lớn từng phụ thuộc rất nhiều vào mô hình 'tham số là vua', trong đó tỷ lệ nén trực tiếp liên quan đến số lượng tham số. Nhưng chúng tôi tin rằng giới hạn của tỷ lệ nén không mất dữ liệu hoặc mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện. Trong đó, khả năng từng bước có mối tương quan tích cực với số lượng tham số, trong khi số bước thực hiện tức là độ dài ngữ cảnh."
Đồng thời, thực tế đã chứng minh rằng ngay cả những mô hình lớn với hàng trăm tỷ tham số cũng không thể hoàn toàn tránh khỏi vấn đề ảo giác và nói nhảm. So với văn bản ngắn, văn bản dài có thể cung cấp nhiều thông tin và chi tiết hơn về ngữ cảnh, giúp mô hình đánh giá ý nghĩa và giảm thiểu sự mơ hồ hơn nữa, đồng thời việc suy diễn và suy luận dựa trên các sự kiện đã được cung cấp cũng chính xác hơn.
Như vậy, công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề bị chỉ trích vào thời điểm ra đời của mô hình lớn, mà còn tăng cường một số chức năng, đồng thời cũng là một trong những công nghệ then chốt để thúc đẩy ngành công nghiệp và ứng dụng hiện tại. Điều này cũng gián tiếp chứng minh rằng sự phát triển của mô hình lớn tổng quát đã bước vào một giai đoạn mới, từ LLM đến thời đại Long LLM.
Thông qua sản phẩm mới được phát hành của một công ty, có thể nhìn thấy một phần chức năng nâng cấp của mô hình lớn Long LLM.
Đầu tiên là chức năng cơ bản để trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản dài. Ví dụ, nhập liên kết của tài khoản công cộng có thể nhanh chóng phân tích nội dung bài viết; báo cáo tài chính mới có thể nhanh chóng trích xuất thông tin quan trọng và trình bày dưới dạng bảng, sơ đồ tư duy và các hình thức ngắn gọn khác; sau khi nhập toàn bộ cuốn sách hoặc các điều khoản pháp lý chuyên môn, người dùng có thể hỏi để lấy thông tin hiệu quả.
Về mặt mã, có thể thực hiện chuyển đổi văn bản thành mã trực tiếp, chỉ cần đưa tài liệu vào chatbot, nó có thể tái hiện quá trình tạo mã dựa trên tài liệu và có thể sửa đổi trên cơ sở đó, điều này đã tiến thêm một bước lớn so với việc công ty nào đó đã trình diễn tạo mã website từ bản nháp trong buổi họp báo trước đây.
Trong các tình huống đối thoại dài, chatbot cũng có thể thực hiện vai trò diễn, thông qua việc nhập liệu của các nhân vật công chúng, thiết lập giọng điệu, tính cách nhân vật, có thể thực hiện đối thoại một đối một với Jobs, Musk, một công ty mô hình lớn ở nước ngoài đã phát triển ứng dụng AI bạn đồng hành tương tự, và DAU trên di động cao hơn nhiều so với một sản phẩm nổi tiếng nào đó, đạt 3,61 triệu. Trong buổi trình diễn của một công ty nào đó, chỉ cần một trang web, bạn có thể trò chuyện với nhân vật Genshin Impact mà bạn thích.
Các ví dụ trên đã cùng nhau chỉ ra rằng, thoát khỏi các vòng đối thoại đơn giản, các robot đối thoại như ChatGPT đang hướng tới sự chuyên nghiệp, cá nhân hóa và chiều sâu trong phát triển, điều này có thể là một trong những cách thức để kích thích ngành công nghiệp và các siêu APP thực hiện.
Người sáng lập một công ty tiết lộ, khác với một công ty nổi tiếng chỉ cung cấp một sản phẩm và khả năng đa phương thức tiên tiến nhất, họ nhắm đến siêu APP C-end tiếp theo: với công nghệ văn bản dài làm đột phá, từ mô hình cơ bản phổ quát của mình để phân nhánh ra N ứng dụng.
"Thị trường mô hình lớn trong nước sẽ được chia thành hai trại khác nhau là toB và toC, trong trại toC, sẽ xuất hiện super-app, những ứng dụng siêu này được phát triển dựa trên mô hình tự nghiên cứu." vị sáng lập viên đã nhận định.
Tuy nhiên, ở giai đoạn hiện nay, còn rất nhiều không gian tối ưu cho các tình huống đối thoại dài trên thị trường. Chẳng hạn, có một số không hỗ trợ kết nối mạng, chỉ có thể nhận thông tin mới nhất thông qua việc cập nhật cơ sở dữ liệu chính thức; trong quá trình tạo đối thoại, không thể tạm dừng và chỉnh sửa, chỉ có thể chờ đợi cho đến khi cuộc đối thoại kết thúc; ngay cả khi đã có tài liệu nền tảng và hỗ trợ tải lên tệp, vẫn thỉnh thoảng có thể xuất hiện những điều vô lý, bịa đặt.
Nghịch lý "Tam giác không thể" của văn bản dài
Trong lĩnh vực thương mại có một nhóm ba yếu tố điển hình về giá cả, chất lượng và quy mô được gọi là "tam giác bất khả". Ba yếu tố này có mối quan hệ ràng buộc lẫn nhau và không thể đạt được cùng một lúc.
Trong văn bản dài, cũng tồn tại một "tam giác bất khả thi" tương tự như độ dài văn bản, sự chú ý và sức mạnh tính toán.
Điều này thể hiện rằng, văn bản càng dài, càng khó để tập trung chú ý đầy đủ, khó để tiêu hóa hoàn toàn; dưới hạn chế chú ý, văn bản ngắn không thể được giải đọc hoàn chỉnh thông tin phức tạp; việc xử lý văn bản dài cần nhiều sức mạnh tính toán, làm tăng chi phí.
Trở về nguồn gốc, nhìn từ góc độ cơ bản, điều này xảy ra vì hầu hết các mô hình hiện nay đều dựa trên cấu trúc Transformer. Trong cấu trúc này có một thành phần quan trọng nhất là cơ chế tự chú ý, dưới cơ chế này, robot hội thoại có thể vượt qua giới hạn của thứ tự thông tin đầu vào của người dùng, tự do phân tích mối quan hệ giữa các thông tin.
Nhưng cái giá phải trả cho điều này là khối lượng tính toán của cơ chế tự chú ý sẽ tăng theo cấp số nhân với độ dài ngữ cảnh, ví dụ khi độ dài ngữ cảnh tăng 32 lần, khối lượng tính toán thực tế sẽ tăng 1000 lần.
Một số bài báo đã được công bố đã chứng minh rằng: Bối cảnh quá dài sẽ làm giảm đáng kể tỷ lệ thông tin liên quan, và sự phân tán chú ý dường như trở thành số phận không thể tránh khỏi.
Điều này tạo thành nhóm mâu thuẫn đầu tiên trong "tam giác không thể" - độ dài văn bản và sự chú ý, đồng thời cũng giải thích một cách căn bản lý do mà công nghệ văn bản dài của các mô hình lớn khó có thể vượt qua.
Từ khi "cuộn" mô hình lớn đến bây giờ, sức mạnh tính toán luôn là một tài nguyên khan hiếm. Một nhà sáng lập của một công ty nổi tiếng từng cho biết, dịch vụ 32K của họ không thể ngay lập tức mở hoàn toàn cho tất cả người dùng, hạn chế lớn nhất chính là sự thiếu hụt GPU.
Về vấn đề này, người sáng lập của một công ty cũng cho biết: "GPU là một nền tảng quan trọng, nhưng không chỉ là vấn đề của GPU. Có sự kết hợp của nhiều yếu tố khác nhau, một mặt là GPU, mặt khác là hiệu quả chuyển đổi năng lượng thành trí tuệ. Hiệu quả có thể được phân tích thêm có thể bao gồm tối ưu hóa thuật toán, tối ưu hóa kỹ thuật, tối ưu hóa mô hình và tối ưu hóa ngữ cảnh, v.v."
Điều quan trọng hơn là, trong giai đoạn triển khai thực tế của mô hình lớn, các doanh nghiệp hoàn toàn không thể cung cấp hỗ trợ tính toán lớn, điều này buộc các nhà sản xuất phải kiên trì với việc mở rộng tham số mô hình hoặc chiều dài văn bản, tất cả đều phải tuân thủ ngưỡng tính toán. Tuy nhiên, ở giai đoạn hiện tại, để vượt qua công nghệ văn bản dài hơn, chúng ta buộc phải tiêu tốn nhiều sức mạnh tính toán hơn, do đó hình thành nhóm mâu thuẫn thứ hai giữa chiều dài văn bản và sức mạnh tính toán.
Một kỹ sư NLP của một công ty cho biết: "Mô hình lớn cho việc xây dựng văn bản dài hiện vẫn chưa có một giải pháp thống nhất, nguyên nhân gây khó khăn chính là do cấu trúc của chính Transformer, và một kiến trúc hoàn toàn mới đang trên đường đến."
Hiện tại, bất kể từ thiết kế phần mềm hay phần cứng, phần lớn đều được xây dựng xung quanh kiến trúc Transformer. Trong thời gian ngắn, rất khó để một kiến trúc mới hoàn toàn lật đổ kiến trúc này, nhưng đã xuất hiện một số phương án tối ưu hóa xung quanh kiến trúc Transformer.
"Hiện tại có ba giải pháp khác nhau, bao gồm việc sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài, tối ưu hóa tính toán cơ chế tự chú ý và áp dụng các phương pháp tối ưu hóa mô hình chung." Kỹ sư này cho biết.
Ý tưởng cốt lõi của giải pháp đầu tiên là cung cấp "tiện ích" cho mô hình lớn. Phương pháp chính là chia nhỏ văn bản dài thành nhiều văn bản ngắn để xử lý, mô hình khi xử lý văn bản dài sẽ truy xuất văn bản ngắn từ cơ sở dữ liệu, từ đó nhận được các câu trả lời từ nhiều văn bản ngắn cấu thành văn bản dài. Mỗi lần chỉ tải các đoạn văn bản ngắn cần thiết, do đó tránh được vấn đề mô hình không thể đọc toàn bộ văn bản dài một lần.
Giải pháp thứ hai là phương pháp được sử dụng nhiều nhất hiện nay, với cốt lõi chính là tái cấu trúc cách tính toán tự chú ý. Chẳng hạn, cốt lõi của công nghệ LongLoRA chính là chia văn bản dài thành các nhóm khác nhau, thực hiện tính toán trong mỗi nhóm, thay vì tính toán mối quan hệ giữa từng từ, từ đó giảm khối lượng tính toán và tăng tốc độ.
Hai mô hình đầu tiên cũng được người sáng lập một công ty gọi là mô hình "ong mật", tức là thông qua việc tăng cường truy vấn hoặc giảm mẫu ngữ cảnh, giữ lại cơ chế chú ý đối với một phần đầu vào, để đạt được hiệu quả xử lý văn bản dài.
Theo như người sáng lập cho biết, vẫn có một cách tối ưu hóa tính toán cơ chế tự chú ý, được gọi là mô hình "cá vàng". Cụ thể là thông qua các phương pháp như cửa sổ trượt để chủ động bỏ qua văn bản trước đó, nhằm tập trung vào việc trả lời thông tin đầu vào mới nhất của người dùng. Lợi ích của cách làm này là rõ ràng, nhưng nó không thể so sánh và phân tích tóm tắt qua tài liệu và cuộc hội thoại.
Giải pháp thứ ba là tập trung vào việc tối ưu hóa mô hình. Ví dụ, LongLLaMA sử dụng các mô hình OpenLLaMA-3B và OpenLLaMA-7B làm điểm khởi đầu, sau đó tinh chỉnh trên cơ sở đó để tạo ra mô hình mới LONGLLAMAs. Mô hình này rất dễ dàng được mở rộng tới các chuỗi dài hơn, chẳng hạn như mô hình được đào tạo trên 8K token có thể dễ dàng được mở rộng tới kích thước cửa sổ 256K.
Có một cách tối ưu hóa mô hình khá phổ biến khác, đó là giảm số lượng tham số (ví dụ giảm xuống còn hàng chục tỷ tham số) để nâng cao độ dài ngữ cảnh, điều này được một người sáng lập gọi là mô hình "bọ gậy". Phương pháp này sẽ làm giảm khả năng của chính mô hình, mặc dù có thể hỗ trợ ngữ cảnh dài hơn, nhưng khi độ khó của nhiệm vụ tăng lên thì sẽ gặp vấn đề.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
10 thích
Phần thưởng
10
4
Đăng lại
Chia sẻ
Bình luận
0/400
SleepTrader
· 08-12 16:46
đuổi theo dữ liệu chơi đà đầu tư
Xem bản gốcTrả lời0
MEVictim
· 08-12 06:22
Biến dài nhanh như vậy, các nhà sản xuất chip cười
Xem bản gốcTrả lời0
MetaverseHermit
· 08-12 06:22
Cuốn điên rồi thuộc về
Xem bản gốcTrả lời0
StrawberryIce
· 08-12 06:15
Mô hình dài ra rồi lại dài ra, kiên nhẫn hơn cả tôi.
Cuộc chiến công nghệ văn bản dài Các công ty mô hình lớn mở rộng khả năng ngữ cảnh
Cuộc chiến công nghệ văn bản dài của các công ty mô hình lớn
Từ 4000 đến 400.000 token, mô hình lớn đang trở nên "dài" hơn với tốc độ "nhìn thấy bằng mắt".
Khả năng xử lý văn bản dài dường như trở thành một "tiêu chuẩn" mới mà các nhà cung cấp mô hình lớn phải có.
Ở nước ngoài, OpenAI đã trải qua ba lần nâng cấp, độ dài đầu vào ngữ cảnh của GPT-3.5 tăng từ 4 nghìn lên 16 nghìn token, GPT-4 từ 8 nghìn lên 32 nghìn token; một công ty đã đưa độ dài ngữ cảnh lên tới 100 nghìn token chỉ trong một lần; LongLLaMA đã mở rộng độ dài ngữ cảnh lên tới 256 nghìn token, thậm chí còn nhiều hơn.
Trong nước, một công ty khởi nghiệp mô hình lớn đã phát hành sản phẩm trợ lý thông minh hỗ trợ nhập 200.000 chữ Hán, khoảng 400.000 token; nhóm Đại học Hồng Kông kết hợp với MIT đã phát hành công nghệ mới LongLoRA, có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token và độ dài văn bản của mô hình 70B lên 32.000 token.
Hiện nay, trong và ngoài nước đã có một loạt các công ty, tổ chức và đội ngũ công nghệ mô hình lớn hàng đầu coi việc mở rộng độ dài ngữ cảnh là trọng tâm của việc cập nhật và nâng cấp.
Các công ty hoặc tổ chức mô hình lớn trong và ngoài nước này đều là "ngôi sao đang lên" được thị trường vốn nhiệt tình đón nhận. Một công ty gần đây đang nổi như cồn, liên tiếp bị tiết lộ nhận được đầu tư từ các công ty công nghệ lớn, định giá dự kiến đạt 30 tỷ USD, gấp năm lần so với tháng 3; một công ty khác chỉ mới thành lập được nửa năm đã nhanh chóng hoàn thành vòng gọi vốn đầu tiên, nhận được sự ủng hộ của nhiều quỹ đầu tư mạo hiểm hàng đầu, định giá thị trường đã vượt quá 300 triệu USD.
Các công ty mô hình lớn đang nỗ lực hết sức để chinh phục công nghệ văn bản dài, việc mở rộng chiều dài văn bản lên 100 lần có ý nghĩa gì?
Bề ngoài, có vẻ như độ dài văn bản có thể nhập vào ngày càng tăng và khả năng đọc ngày càng mạnh hơn. Nếu định lượng giá trị token trừu tượng, GPT-3.5 với 4000 token tối đa chỉ có thể nhập 3000 từ tiếng Anh hoặc 2000 ký tự Trung Quốc, thậm chí khó có thể đọc xong một bài viết trên tài khoản công khai; GPT-4 với 32.000 token đã đạt đến mức độ đọc một câu chuyện ngắn; sản phẩm với 100.000 token có thể nhập khoảng 75.000 từ, chỉ mất 22 giây để đọc xong một cuốn "Đại gia Gatsby"; sản phẩm với 400.000 token hỗ trợ nhập 200.000 ký tự Trung Quốc, đọc một tác phẩm dài.
Mặt khác, công nghệ văn bản dài cũng đang thúc đẩy sự hiện thực hóa sâu sắc hơn của các mô hình lớn trong các ngành như tài chính, tư pháp, nghiên cứu khoa học, nơi mà khả năng tóm tắt tài liệu dài, hiểu biết đọc và trả lời câu hỏi là những điều cơ bản, cũng như là sân tập cần được nâng cấp thông minh.
Tham khảo các tham số "cuộn" của các nhà cung cấp mô hình lớn ở vòng trước, tham số của mô hình lớn không phải càng lớn thì càng tốt, các công ty đều đang cố gắng mở rộng tham số để tìm ra "điểm tới hạn" tối ưu hiệu suất của mô hình lớn. Tương tự, một chỉ số khác cùng quyết định hiệu quả của mô hình - độ dài văn bản, cũng không phải càng dài thì hiệu quả của mô hình càng tốt.
Nghiên cứu đã chứng minh rằng không thể trực tiếp đồng nhất giữa việc mô hình lớn hỗ trợ đầu vào ngữ cảnh dài hơn và hiệu suất mô hình tốt hơn. Độ dài ngữ cảnh mà mô hình có thể xử lý không phải là điểm then chốt thực sự, mà điều quan trọng hơn là cách mà mô hình sử dụng nội dung ngữ cảnh.
Tuy nhiên, hiện tại, sự khám phá về độ dài văn bản trong và ngoài nước vẫn chưa đạt đến trạng thái "điểm tới hạn". Các công ty mô hình lớn trong và ngoài nước vẫn đang không ngừng nỗ lực vượt qua, 400.000 token có lẽ chỉ mới là khởi đầu.
Tại sao phải "cuộn" văn bản dài?
Người sáng lập một công ty cho biết, trong quá trình nghiên cứu và phát triển công nghệ, đội ngũ của họ đã phát hiện ra rằng chính do giới hạn độ dài đầu vào của mô hình lớn đã gây ra nhiều khó khăn trong việc triển khai ứng dụng của mô hình lớn, đây cũng là lý do khiến nhiều công ty mô hình lớn hiện nay tập trung vào công nghệ văn bản dài.
Ví dụ, trong các tình huống vai trò ảo, do khả năng xử lý văn bản dài kém, các nhân vật ảo sẽ quên thông tin quan trọng; khi phát triển trò chơi theo kịch bản như trò chơi giết người dựa trên mô hình lớn, nếu độ dài prompt không đủ, thì chỉ có thể giảm bớt quy tắc và thiết lập, từ đó không thể đạt được hiệu quả trò chơi như mong đợi; trong các lĩnh vực chuyên ngành có độ chính xác cao như pháp luật, ngân hàng, phân tích và tạo nội dung sâu thường gặp khó khăn.
Trên con đường hướng tới tương lai của các ứng dụng gốc Agent và AI, văn bản dài vẫn đóng vai trò quan trọng, việc chạy các tác vụ của Agent cần dựa vào thông tin lịch sử để lập kế hoạch và quyết định mới, các ứng dụng gốc AI cần dựa vào ngữ cảnh để duy trì trải nghiệm người dùng liên tục và cá nhân hóa.
Nhà sáng lập này cho rằng, bất kể là văn bản, giọng nói hay video, việc nén dữ liệu khối lượng lớn mà không mất dữ liệu có thể đạt được mức độ thông minh cao. "Tiến bộ của nén không mất dữ liệu hoặc nghiên cứu mô hình lớn từng phụ thuộc rất nhiều vào mô hình 'tham số là vua', trong đó tỷ lệ nén trực tiếp liên quan đến số lượng tham số. Nhưng chúng tôi tin rằng giới hạn của tỷ lệ nén không mất dữ liệu hoặc mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện. Trong đó, khả năng từng bước có mối tương quan tích cực với số lượng tham số, trong khi số bước thực hiện tức là độ dài ngữ cảnh."
Đồng thời, thực tế đã chứng minh rằng ngay cả những mô hình lớn với hàng trăm tỷ tham số cũng không thể hoàn toàn tránh khỏi vấn đề ảo giác và nói nhảm. So với văn bản ngắn, văn bản dài có thể cung cấp nhiều thông tin và chi tiết hơn về ngữ cảnh, giúp mô hình đánh giá ý nghĩa và giảm thiểu sự mơ hồ hơn nữa, đồng thời việc suy diễn và suy luận dựa trên các sự kiện đã được cung cấp cũng chính xác hơn.
Như vậy, công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề bị chỉ trích vào thời điểm ra đời của mô hình lớn, mà còn tăng cường một số chức năng, đồng thời cũng là một trong những công nghệ then chốt để thúc đẩy ngành công nghiệp và ứng dụng hiện tại. Điều này cũng gián tiếp chứng minh rằng sự phát triển của mô hình lớn tổng quát đã bước vào một giai đoạn mới, từ LLM đến thời đại Long LLM.
Thông qua sản phẩm mới được phát hành của một công ty, có thể nhìn thấy một phần chức năng nâng cấp của mô hình lớn Long LLM.
Đầu tiên là chức năng cơ bản để trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản dài. Ví dụ, nhập liên kết của tài khoản công cộng có thể nhanh chóng phân tích nội dung bài viết; báo cáo tài chính mới có thể nhanh chóng trích xuất thông tin quan trọng và trình bày dưới dạng bảng, sơ đồ tư duy và các hình thức ngắn gọn khác; sau khi nhập toàn bộ cuốn sách hoặc các điều khoản pháp lý chuyên môn, người dùng có thể hỏi để lấy thông tin hiệu quả.
Về mặt mã, có thể thực hiện chuyển đổi văn bản thành mã trực tiếp, chỉ cần đưa tài liệu vào chatbot, nó có thể tái hiện quá trình tạo mã dựa trên tài liệu và có thể sửa đổi trên cơ sở đó, điều này đã tiến thêm một bước lớn so với việc công ty nào đó đã trình diễn tạo mã website từ bản nháp trong buổi họp báo trước đây.
Trong các tình huống đối thoại dài, chatbot cũng có thể thực hiện vai trò diễn, thông qua việc nhập liệu của các nhân vật công chúng, thiết lập giọng điệu, tính cách nhân vật, có thể thực hiện đối thoại một đối một với Jobs, Musk, một công ty mô hình lớn ở nước ngoài đã phát triển ứng dụng AI bạn đồng hành tương tự, và DAU trên di động cao hơn nhiều so với một sản phẩm nổi tiếng nào đó, đạt 3,61 triệu. Trong buổi trình diễn của một công ty nào đó, chỉ cần một trang web, bạn có thể trò chuyện với nhân vật Genshin Impact mà bạn thích.
Các ví dụ trên đã cùng nhau chỉ ra rằng, thoát khỏi các vòng đối thoại đơn giản, các robot đối thoại như ChatGPT đang hướng tới sự chuyên nghiệp, cá nhân hóa và chiều sâu trong phát triển, điều này có thể là một trong những cách thức để kích thích ngành công nghiệp và các siêu APP thực hiện.
Người sáng lập một công ty tiết lộ, khác với một công ty nổi tiếng chỉ cung cấp một sản phẩm và khả năng đa phương thức tiên tiến nhất, họ nhắm đến siêu APP C-end tiếp theo: với công nghệ văn bản dài làm đột phá, từ mô hình cơ bản phổ quát của mình để phân nhánh ra N ứng dụng.
"Thị trường mô hình lớn trong nước sẽ được chia thành hai trại khác nhau là toB và toC, trong trại toC, sẽ xuất hiện super-app, những ứng dụng siêu này được phát triển dựa trên mô hình tự nghiên cứu." vị sáng lập viên đã nhận định.
Tuy nhiên, ở giai đoạn hiện nay, còn rất nhiều không gian tối ưu cho các tình huống đối thoại dài trên thị trường. Chẳng hạn, có một số không hỗ trợ kết nối mạng, chỉ có thể nhận thông tin mới nhất thông qua việc cập nhật cơ sở dữ liệu chính thức; trong quá trình tạo đối thoại, không thể tạm dừng và chỉnh sửa, chỉ có thể chờ đợi cho đến khi cuộc đối thoại kết thúc; ngay cả khi đã có tài liệu nền tảng và hỗ trợ tải lên tệp, vẫn thỉnh thoảng có thể xuất hiện những điều vô lý, bịa đặt.
Nghịch lý "Tam giác không thể" của văn bản dài
Trong lĩnh vực thương mại có một nhóm ba yếu tố điển hình về giá cả, chất lượng và quy mô được gọi là "tam giác bất khả". Ba yếu tố này có mối quan hệ ràng buộc lẫn nhau và không thể đạt được cùng một lúc.
Trong văn bản dài, cũng tồn tại một "tam giác bất khả thi" tương tự như độ dài văn bản, sự chú ý và sức mạnh tính toán.
Điều này thể hiện rằng, văn bản càng dài, càng khó để tập trung chú ý đầy đủ, khó để tiêu hóa hoàn toàn; dưới hạn chế chú ý, văn bản ngắn không thể được giải đọc hoàn chỉnh thông tin phức tạp; việc xử lý văn bản dài cần nhiều sức mạnh tính toán, làm tăng chi phí.
Trở về nguồn gốc, nhìn từ góc độ cơ bản, điều này xảy ra vì hầu hết các mô hình hiện nay đều dựa trên cấu trúc Transformer. Trong cấu trúc này có một thành phần quan trọng nhất là cơ chế tự chú ý, dưới cơ chế này, robot hội thoại có thể vượt qua giới hạn của thứ tự thông tin đầu vào của người dùng, tự do phân tích mối quan hệ giữa các thông tin.
Nhưng cái giá phải trả cho điều này là khối lượng tính toán của cơ chế tự chú ý sẽ tăng theo cấp số nhân với độ dài ngữ cảnh, ví dụ khi độ dài ngữ cảnh tăng 32 lần, khối lượng tính toán thực tế sẽ tăng 1000 lần.
Một số bài báo đã được công bố đã chứng minh rằng: Bối cảnh quá dài sẽ làm giảm đáng kể tỷ lệ thông tin liên quan, và sự phân tán chú ý dường như trở thành số phận không thể tránh khỏi.
Điều này tạo thành nhóm mâu thuẫn đầu tiên trong "tam giác không thể" - độ dài văn bản và sự chú ý, đồng thời cũng giải thích một cách căn bản lý do mà công nghệ văn bản dài của các mô hình lớn khó có thể vượt qua.
Từ khi "cuộn" mô hình lớn đến bây giờ, sức mạnh tính toán luôn là một tài nguyên khan hiếm. Một nhà sáng lập của một công ty nổi tiếng từng cho biết, dịch vụ 32K của họ không thể ngay lập tức mở hoàn toàn cho tất cả người dùng, hạn chế lớn nhất chính là sự thiếu hụt GPU.
Về vấn đề này, người sáng lập của một công ty cũng cho biết: "GPU là một nền tảng quan trọng, nhưng không chỉ là vấn đề của GPU. Có sự kết hợp của nhiều yếu tố khác nhau, một mặt là GPU, mặt khác là hiệu quả chuyển đổi năng lượng thành trí tuệ. Hiệu quả có thể được phân tích thêm có thể bao gồm tối ưu hóa thuật toán, tối ưu hóa kỹ thuật, tối ưu hóa mô hình và tối ưu hóa ngữ cảnh, v.v."
Điều quan trọng hơn là, trong giai đoạn triển khai thực tế của mô hình lớn, các doanh nghiệp hoàn toàn không thể cung cấp hỗ trợ tính toán lớn, điều này buộc các nhà sản xuất phải kiên trì với việc mở rộng tham số mô hình hoặc chiều dài văn bản, tất cả đều phải tuân thủ ngưỡng tính toán. Tuy nhiên, ở giai đoạn hiện tại, để vượt qua công nghệ văn bản dài hơn, chúng ta buộc phải tiêu tốn nhiều sức mạnh tính toán hơn, do đó hình thành nhóm mâu thuẫn thứ hai giữa chiều dài văn bản và sức mạnh tính toán.
Một kỹ sư NLP của một công ty cho biết: "Mô hình lớn cho việc xây dựng văn bản dài hiện vẫn chưa có một giải pháp thống nhất, nguyên nhân gây khó khăn chính là do cấu trúc của chính Transformer, và một kiến trúc hoàn toàn mới đang trên đường đến."
Hiện tại, bất kể từ thiết kế phần mềm hay phần cứng, phần lớn đều được xây dựng xung quanh kiến trúc Transformer. Trong thời gian ngắn, rất khó để một kiến trúc mới hoàn toàn lật đổ kiến trúc này, nhưng đã xuất hiện một số phương án tối ưu hóa xung quanh kiến trúc Transformer.
"Hiện tại có ba giải pháp khác nhau, bao gồm việc sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài, tối ưu hóa tính toán cơ chế tự chú ý và áp dụng các phương pháp tối ưu hóa mô hình chung." Kỹ sư này cho biết.
Ý tưởng cốt lõi của giải pháp đầu tiên là cung cấp "tiện ích" cho mô hình lớn. Phương pháp chính là chia nhỏ văn bản dài thành nhiều văn bản ngắn để xử lý, mô hình khi xử lý văn bản dài sẽ truy xuất văn bản ngắn từ cơ sở dữ liệu, từ đó nhận được các câu trả lời từ nhiều văn bản ngắn cấu thành văn bản dài. Mỗi lần chỉ tải các đoạn văn bản ngắn cần thiết, do đó tránh được vấn đề mô hình không thể đọc toàn bộ văn bản dài một lần.
Giải pháp thứ hai là phương pháp được sử dụng nhiều nhất hiện nay, với cốt lõi chính là tái cấu trúc cách tính toán tự chú ý. Chẳng hạn, cốt lõi của công nghệ LongLoRA chính là chia văn bản dài thành các nhóm khác nhau, thực hiện tính toán trong mỗi nhóm, thay vì tính toán mối quan hệ giữa từng từ, từ đó giảm khối lượng tính toán và tăng tốc độ.
Hai mô hình đầu tiên cũng được người sáng lập một công ty gọi là mô hình "ong mật", tức là thông qua việc tăng cường truy vấn hoặc giảm mẫu ngữ cảnh, giữ lại cơ chế chú ý đối với một phần đầu vào, để đạt được hiệu quả xử lý văn bản dài.
Theo như người sáng lập cho biết, vẫn có một cách tối ưu hóa tính toán cơ chế tự chú ý, được gọi là mô hình "cá vàng". Cụ thể là thông qua các phương pháp như cửa sổ trượt để chủ động bỏ qua văn bản trước đó, nhằm tập trung vào việc trả lời thông tin đầu vào mới nhất của người dùng. Lợi ích của cách làm này là rõ ràng, nhưng nó không thể so sánh và phân tích tóm tắt qua tài liệu và cuộc hội thoại.
Giải pháp thứ ba là tập trung vào việc tối ưu hóa mô hình. Ví dụ, LongLLaMA sử dụng các mô hình OpenLLaMA-3B và OpenLLaMA-7B làm điểm khởi đầu, sau đó tinh chỉnh trên cơ sở đó để tạo ra mô hình mới LONGLLAMAs. Mô hình này rất dễ dàng được mở rộng tới các chuỗi dài hơn, chẳng hạn như mô hình được đào tạo trên 8K token có thể dễ dàng được mở rộng tới kích thước cửa sổ 256K.
Có một cách tối ưu hóa mô hình khá phổ biến khác, đó là giảm số lượng tham số (ví dụ giảm xuống còn hàng chục tỷ tham số) để nâng cao độ dài ngữ cảnh, điều này được một người sáng lập gọi là mô hình "bọ gậy". Phương pháp này sẽ làm giảm khả năng của chính mô hình, mặc dù có thể hỗ trợ ngữ cảnh dài hơn, nhưng khi độ khó của nhiệm vụ tăng lên thì sẽ gặp vấn đề.
Đoạn văn dài "