Sự phát triển gần đây của ngành AI được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của các ngành nghề khác nhau, Boston Consulting cho rằng GPT đã nâng cao khoảng 20% hiệu suất làm việc ở Mỹ. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, trong khi thiết kế phần mềm trước đây là mã chính xác, thì thiết kế phần mềm hiện nay là việc nhúng các khung mô hình lớn tổng quát hơn vào phần mềm, những phần mềm này có thể có hiệu suất tốt hơn và hỗ trợ nhiều loại đầu vào và đầu ra khác nhau hơn. Công nghệ học sâu thực sự đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng đã lan sang ngành Crypto.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của việc phát minh công nghệ học sâu đến ngành. Sau đó, sẽ phân tích sâu về chuỗi công nghiệp của học sâu bao gồm GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, cùng với tình hình phát triển hiện tại và xu hướng của chúng. Tiếp theo, chúng tôi sẽ thảo luận chi tiết về mối quan hệ giữa ngành Crypto và AI, đồng thời sắp xếp lại cấu trúc chuỗi công nghiệp AI liên quan đến Crypto.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau nhằm đạt được trí tuệ nhân tạo trong bối cảnh các thời đại và nền tảng học thuật khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", ý tưởng của công nghệ này là để cho máy móc dựa vào dữ liệu để lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất của hệ thống. Các bước chính là gửi dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra và triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, machine learning có ba trường phái chính, lần lượt là chủ nghĩa kết nối, chủ nghĩa biểu tượng và chủ nghĩa hành vi, lần lượt mô phỏng hệ thống thần kinh, tư duy và hành vi của con người.
Và hiện tại, chủ nghĩa liên kết đại diện cho mạng nơ-ron đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, một khi số lượng lớp và số lượng nơ-ron ( tham số ) trở nên đủ lớn, thì sẽ có đủ cơ hội để khớp với các nhiệm vụ phức tạp chung. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, và cuối cùng, sau nhiều lần xử lý dữ liệu, nơ-ron đó sẽ đạt được trạng thái tối ưu ( tham số ), đây cũng chính là điều mà chúng ta nói là "sức mạnh bất ngờ", và đây cũng là nguồn gốc của từ "sâu" - đủ số lượng lớp và nơ-ron.
Lấy ví dụ, có thể hiểu đơn giản là xây dựng một hàm, hàm này khi ta nhập X=2 thì Y=3; khi X=3 thì Y=5, nếu muốn hàm này áp dụng cho tất cả các X, thì cần phải liên tục thêm độ của hàm và các tham số của nó, chẳng hạn như lúc này tôi có thể xây dựng một hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2, Y=11 thì cần phải xây dựng lại một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để thử nghiệm tìm ra Y = X2 -3X +5, khá phù hợp, nhưng không cần phải hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân theo sự cân bằng, đầu ra tương tự là đủ. Trong đây, X2 cũng như X, X0 đều đại diện cho các nơ-ron khác nhau, còn 1, -3, 5 là các tham số của nó.
Nếu lúc này chúng ta nhập một lượng lớn dữ liệu vào mạng nơ-ron, chúng ta có thể tăng số lượng nơ-ron và điều chỉnh các tham số để phù hợp với dữ liệu mới. Bằng cách này, chúng ta có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron đã trải qua nhiều lần lặp lại và tiến hóa, bao gồm các mạng nơ-ron sơ khai như trong hình trên, mạng nơ-ron hồi tiếp, CNN và GAN, cuối cùng tiến hóa thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm vào một bộ chuyển đổi ( Transformer ), để mã hóa tất cả các kiểu dữ liệu ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó, dữ liệu này được đưa vào mạng nơ-ron, nhờ đó mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là thực hiện đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên vào những năm 60 của thế kỷ 20, cách một thập kỷ sau khi công nghệ AI được đưa ra. Làn sóng này được gây ra bởi sự phát triển của công nghệ biểu tượng, công nghệ này giải quyết vấn đề xử lý ngôn ngữ tự nhiên tổng quát và đối thoại giữa người và máy. Cùng thời điểm đó, hệ thống chuyên gia ra đời, đây là hệ thống chuyên gia DENRAL do Đại học Stanford hoàn thành, hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy luận nhằm tạo ra câu trả lời giống như chuyên gia hóa học. Hệ thống chuyên gia hóa học này có thể được xem như sự kết hợp giữa kho kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 1990, Judea Pearl ( đã đề xuất mạng Bayes, mạng này còn được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đưa ra robot học dựa trên hành vi, đánh dấu sự ra đời của hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc của trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển lần thứ hai.
Cơn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn của học sâu Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng nhau định hình cơn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa kết nối.
Nhiều sự kiện mang tính biểu tượng cũng xuất hiện dần dần cùng với sự khám phá và tiến hóa của công nghệ học sâu, bao gồm:
Năm 2011, Watson ) của IBM đã chiến thắng con người và giành chiến thắng trong chương trình truyền hình đố vui "Jeopardy" (.
Năm 2014, Goodfellow đã đề xuất GAN) mạng đối kháng sinh, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron chơi đối kháng với nhau để học, có thể tạo ra những bức ảnh giống hệt như thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách có tên "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này ngay lập tức gây ra tiếng vang lớn trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, Musk, tổng thống YC Altman, nhà đầu tư thiên thần Peter Thiel ) Peter Thiel ( và những người khác công bố cùng nhau đầu tư 1 tỷ USD.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu với nhà vô địch thế giới cờ vây, kỳ thủ chuyên nghiệp 9 đẳng Li Shishi, và giành chiến thắng với tổng tỷ số 4-1.
Năm 2017, công ty công nghệ robot Hanson Robotics ) đã phát triển robot hình người Sophia, được gọi là robot đầu tiên trong lịch sử nhận được quyền công dân hạng nhất, với khả năng thể hiện biểu cảm khuôn mặt phong phú và hiểu ngôn ngữ con người.
Năm 2017, Google phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT( Generative Pre-trained Transformer) được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu hiệu tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, OpenAI phát triển GPT-3 với 175 tỷ tham số, cao gấp 100 lần so với phiên bản trước đó GPT-2. Mô hình này sử dụng 570GB văn bản để đào tạo và có thể đạt được hiệu suất tiên tiến trong nhiều nhiệm vụ NLP( như trả lời câu hỏi, dịch thuật, viết bài).
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1,76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, vào tháng 3 ChatGPT đạt một trăm triệu người dùng, trở thành ứng dụng đạt một trăm triệu người dùng nhanh nhất trong lịch sử.
Năm 2024, OpenAI ra mắt GPT-4 omni.
Chú thích: Do có nhiều bài báo về trí tuệ nhân tạo, nhiều trường phái khác nhau và sự phát triển công nghệ không đồng nhất, nên ở đây chủ yếu theo lịch sử phát triển của học sâu hoặc chủ nghĩa kết nối, các trường phái và công nghệ khác vẫn đang trong quá trình phát triển nhanh chóng.
Chuỗi ngành công nghiệp học sâu
Hiện nay, các mô hình ngôn ngữ lớn đều sử dụng phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn đầu của GPT, các mô hình lớn đã tạo ra một làn sóng sốt sắng về trí tuệ nhân tạo, rất nhiều người chơi đã đổ vào lĩnh vực này. Chúng tôi cũng nhận thấy nhu cầu về dữ liệu và tính toán trên thị trường bùng nổ mạnh mẽ, vì vậy trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi ngành của thuật toán học sâu. Trong ngành AI do thuật toán học sâu dẫn dắt, các bên liên quan ở thượng nguồn và hạ nguồn được cấu thành như thế nào, và tình trạng hiện tại của các bên liên quan cũng như mối quan hệ cung cầu, phát triển trong tương lai ra sao.
Đầu tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo các mô hình lớn LLMs do GPT dẫn đầu dựa trên công nghệ Transformer, có tổng cộng ba bước.
Trước khi đào tạo, vì dựa trên Transformer, nên bộ chuyển đổi cần chuyển đổi văn bản đầu vào thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị này được gọi là Token. Theo quy tắc chung, một từ hoặc ký tự tiếng Anh có thể được coi là một Token, trong khi mỗi ký tự Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng để định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp đủ cặp dữ liệu cho lớp đầu vào, giống như ví dụ được nêu trong phần đầu của báo cáo (X,Y), để tìm kiếm các tham số tốt nhất của từng neuron trong mô hình, lúc này cần một lượng lớn dữ liệu, và quá trình này cũng là quá trình tốn nhiều sức mạnh tính toán nhất, vì phải lặp đi lặp lại để các neuron thử nghiệm các tham số khác nhau. Sau khi hoàn thành huấn luyện với một bộ dữ liệu, thường sẽ sử dụng cùng một bộ dữ liệu để huấn luyện lại nhằm điều chỉnh các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để đào tạo, sự thay đổi này sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng kém. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng cao.
Bước ba, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi đó là "mô hình phần thưởng", mục đích của mô hình này rất đơn giản, đó là để xếp hạng các kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ khá đơn giản, vì bối cảnh kinh doanh khá chuyên biệt. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy chúng tôi có thể sử dụng một mô hình phần thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần có sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Nói ngắn gọn, trong quá trình đào tạo mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về lượng dữ liệu, và sức mạnh tính toán GPU cần thiết cũng là nhiều nhất, trong khi tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình phần thưởng để xuất ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát của mô hình càng cao, ví dụ như trong ví dụ về hàm Y = aX + b, thì thực tế có hai nơ-ron X và X0, vì vậy cách thay đổi tham số sẽ giới hạn dữ liệu mà nó có thể điều chỉnh, bởi vì bản chất của nó vẫn là một đường thẳng. Nếu số lượng nơ-ron càng nhiều, thì có thể lặp lại nhiều tham số hơn, từ đó có thể điều chỉnh nhiều dữ liệu hơn, đó chính là lý do tại sao các mô hình lớn lại có thể tạo ra kỳ tích, và cũng là lý do tại sao nó được gọi là mô hình lớn, bản chất chính là một lượng lớn nơ-ron và tham số, một lượng lớn dữ liệu, đồng thời cần một lượng lớn sức mạnh tính toán.
Do đó, hiệu suất của mô hình lớn chủ yếu được quyết định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, khả năng tính toán, ba yếu tố này cùng ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, khối lượng dữ liệu là n( được tính theo số lượng Token), thì chúng ta có thể tính toán khối lượng tính toán cần thiết bằng quy tắc kinh nghiệm chung, từ đó ước tính tình hình sức mạnh tính toán cần mua và thời gian đào tạo.
Đơn vị cơ bản của sức mạnh tính toán thường được tính bằng Flops.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
7 thích
Phần thưởng
7
8
Chia sẻ
Bình luận
0/400
SmartContractPlumber
· 2giờ trước
GPT và hợp đồng thông minh không thể không phòng bị
Xem bản gốcTrả lời0
GateUser-43d6d1b5
· 22giờ trước
1000x Vibes 🤑
Trả lời0
AirdropLicker
· 08-06 17:04
Lần thị trường tăng tới, đừng ngồi chờ Airdrop nhé.
Xem bản gốcTrả lời0
PumpDoctrine
· 08-06 17:03
bull thổi to như vậy tăng lên coin mới là quan trọng
Xem bản gốcTrả lời0
LayerHopper
· 08-06 17:03
Blockchain điên cuồng đã qua, khai thác bằng ổ cứng mới hấp dẫn.
Sự hội nhập giữa AI và tài sản tiền điện tử: Độ sâu học máy đang định hình lại bối cảnh ngành
AI và Crypto: Từ số không đến đỉnh cao
Sự phát triển gần đây của ngành AI được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của các ngành nghề khác nhau, Boston Consulting cho rằng GPT đã nâng cao khoảng 20% hiệu suất làm việc ở Mỹ. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, trong khi thiết kế phần mềm trước đây là mã chính xác, thì thiết kế phần mềm hiện nay là việc nhúng các khung mô hình lớn tổng quát hơn vào phần mềm, những phần mềm này có thể có hiệu suất tốt hơn và hỗ trợ nhiều loại đầu vào và đầu ra khác nhau hơn. Công nghệ học sâu thực sự đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng đã lan sang ngành Crypto.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của việc phát minh công nghệ học sâu đến ngành. Sau đó, sẽ phân tích sâu về chuỗi công nghiệp của học sâu bao gồm GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, cùng với tình hình phát triển hiện tại và xu hướng của chúng. Tiếp theo, chúng tôi sẽ thảo luận chi tiết về mối quan hệ giữa ngành Crypto và AI, đồng thời sắp xếp lại cấu trúc chuỗi công nghiệp AI liên quan đến Crypto.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau nhằm đạt được trí tuệ nhân tạo trong bối cảnh các thời đại và nền tảng học thuật khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", ý tưởng của công nghệ này là để cho máy móc dựa vào dữ liệu để lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất của hệ thống. Các bước chính là gửi dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra và triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, machine learning có ba trường phái chính, lần lượt là chủ nghĩa kết nối, chủ nghĩa biểu tượng và chủ nghĩa hành vi, lần lượt mô phỏng hệ thống thần kinh, tư duy và hành vi của con người.
Và hiện tại, chủ nghĩa liên kết đại diện cho mạng nơ-ron đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, một khi số lượng lớp và số lượng nơ-ron ( tham số ) trở nên đủ lớn, thì sẽ có đủ cơ hội để khớp với các nhiệm vụ phức tạp chung. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, và cuối cùng, sau nhiều lần xử lý dữ liệu, nơ-ron đó sẽ đạt được trạng thái tối ưu ( tham số ), đây cũng chính là điều mà chúng ta nói là "sức mạnh bất ngờ", và đây cũng là nguồn gốc của từ "sâu" - đủ số lượng lớp và nơ-ron.
Lấy ví dụ, có thể hiểu đơn giản là xây dựng một hàm, hàm này khi ta nhập X=2 thì Y=3; khi X=3 thì Y=5, nếu muốn hàm này áp dụng cho tất cả các X, thì cần phải liên tục thêm độ của hàm và các tham số của nó, chẳng hạn như lúc này tôi có thể xây dựng một hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2, Y=11 thì cần phải xây dựng lại một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để thử nghiệm tìm ra Y = X2 -3X +5, khá phù hợp, nhưng không cần phải hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân theo sự cân bằng, đầu ra tương tự là đủ. Trong đây, X2 cũng như X, X0 đều đại diện cho các nơ-ron khác nhau, còn 1, -3, 5 là các tham số của nó.
Nếu lúc này chúng ta nhập một lượng lớn dữ liệu vào mạng nơ-ron, chúng ta có thể tăng số lượng nơ-ron và điều chỉnh các tham số để phù hợp với dữ liệu mới. Bằng cách này, chúng ta có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron đã trải qua nhiều lần lặp lại và tiến hóa, bao gồm các mạng nơ-ron sơ khai như trong hình trên, mạng nơ-ron hồi tiếp, CNN và GAN, cuối cùng tiến hóa thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm vào một bộ chuyển đổi ( Transformer ), để mã hóa tất cả các kiểu dữ liệu ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó, dữ liệu này được đưa vào mạng nơ-ron, nhờ đó mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là thực hiện đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên vào những năm 60 của thế kỷ 20, cách một thập kỷ sau khi công nghệ AI được đưa ra. Làn sóng này được gây ra bởi sự phát triển của công nghệ biểu tượng, công nghệ này giải quyết vấn đề xử lý ngôn ngữ tự nhiên tổng quát và đối thoại giữa người và máy. Cùng thời điểm đó, hệ thống chuyên gia ra đời, đây là hệ thống chuyên gia DENRAL do Đại học Stanford hoàn thành, hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy luận nhằm tạo ra câu trả lời giống như chuyên gia hóa học. Hệ thống chuyên gia hóa học này có thể được xem như sự kết hợp giữa kho kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 1990, Judea Pearl ( đã đề xuất mạng Bayes, mạng này còn được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đưa ra robot học dựa trên hành vi, đánh dấu sự ra đời của hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc của trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển lần thứ hai.
Cơn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn của học sâu Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng nhau định hình cơn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa kết nối.
Nhiều sự kiện mang tính biểu tượng cũng xuất hiện dần dần cùng với sự khám phá và tiến hóa của công nghệ học sâu, bao gồm:
Năm 2011, Watson ) của IBM đã chiến thắng con người và giành chiến thắng trong chương trình truyền hình đố vui "Jeopardy" (.
Năm 2014, Goodfellow đã đề xuất GAN) mạng đối kháng sinh, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron chơi đối kháng với nhau để học, có thể tạo ra những bức ảnh giống hệt như thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách có tên "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này ngay lập tức gây ra tiếng vang lớn trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, Musk, tổng thống YC Altman, nhà đầu tư thiên thần Peter Thiel ) Peter Thiel ( và những người khác công bố cùng nhau đầu tư 1 tỷ USD.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu với nhà vô địch thế giới cờ vây, kỳ thủ chuyên nghiệp 9 đẳng Li Shishi, và giành chiến thắng với tổng tỷ số 4-1.
Năm 2017, công ty công nghệ robot Hanson Robotics ) đã phát triển robot hình người Sophia, được gọi là robot đầu tiên trong lịch sử nhận được quyền công dân hạng nhất, với khả năng thể hiện biểu cảm khuôn mặt phong phú và hiểu ngôn ngữ con người.
Năm 2017, Google phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT( Generative Pre-trained Transformer) được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu hiệu tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, OpenAI phát triển GPT-3 với 175 tỷ tham số, cao gấp 100 lần so với phiên bản trước đó GPT-2. Mô hình này sử dụng 570GB văn bản để đào tạo và có thể đạt được hiệu suất tiên tiến trong nhiều nhiệm vụ NLP( như trả lời câu hỏi, dịch thuật, viết bài).
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1,76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, vào tháng 3 ChatGPT đạt một trăm triệu người dùng, trở thành ứng dụng đạt một trăm triệu người dùng nhanh nhất trong lịch sử.
Năm 2024, OpenAI ra mắt GPT-4 omni.
Chú thích: Do có nhiều bài báo về trí tuệ nhân tạo, nhiều trường phái khác nhau và sự phát triển công nghệ không đồng nhất, nên ở đây chủ yếu theo lịch sử phát triển của học sâu hoặc chủ nghĩa kết nối, các trường phái và công nghệ khác vẫn đang trong quá trình phát triển nhanh chóng.
Chuỗi ngành công nghiệp học sâu
Hiện nay, các mô hình ngôn ngữ lớn đều sử dụng phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn đầu của GPT, các mô hình lớn đã tạo ra một làn sóng sốt sắng về trí tuệ nhân tạo, rất nhiều người chơi đã đổ vào lĩnh vực này. Chúng tôi cũng nhận thấy nhu cầu về dữ liệu và tính toán trên thị trường bùng nổ mạnh mẽ, vì vậy trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi ngành của thuật toán học sâu. Trong ngành AI do thuật toán học sâu dẫn dắt, các bên liên quan ở thượng nguồn và hạ nguồn được cấu thành như thế nào, và tình trạng hiện tại của các bên liên quan cũng như mối quan hệ cung cầu, phát triển trong tương lai ra sao.
Đầu tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo các mô hình lớn LLMs do GPT dẫn đầu dựa trên công nghệ Transformer, có tổng cộng ba bước.
Trước khi đào tạo, vì dựa trên Transformer, nên bộ chuyển đổi cần chuyển đổi văn bản đầu vào thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị này được gọi là Token. Theo quy tắc chung, một từ hoặc ký tự tiếng Anh có thể được coi là một Token, trong khi mỗi ký tự Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng để định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp đủ cặp dữ liệu cho lớp đầu vào, giống như ví dụ được nêu trong phần đầu của báo cáo (X,Y), để tìm kiếm các tham số tốt nhất của từng neuron trong mô hình, lúc này cần một lượng lớn dữ liệu, và quá trình này cũng là quá trình tốn nhiều sức mạnh tính toán nhất, vì phải lặp đi lặp lại để các neuron thử nghiệm các tham số khác nhau. Sau khi hoàn thành huấn luyện với một bộ dữ liệu, thường sẽ sử dụng cùng một bộ dữ liệu để huấn luyện lại nhằm điều chỉnh các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để đào tạo, sự thay đổi này sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng kém. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng cao.
Bước ba, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi đó là "mô hình phần thưởng", mục đích của mô hình này rất đơn giản, đó là để xếp hạng các kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ khá đơn giản, vì bối cảnh kinh doanh khá chuyên biệt. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy chúng tôi có thể sử dụng một mô hình phần thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần có sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Nói ngắn gọn, trong quá trình đào tạo mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về lượng dữ liệu, và sức mạnh tính toán GPU cần thiết cũng là nhiều nhất, trong khi tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình phần thưởng để xuất ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát của mô hình càng cao, ví dụ như trong ví dụ về hàm Y = aX + b, thì thực tế có hai nơ-ron X và X0, vì vậy cách thay đổi tham số sẽ giới hạn dữ liệu mà nó có thể điều chỉnh, bởi vì bản chất của nó vẫn là một đường thẳng. Nếu số lượng nơ-ron càng nhiều, thì có thể lặp lại nhiều tham số hơn, từ đó có thể điều chỉnh nhiều dữ liệu hơn, đó chính là lý do tại sao các mô hình lớn lại có thể tạo ra kỳ tích, và cũng là lý do tại sao nó được gọi là mô hình lớn, bản chất chính là một lượng lớn nơ-ron và tham số, một lượng lớn dữ liệu, đồng thời cần một lượng lớn sức mạnh tính toán.
Do đó, hiệu suất của mô hình lớn chủ yếu được quyết định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, khả năng tính toán, ba yếu tố này cùng ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, khối lượng dữ liệu là n( được tính theo số lượng Token), thì chúng ta có thể tính toán khối lượng tính toán cần thiết bằng quy tắc kinh nghiệm chung, từ đó ước tính tình hình sức mạnh tính toán cần mua và thời gian đào tạo.
Đơn vị cơ bản của sức mạnh tính toán thường được tính bằng Flops.