Tìm hiểu mô hình DALL-E 3 cho phép mọi người tạo hình ảnh AI mới bằng văn bản mới nhất.

Microsoft gần đây đã thông báo rằng mẫu mới nhất của DALL-E 3 OpenAI hiện có sẵn cho tất cả những ai sử dụng Bing Chat và Bing Image Creator.

Nó lần đầu tiên được cung cấp cho người dùng Bing Enterprise và Bing Image Creator. Bây giờ, bất cứ ai cũng có thể sử dụng nó. Phiên bản thứ ba của mô hình tạo hình ảnh OpenAI, DALL-E 3, cho biết nó hiểu lời nhắc tốt hơn và tạo ra những bức ảnh sáng tạo và chân thực hơn. DALL-E 3 được tích hợp vào Bing Chat và ChatGPT, cho phép mọi người cải thiện hình ảnh bằng cách nói chuyện với chatbot.

Các tính năng an toàn trong DALL-E 3 ngăn mọi người tạo bản sao ảnh của những người nổi tiếng và tạo nội dung thù địch hoặc NSFW. Bing Image Creator có hệ thống kiểm duyệt nội dung và hình mờ giúp bạn dễ dàng phát hiện những bức ảnh do AI tạo ra. 

MSFT muốn sử dụng công nghệ DALL-E ở nhiều nơi hơn là chỉ Bing. Ví dụ: Paint Cocreator mới trong ứng dụng Paint là một ví dụ. Microsoft muốn làm mọi thứ dễ dàng hơn cho mọi người truy cập, mặc dù có quá nhiều sự quan tâm đến mức máy chủ bị quá tải. 

Bạn có thể tải DALL-E 3 thông qua Bing. Nó cung cấp cho bạn những ý tưởng sáng tạo để tạo ra những bức ảnh, như thêm cầu vồng hoặc thay đổi các con vật. Nó làm cho việc sử dụng công cụ tuyệt vời này trở nên thú vị hơn.

>>> Xem thêm : Cách kiếm tiền vào năm 2024 bằng cách sử dụng GPT Store của ChatGPT

DALL-E 3 là gì?

DALL-E 3 là phiên bản mới nhất của nhà sáng tạo nghệ thuật OpenAI sử dụng AI. Dựa trên sự thành công của DALL-E 2, DALL-E 3 đưa nghệ thuật sáng tạo nghệ thuật lên một tầm cao mới. Nó bổ sung và cải thiện nhiều thứ, làm cho việc tạo ra tác phẩm nghệ thuật AI trở nên linh hoạt hơn, đó là điều chúng ta sẽ nói đến sau trong phần này.

Dành cho những ai chưa biết, “DALL-E” là tên của một công cụ AI tổng hợp cho phép mọi người tạo hình ảnh mới bằng cách cung cấp cho họ các tín hiệu văn bản (được gọi là “lời nhắc”) sau đó được chuyển thành đồ họa. Về cơ bản, DALL-E hoạt động giống như một mạng lưới thần kinh, tạo ra các hình ảnh hoàn toàn mới theo nhiều phong cách khác nhau dựa trên nội dung người dùng nhập vào.

DALL-E 3 hoạt động như thế nào?

DALL-E về cốt lõi là một mô hình tạo văn bản thành hình ảnh, nhưng DALL-E 3 phức tạp hơn nhiều so với lời giải thích đơn giản này. Kiến trúc deep learning mà DALL-E 3 dựa trên được gọi là GPT-3 (Generative Pre-training Transformer 3). Kiến trúc này là một cải tiến trên các mẫu trước đó như GPT-2.

Đào tạo về bộ dữ liệu

DALL-E 3 được đào tạo trên các tập hợp văn bản và hình ảnh rất lớn đi kèm với chúng. Dữ liệu đào tạo này cung cấp cho mô hình sự hiểu biết sâu sắc về cách các loại văn bản khác nhau mô tả các loại yếu tố hình ảnh và ý tưởng khác nhau.

Tổng hợp văn bản thành hình ảnh

Thành phần chính trong chức năng của DALL-E 3 là tổng hợp văn bản thành hình ảnh, cho phép người dùng đưa ra lời nhắc bằng văn bản. Những lời nhắc bằng văn bản này có thể bao gồm từ những mô tả đơn giản đến những câu chuyện phức tạp, DALL-E diễn giải và chuyển đổi chúng thành hình ảnh bằng kiến trúc mạng thần kinh của nó.

Học tập đa phương thức

Yếu tố quan trọng góp phần tạo nên khả năng độc đáo của DALL-E 3 là phương pháp học tập đa phương thức. Kết quả là nó không chỉ hiểu nội dung văn bản mà còn hiểu cả ngữ cảnh và ngữ nghĩa. Hệ thống có khả năng nắm bắt các sắc thái tinh tế, kết hợp các khái niệm không liên quan và tạo ra những hình ảnh thể hiện được ý nghĩa của nó.

Thế hệ có điều kiện

Cách DALL-E 3 tạo ra hình ảnh có điều kiện, có nghĩa là hình ảnh mà nó tạo ra phụ thuộc vào văn bản mà nó nhận được. Nó không nhất thiết phải tuân theo một phong cách hay thể loại nào; dựa trên những gì bạn cung cấp, nó có thể tạo ra những bức ảnh theo phong cách quang học, trừu tượng hoặc thậm chí siêu thực.

Điều gì làm cho DALL-E 3 trở nên đặc biệt?

DALL-E 3 có vẻ sẽ đẹp hơn các phiên bản trước, với hình ảnh sáng tạo hơn, hình ảnh chính xác hơn và hình ảnh chân thực hơn. Ngoài ra, chúng tôi nhận thấy chất lượng đã tăng lên ngay cả khi câu hỏi của chúng tôi không có nhiều chi tiết.

Nhưng thay đổi quan trọng nhất đối với DALL-E 3 là nó hiện là một phần của ChatGPT, robot AI mạnh mẽ của OpenAI. Nó cho phép bạn sử dụng trình tạo hình ảnh theo một cách hoàn toàn mới và cung cấp cho bạn một cách mới để tạo lời nhắc.

Hạn chế của DALL-E 3 và Bing

Bing Image Creator được sử dụng miễn phí và không yêu cầu đăng ký hoặc danh sách chờ. Khi sử dụng Bing Image Creator để tạo hình ảnh AI, bạn bị giới hạn 25 “tín dụng tăng cường” miễn phí mỗi tuần. Khi bạn hết tín dụng tăng cường, việc tạo hình ảnh có thể mất tới 5 phút. Không còn phiên bản miễn phí của DALL-E 2 nhưng có một số hạn chế đối với DALL-E 3. Không cần phải đăng ký nếu bạn sử dụng Bing Chat.

Đã có những cải tiến về các biện pháp kiểm duyệt và an toàn trong DALL-E 3. Ví dụ: tên của các nhân vật của công chúng đã bị xóa khỏi lời nhắc. Đây là một sự bổ sung đáng hoan nghênh dành cho những nghệ sĩ không muốn sử dụng hình ảnh của họ để huấn luyện DALL-E.

Nếu bạn không muốn đưa hình ảnh của mình vào nhóm đào tạo, bạn có thể chọn không tham gia bằng cách sử dụng biểu mẫu chọn không tham gia OpenAI.

Nguồn: https://www.geeksforgeeks.org/how-to-use-dall-e-3-for-free-inside-microsoft-bing/


Workshop: “CHATGPT – CÁC ỨNG DỤNG TRONG CÔNG VIỆC THỰC TIỄN & CƠ HỘI GIA TĂNG THU NHẬP CHO CÁ NHÂN THỜI KỲ KHỦNG HOẢNG”

Để tìm hiểu nhiều hơn về ChatGPT và những cách ứng dụng của nó vào thực tiễn để gia tăng thu nhập, mời bạn tham gia workshop: “CHATGPT – CÁC ỨNG DỤNG TRONG CÔNG VIỆC THỰC TIỄN & CƠ HỘI GIA TĂNG THU NHẬP CHO CÁ NHÂN THỜI KỲ KHỦNG HOẢNG” vào ngày 27.01.2024, do VEFA tổ chức. 

Scroll to Top