NVIDIA giới thiệu các tiến bộ mới nhất trong trí tuệ nhân tạo hình ảnh
Các nhà nghiên cứu của NVIDIA đang trình bày các mô hình và kỹ thuật trí tuệ nhân tạo sinh hình ảnh mới tại Hội nghị Nhận diện Hình ảnh và Mẫu mực (CVPR) diễn ra tuần này (từ ngày 17 đến 21 tháng 6) tại Seattle (Mỹ). Các tiến bộ này bao gồm các lĩnh vực như tạo hình ảnh tùy chỉnh, chỉnh sửa cảnh 3D, hiểu ngôn ngữ hình ảnh và nhận thức xe tự hành.
“Trí tuệ nhân tạo, đặc biệt là trí tuệ nhân tạo sinh hình ảnh, đại diện cho một tiến bộ công nghệ quan trọng,” như Jan Kautz, Phó Chủ tịch nghiên cứu về học tập và nhận thức tại NVIDIA, đã nói.
“Tại CVPR, NVIDIA Research đang chia sẻ cách chúng tôi đẩy giới hạn của những gì có thể làm được – từ các mô hình tạo hình ảnh mạnh mẽ có thể tăng tốc cho các nhà sáng tạo chuyên nghiệp đến phần mềm lái xe tự động có thể giúp kích hoạt thế hệ xe tự lái tiếp theo.”
Trong số hơn 50 dự án nghiên cứu của NVIDIA được trình bày, hai bài báo đã được chọn làm đề cử cho Giải thưởng Bài báo Xuất sắc nhất của CVPR – một nghiên cứu về động lực huấn luyện của các mô hình phân tán và một nghiên cứu về bản đồ định nghĩa cao cho xe tự lái.
Ngoài ra, NVIDIA đã giành chiến thắng trong thử thách lớn về Lái xe Tự động của CVPR, với dòng sản phẩm Lái xe Từ Đầu đến Cuối ở quy mô lớn, vượt qua hơn 450 đăng ký từ khắp nơi trên thế giới. Mốc son này cho thấy sự tiên phong của NVIDIA trong việc sử dụng trí tuệ nhân tạo sinh hình ảnh cho các mô hình xe tự lái toàn diện, đồng thời cũng đạt được Giải Thưởng Đổi mới từ CVPR.
Một trong những dự án nghiên cứu nổi bật là JeDi, một kỹ thuật mới cho phép nhà sáng tạo nhanh chóng tùy chỉnh các mô hình diffusion – phương pháp hàng đầu cho việc sinh hình ảnh từ văn bản – để miêu tả các đối tượng hoặc nhân vật cụ thể chỉ bằng vài hình ảnh tham khảo, thay vì quá trình tinh chỉnh chi tiết trên các bộ dữ liệu tùy chỉnh mất nhiều thời gian.
Một đột phá khác là FoundationPose, một mô hình nền tảng mới có thể ngay lập tức hiểu và theo dõi vị trí 3D của các đối tượng trong video mà không cần huấn luyện cho từng đối tượng. Nó đã thiết lập kỷ lục hiệu suất mới và có thể mở khóa các ứng dụng AR (Augmented Reality) và robotics mới.
Các nhà nghiên cứu của NVIDIA cũng giới thiệu NeRFDeformer, một phương pháp để chỉnh sửa cảnh 3D được ghi lại bởi Neural Radiance Field (NeRF) bằng cách sử dụng một ảnh 2D duy nhất, thay vì phải thủ công thực hiện lại các thay đổi hoặc tái tạo NeRF hoàn toàn. Điều này có thể tối ưu hóa quá trình chỉnh sửa cảnh 3D cho đồ họa, robotics và các ứng dụng digital twin.
- Boomerang casino – gedetailleerd review over mogelijkheden voor Nederlandse gebruikers
- Meta gia nhập Apple trong việc ngăn chặn người dùng EU truy cập các mô hình AI
- SoftBank mua lại nhà sản xuất chip AI Graphcore của Anh
- Microsoft và Apple rút lui khỏi ban quản trị của OpenAI
- SenseTime SenseNova 5.5: Mô hình AI đa phương thức thời gian thực đầu tiên của Trung Quốc