Najnowszy projekt opracowany przez Apple i Uniwersytet Kalifornijski, znany jako MGIE (MLLM-Guided Image Editing), sugeruje, że taka przyszłość może być bliższa, niż nam się wydaje. Oto, jak naukowcy pracują nad tym, aby przenieść naszą interakcję z obrazami na zupełnie nowy poziom.
MGIE: Rewolucyjne przemiany w świecie edycji obrazów
MGIE to zaawansowany model językowy oparty na sieciach neuronowych, który ma na celu zmienić sposób, w jaki edytujemy obrazy. W przeciwieństwie do istniejących rozwiązań sztucznej inteligencji, MGIE nie ogranicza się jedynie do konkretnych celów, ale skupia się na zrozumieniu intencji użytkownika. Ten innowacyjny model otwiera drzwi do edycji opartej na interakcjach językowych, przenosząc naszą percepcję edycji obrazów na nowy poziom.
Dialog z programem: Nowe wyzwania dla komend głosowych
Wyobraź sobie sytuację, w której rozmawiasz z programem, a on samodzielnie interpretuje twoje polecenia, przeprowadzając precyzyjne edycje obrazów. Na przykład, polecenie "make it more healthy" może skutkować dodaniem warzyw i przypraw do obrazka pizzy. MGIE ma potencjał do dokonywania zarówno globalnych, jak i lokalnych edycji, obejmujących konkretne obszary czy nawet pojedyncze piksele.
Okulary XR a przyszłość edycji: Nowy rozdział w graficznym środowisku
Z debiutem gogli Apple Vision Pro, Apple rzuca światło na przyszłość komputerów. Za kilka lat, komputerowe okulary XR mogą zastąpić tradycyjne metody obsługi, gdzie gesty i komendy głosowe staną się dominującymi formami interakcji. W tym kontekście MGIE nie tylko zapewni wygodę, ale także efektywność w porównaniu do tradycyjnych metod edycji obrazów.
Chociaż MGIE jest jeszcze w fazie eksperymentalnej, projekt open-source dostępny na GitHubie kieruje nas ku przyszłości. Pomimo obecnych niedoskonałości, takich jak błędne analizowanie poleceń, perspektywy dla MGIE są obiecujące.
Podsumowanie: Znaczący postęp w przesuwaniu granic edycji graficznej
Projekt MGIE wprowadza fascynującą perspektywę nowoczesnej edycji obrazu, gdzie komendy zastępują tradycyjne klikanie myszką. Mimo że perfekcyjne wdrożenie wymaga jeszcze czasu, MGIE może być kluczowym krokiem w kierunku przyszłościowej, bardziej intuicyjnej i efektywnej edycji grafiki.
Wszystkie szczegóły dotyczące MGIE są dostępne na stronie projektu na GitHubie, a dodatkowo, istnieje możliwość interaktywnego eksperymentowania z systemem online na stronie huggingface.co.
ip
Fot: Krzysztof Zatycki