برای افراد نابینا و کم بینا، عینک هوش مصنوعی مسیر جدیدی برای استقلال باز می کند


وس راماژ(Ramage) با شرایطی به نام هیپوپلازی عصب بینایی متولد شد، توسعه نیافتگی خوشه‌های سلولی که سیگنال‌ها را از شبکیه به مغز منتقل می‌کنند. او می تواند اشیاء را ببیند، اما جزئیات را ندارد. خانواده او در سراسر کشور بسیار جابجا شدند. به عنوان یک کودک با دید بسیار محدود، او مجبور بود هر بار راه هایی برای ترسیم محیط جدید خود ابداع کند. او گفت: «وقتی آن محیط را یاد گرفتم، غیرقابل توقف بودم.

تصویر آقای راماژ

آقای راماژ می‌توانست طرح‌بندی‌ها را آنقدر به خاطر بسپارد که در جوانی راحت دوچرخه‌سواری می‌کرد. اما هیچ چیز در این دنیا ثابت نیست. یک روز، مانعی بر سر راهش قرار گرفت که غیر منتظره بود و باعث شد شدیدا آسیب ببیند.

تمایل او به کاوش در سن 43 سالگی کاهش یافته است. این روزها، آقای راماژ یک جفت عینک متصل به اینترنت می‌زند که به یک مدل زبان بزرگ، فناوری هوش مصنوعی که زیربنای ChatGPT و سایر ربات‌های چت است، مرتبط است. خود سخت افزار عینک گوگل است، عینک هوشمند اولین بار یک دهه پیش عرضه شد و شرکتی که همه آن را کنار هم قرار داد Envision نام دارد که پایگاه آن در هلند است.

هنگامی که آقای راماج فرمان صوتی می دهد – مانند “توصیف صحنه” – دوربینی که در عینک تعبیه شده است عکسی می گیرد. سپس تصویر به یک مدل هوش مصنوعی که صحنه را تفسیر می‌کند و توصیف را می‌نویسد، برگشت داده می‌شود. در نهایت، یک ویژگی تبدیل متن به گفتار، توضیحات را با صدای بلند از طریق یک بلندگوی کوچک پشت گوش آقای راماژ می خواند. کل فرآیند فقط چند ثانیه طول می کشد.

دستگاه ضروری شده است. او گفت: ” از خواب بیدار می‌شوم، قهوه‌ام را می‌خورم، عینک، کلید، کیف پولم را می‌گیرم و بیرون می‌روم.”

جهش های هوش مصنوعی در سال گذشته، به ویژه ترکیبی از پردازش زبان و بینایی کامپیوتری، منجر به کاربردهای جدید و پیشرفته تر برای افراد نابینا و کم بینا شده است. این کاربردها شامل عینکی مانند آقای Ramage، همراه با اپلیکیشن‌های هوشمند مبتنی بر هوش مصنوعی است که فراتر از تشخیص ساده اشیاء هستند و می‌توانند اطلاعات بصری را با جزئیات توصیف کنند.

تکنولوژی کامل نیست. همانطور که ChatGPT و سایر ربات‌های چت می‌توانند چیزهایی را بسازند، این برنامه‌ها گاهی اوقات می‌توانند اشیایی را که در آنجا نیستند اشتباه تفسیر کنند. اما برای برخی از کاربران، پیشرفت‌های هوش مصنوعی به باز کردن سطحی از درک و استقلال کمک می‌کند که قبلاً در دسترس آنها نبود.

آقای راماژ که در کلگری زندگی می کند، اولین بار سال گذشته پس از جستجوی وب برای فناوری کمکی با Envision برخورد کرد. او از آن زمان تاکنون کاربردهای بی پایانی برای عینک پیدا کرده است. او از آنها در مورد رنگ لباس‌هایی که پوشیده است پرسیده است، از آنها برای یافتن صندلی‌های خالی در مکان‌های عمومی کمک می‌خواهد و از آنها برای تفسیر دستورالعمل‌های آشپزی روی جعبه پیتزا منجمد استفاده می‌کند.

او برای خواندن تابلوهای خیابان به عینک تکیه می‌کند، که در هنگام حرکت در حمل‌ونقل عمومی بسیار مهم است، به‌ویژه زمانی که تغییرات مسیر روی تابلوهایی که نمی‌تواند ببیند، ارسال می‌شود. او گفت: «پیش از این، یک اتوبوس درست در کنار من می‌رفت، زیرا من روی تابلوی ایست ایستاده‌ بودم نه تابلوی اتوبوس. حالا او می‌تواند از عینک توضیح بخواهد تا مطمئن شود در جای درستی است. “این سطحی از راحتی را به ارمغان می آورد که من در این چند سال نداشتم.”

اگر چیزی را به اشتباه جا انداخته باشد، آقای راماژ می تواند از عینک خود بپرسد که آیا جسم گم شده در دید است یا خیر. او این را در یک تماس ویدیویی اخیر نشان داد و عینک را وادار کرد تا سگ راهنمای او، به نام الم را پیدا کند. از عینکش جواب داد: “سگ، ساعت یازده”. در حالی که الم به سمت بالا رفت، صدا ادامه یافت: “سگ، ساعت یک.”

Envision در سال 2017 توسط Karthik Mahadevan تأسیس شد، که این ایده را به عنوان دانشجوی کارشناسی ارشد پس از سخنرانی در مدرسه ای برای نابینایان در هند در بازدید از خانه، دنبال کرد. او شنید چیزی که بچه ها بیشتر از همه می خواستند استقلال بود. او گفت: “من با بسیاری از افراد نابینا و کم بینا صحبت می کردم، و چیزی که فهمیدم این بود که برای بسیاری از آنها استقلال تقریباً همیشه به معنای دسترسی به اطلاعات است.”

فناوری پشت Envision تکرارهای مختلفی را پشت سر گذاشته است و تا حدی به مدل‌های OpenAI، شرکتی که ChatGPT را ایجاد کرده است، متکی است. این عینک برای مدتی قادر به تفسیر متن بوده است. اما با انتشار آخرین مدل زبان بزرگ OpenAI در اوایل امسال، GPT-4، که می‌تواند تصاویر را توصیف کند، Envision توانست قابلیتی را اضافه کند که محیط اطراف کاربر را روایت می‌کند. این شرکت همچنین در حال آزمایش یک مدل AI منبع باز است، اما تاکنون GPT-4 در رسیدگی به سوالات بعدی بهتر به نظر می رسد.

آقای Ramage، به عنوان یک آزمایش کننده بتای بدون دستمزد، دنیای کاملی از اشتباهات را تجربه کرده است. عینک‌هایش به او درباره توالت‌های اتاق‌های غذاخوری، منوهای روی دیوار حمام (از جمله قیمت‌ها) می‌گویند و یک بار مادرش را به خاطر زاویه‌ای که روی کاناپه داشت، با یک زن باردار اشتباه گرفت. یکی از اقوام مرد را زن نامیده، احتمالاً به این دلیل که موهای خود را به صورت مردانه آرایش می کند.

وقتی اخیراً در تورنتو با آقای راماژ ملاقات کردم، از او خواستم که Envision مرا توصیف کند. این برنامه دقیقاً مرا به عنوان یک مرد ریش دار نشان داد، اما ژاکت چهارخانه من را با استتار اشتباه گرفت. برنامه به درستی گفت: «او یک تلفن همراه در دست دارد، و به نظر می‌رسد که دارد سلفی می‌گیرد،».

بعداً در یک رستوران، آقای راماژ از عینک خود خواست تا منو را با صدای بلند بخواند. سپس او به سرعت گفت: “آیا ساندویچ مرغ در منو وجود دارد؟” برنامه به درستی پاسخ داد که یک ساندویچ مرغ در منو بود.

عینک ارزان نیست. قیمت ها از 1899 تا 3499 دلار آمریکا متغیر است و آقای راماژ از یک برنامه استانی برای پوشش بخشی از هزینه استفاده کرد.

خوشبختانه گزینه های دیگری نیز در دسترس هستند. نایلا فره که در تورنتو زندگی می‌کند، اوایل سال جاری شروع به استفاده از یک اپلیکیشن گوشی هوشمند به نام هوش مصنوعی باش که توضیحاتی درباره عکس‌هایی که می‌گیرد ارائه می‌دهد. او گفت: “این نزدیکترین چیز به بازیابی بینایی است.” خانم فره که در لبنان بزرگ شده بود، در 12 سالگی تشخیص داده شد که به بیماری تخریب شبکیه مبتلا شده است و قبل از اینکه بینایی خود را به طور کامل از دست بدهد، به عنوان وکیل مقاله کار می کرد. کار کردن در کشور خود برای او غیرممکن شد، به همین دلیل است که او به کانادا نقل مکان کرد.

این برنامه به او «یادآوری» زمانی را می دهد که به قول خودش می توانست ببیند. خانم فره یک بار از خودش توضیح خواست. این برنامه موهای تیره، رنگ چهره روشن، چشم های بادامی شکل و گونه های بلند را فهرست کرده است، همه ویژگی هایی که با خاطراتی که او از ظاهرش دارد مطابقت دارد. او درباره تصاویری که دیوارهای خانه اش را پوشانده اند پرسیده است، زیرا فراموش کرده بود که برخی از آنها کجا قرار دارند، از جمله پرتره ای که سال ها پیش خودش کشیده بود. او توضیحی درباره مسیرهایی که سال‌ها به طور منظم پیموده است خواسته است تا بتواند بفهمد ساختمان‌ها چه شکلی هستند و چه درخت‌هایی اطراف او را احاطه کرده‌اند.

علاوه بر این ها خانم فره از یک برنامه که به وسیله تماس ویدیویی از دیگران کمک می گیرد استفاده کرده است. این برنامه به صورت رایگان توسط یک شرکت آمریکایی به نام Be My Eyes ارائه شده است، که همچنین خدماتی را برای افراد نابینا و کم بینا ارائه می دهد تا در صورت نیاز به کمک، از طریق تماس های ویدیویی زنده با داوطلبان ارتباط برقرار کنند. مدیر اجرایی مایکل باکلی در ژانویه با OpenAI تماس گرفت و فکر کرد که ممکن است فرصتی برای همکاری با شرکت‌ها وجود داشته باشد. او متوجه شد که OpenAI در شرف راه اندازی GPT-4 با قابلیت های بینایی است و هوش مصنوعی Be My متولد شد. در حال حاضر، این شرکت می تواند به صورت رایگان به این مدل دسترسی داشته باشد (به گفته وی، حدود 70 درصد از افراد نابینا و کم بینا بیکار یا کم کار هستند و ابزار پرداخت محدودی خواهند داشت). آقای باکلی گفت: “حقیقت این است که ما در حال بحث درباره مدل بلندمدت بین خود هستیم.”

او هنوز نمی‌داند این برنامه چگونه بر سرویس اصلی شرکتش تأثیر می‌گذارد – سرویسی که کاربران را با انسان‌های واقعی جفت می‌کند. شاید مردم متوجه شوند که نیازی به تماس با داوطلبان برای خواندن تاریخ انقضا روی کارتن های شیر یا یافتن ژاکت های نابجا ندارند، اگرچه آقای باکلی فکر می کند که استفاده از چنین خدماتی همچنان ادامه خواهد داشت. او می‌گوید: «چه به دلیل اعتماد، چه به دلیل تنهایی یا به دلیل نیاز واقعی به ارتباط انسانی، گاهی اوقات مردم انسان را می‌خواهند.» در این بین، این شرکت به دنبال اضافه کردن یک تنظیم پرحرفی به برنامه است. هوش مصنوعی Be My Eye گهگاه زمانی که کاربر واقعاً فقط یک پاسخ بله یا خیر می خواهد، شروع به سخن گفتن می کند.

اتفاقات عجیب دیگری نیز وجود داشته است. در اوایل سال جاری، یک به‌روزرسانی توسط OpenAI باعث سروصدا در میان کاربران این برنامه شد: چهره‌ها به‌طور غیرقابل توضیحی از تصاویر محو شده بودند و توصیف را غیرممکن می‌کردند. آقای باکلی گفت: “جامعه عقل خود را از دست داد.”

خانم فره عقلش را از دست نداد، اما اذیت شد. او گفت: “محروم شدن من از جزئیات بسیار سخت است.”

این تغییر تنها چند روز به طول انجامید و احتمالاً ناشی از نگرانی‌های مربوط به رعایت قوانین اطلاعات بیومتریک در ایالات متحده است. این برنامه قابلیت تشخیص چهره ندارد، اما توضیحات چهره ارائه می‌کند و جزئیات عموماً «کمی قوی‌تر» از آن‌ها هستند. به گفته آقای باکلی، در ChatGPT خود OpenAI ارائه شده است.

با این حال، این توصیفات هوش مصنوعی می تواند منجر به لحظات ناخوشایند شود. این اپلیکیشن زمانی یکی از دوستان میانسال خانم فره را یک زن «پیر» توصیف کرد. او گفت: “این شخص بسیار بسیار آزرده خاطر شد.”

در حال حاضر، و شاید برای مدت طولانی در آینده، هوش مصنوعی جایگزین دستگاه های کمکی دیگر یا سهولت درخواست کمک از شخص دیگری برای کارهای پیچیده تر نشود. برای مثال، الم، سگ راهنمای آقای راماژ، هم کم هوش تر و هم بسیار باهوش‌تر از یک برنامه هوش مصنوعی است. او می تواند خطر را ببیند و احساس کند و در محافظت از صاحبش تلاش کند.

الم که با آقای راماج در اطراف تورنتو قدم می زد و سعی می کرد از یک تقاطع پر هرج و مرج عبور کند، جایی که رانندگان آرام خودروهایشان را در وسط خط عابر پیاده متوقف کردند، الم ثابت کرد که همراهی آرام و تزلزل ناپذیر است و با مهارت صاحبش را به طرف دیگر می برد…

 

منبع مقاله:

https://www.theglobeandmail.com

Loading

Related Posts

نتیجه‌ای پیدا نشد.