Як навчаються чат-боти

Автор: Louise Ward

Дата Створення: 6 Лютий 2021

Дата Оновлення: 8 Травень 2024

Відеоролик: Пишем TELEGRAM бота на Python

Ми наздогнали Джайлза Колборна, співзасновника та генерального директора cxpartners. Колборн є однією з провідних незалежних консультацій з дизайну досвіду у світі Простий і зручний, книга на тему простоти, орієнтована спеціально на дизайнерів взаємодії.

Що залишиться після ажіотажу чат-бота? Хто / що виживе?

Джайлз Колборн: Проблема ажіотажу полягає в тому, що це змушує людей викладати речі там, не розрізняючи, добре це чи ні, і заохочує людей вважати, що все можливо, тому вони дико переборщують. Це однакова історія з будь-якою новою або новою технологією.

Тож після галасу я очікую, що з’явиться кілька хороших, надійних, простих, надійних прикладів і моделей, на яких ми повільно будуємо більш складний досвід. Чудово слухати ажіотаж і мріяти, але якщо ви будуєте систему, на яку люди можуть покластися, не слід боятися робити щось просте і функціональне.

Я думаю, що з будь-якою системою, яка покладається на машинне навчання (а багато інтерфейсів природних мов справді покладається на машинне навчання), люди з великими наборами даних матимуть перевагу. Я хотів би сподіватися, що це не перетвориться на блокування платформи.

Ще в перші дні споживчого Інтернету ми уникали блокування платформи завдяки Інтернету, який мав відкриту специфікацію, яку міг використовувати кожен. Важко побачити, щоб щось подібне відбувалося цього разу - може знадобитися законодавство. Але до всього цього, мабуть, ще багато років.

Як розробити чат-бот

Які переваги чат-ботів та розмовних інтерфейсів?

GC: По-перше, я маю провести різницю між чат-ботами та розмовними інтерфейсами та повними інтерфейсами натуральної мови (NLI). Чат-боти іноді просять користувача вибрати один із можливих варіантів відповідей - швидше, як жахливі системи IVR, які сортують голосові дзвінки на телефонні лінії ("натисніть 1 для запитів про залишок, 2 для обслуговування клієнтів тощо"). NLI дозволяють набирати відповідь вашою мовою, а потім відповідати на основі цього. Мене більше цікавлять NLI, і це моя увага.

Мені подобається в NLI те, що майже немає користувацького інтерфейсу для вивчення. Такі програми, як Facebook Messenger, є одними з найбільш часто використовуваних програм на смартфонах сьогодні. Інтерфейс користувача простий, а ідея, що стоїть за ними, легко зрозуміти. Тож побудова сервісів на додаток до цього звичного, широко використовуваного інтерфейсу виглядає непоганою ідеєю - до тих пір, поки самими службами буде просто користуватися.

Більше того, якщо ви можете створити інтерфейс, який працює на чомусь справді базовому, як SMS, то він буде працювати на Facebook Messenger, WhatsApp або якійсь іншій платформі чату - отже, є обіцянка, що ви зможете розширити свій обсяг.

Надання переваги послугам типу чату зростає, коли ви дивитесь на молодшу аудиторію. Вони виросли в соціальних мережах, і, схоже, вони воліють взаємодіяти з такими видами послуг, а не телефоном чи електронною поштою. Але, звичайно, це інтерфейс, який за своєю суттю доступний людям із вадами зору чи слуху і простий для розуміння користувачами будь-якого віку.

Однак мене зачаровує те, що інтерфейси Natural Language означають, що ми можемо створювати системи, які відчувають себе більш людьми. Людська розмова має багато цікавих якостей, з якими борються графічні користувальницькі інтерфейси.

Наприклад, якщо ви запитуєте людину про допомогу у пошуку чогось, наприклад, авіаквитка, ви часто починаєте з досить розмитого опису і повільно ставите нанівець пару хороших варіантів. На даний момент ми можемо це зробити у гранованих інтерфейсах пошуку, але люди намагаються ефективно їх використовувати - особливо на маленьких екранах. На маленьких екранах ви, як правило, отримуєте серію меню, у яке ви детально розбираєтесь. Це може бути незграбним або заплутаним. Інтерфейси природної мови можуть це обійти.

Нарешті, наступна хвиля обчислень стосується не ноутбуків чи мобільних телефонів, а середовищ, повних розумних пристроїв, які вас знають і взаємодіють з вами. Вам не потрібен сенсорний екран на кожному пристрої або програма для кожного пристрою на вашому смартфоні. Вам потрібен загальний інтерфейс, який вас знає і з яким ви можете легко спілкуватися. Тому я думаю, що NLI та технології штучного інтелекту відіграють таку важливу роль у наступному поколінні користувацького досвіду.

І які є підводні камені в розмовних інтерфейсах і як ми можемо їх уникнути?

GC: Я думаю, що найбільша ловушка полягає у створенні бесід, схожих на блок-схеми - тих, де діалог намічається до найдрібніших деталей. Насправді розмови досить розпливчасті та мляві. Якщо ви спробуєте детально їх намітити, вам в кінцевому підсумку не вистачає складності - або ви просто створюєте ще одну з цих систем IVR.

Наприклад, якщо ви запитаєте когось у їх імені, одна людина може назвати вам своє повне ім’я, включаючи назву, а інша - просто назвати своє ім’я. Ви повинні дозволити їм це зробити, а потім обвести назад відсутні деталі. Це не помилка, це просто інший спосіб відповісти на запитання.

Як ми можемо вдосконалити ботів, щоб покращити взаємодію з користувачем?

GC: Коли ви слухаєте людей, які особливо використовують голосові системи, велика частина розмов стосується того, як користувач з’ясовує, як задавати питання, і дізнається, що система може, а що не може робити. Я думаю, що більшість НЛІ роблять жахливу роботу з вирішенням цих ситуацій.

Наприклад, скажімо, ви просите свого голосового асистента відтворити пісню, наприклад, «Богемська рапсодія», але ви неправильно ввели ім’я і називаєте це «Мама, щойно вбив людину». З точки зору користувача та людського прослуховування, користувач надіслав дійсний та корисний запит. Але більшість голосових помічників не відповідають заголовку та здаються, і користувач повертається до першого.

Подібні речі трапляються постійно з голосовими асистентами, але людина намагається використати надану інформацію та задає осмислене подальше запитання на кшталт: "Чи можете ви згадати, ким це було?" Або "Це заголовок чи рядок з пісні? '. Якщо ми хочемо зробити ці системи терпимими, нам потрібно витратити більше часу на обдумування того, як система повинна реагувати, коли вона не розуміє.

Які деякі характеристики чат-ботів або розмовних інтерфейсів допомагають зрозуміти ситуацію?

GC: Багато найкращих розмовних інтерфейсів та чат-ботів не намагаються зробити занадто багато. Наприклад, коли ви їдете і ви просите смартфон дати дорогу додому, не відбувається багато "розмови" - насправді, чим коротше, тим краще. Але ви отримуєте багато результатів (інструкції з керування автомобілем на годину) за мінімальний вхід ("підведіть мене додому"). А введення зведено до мінімуму, оскільки смартфон використовує багато контекстних даних для заповнення порожніх місць - це передбачає, що ви маєте на увазі вказівки про рух, ви отримуєте своє поточне місцезнаходження за допомогою GPS, а вашу домашню адресу знаходить із налаштувань вашого смартфона.

Я б сказав, що це досить гарні дизайнерські максими: тримати розмову коротким, використовувати контекстні дані, пропонувати максимальний вихід для мінімального введення.

Куди далі йде розмовний дизайн?

GC: Зараз відбувається багато цікавого. Існують голосові асистенти, які розрізняють різних людей у кімнаті, і голосові асистенти, які керують емоційним недоліком розмови, а не лише обміном інформацією.

Існують також інструменти, що полегшують доступ дизайнерів до складних функцій, та інтерфейси, що поєднують голос та візуальні ефекти (так що ви можете бачити, як складається маршрут подорожі під час спілкування з віртуальним турагентом). Це хвилюючий час.

Попередня Стаття