Провідний фахівець з Data Science про вирішення проблеми бізнесу за допомогою «науки про дані», своє навчання в Стенфорді та про те, чому українська система охорони здоров’я майже не відстає від американської.

 

Як дати собі раду з величезними обсягами інформації, які блискавичними темпами збільшуються щохвилини і щосекунди? Як не потонути у ній, а навпаки – отримати користь?

Світ покладає надію на Data Scienсe, а творець першої в Україні групи фахівців, які працюють у цьому напрямі, СЕРГІЙ ШЕЛЬПУК називає «науку про дані» новим способом вирішувати старі проблеми бізнесу.

Сьогодні Сергій – керівник напрямку Data Science в компанії V.I.Tech та студент London School of Economics and Political Science, власник ІТ-сертифікатів CCNA та OCUP. Вчитися він не перестає з семи років: спершу в Київському політехнічному інституті, потім у Національній юридичній академії ім. Ярослава Мудрого в Харкові, і дистанційно – у Stanford University.

Про розвиток Data Scienсe в Україні, та у Львові зокрема, а також про те, як і де навчитися аналізувати великі дані Сергій розповів читачам BIG IDEA.

image

– Сергію, наведи якийсь приклад того, чим займаються фахівці Data Science?

Якщо років 20 тому ви були керівником великої компанії й хотіли збільшити ефективність маркетингу, то, фактично, єдиною вашою опцією тоді було збільшити маркетинговий бюджет.

Сьогодні, з урахуванням того, що навколо є набагато більше даних про ваших потенційних клієнтів, ви можете також використати математичну модель, яка визначатиме імовірність того, що ця конкретна людина зацікавиться вашою пропозицією. З такою моделлю вам вже не потрібно витрачати кошти на контакти з людьми, яким ваш товар чи послуга завідомо не цікаві. Таким чином ви можете збільшити ефективність вашого маркетингу, не збільшуючи його бюджету.

Це один із прикладів. В бізнесі є дуже багато проблем, для яких Data Scienсe може запропонувати рішення.

– Чи можна також використовувати цю науку для вирішення певних проблем міста? Наприклад, у медицині, в поліклініках теж є, напевно, оці великі дані.

Проблеми поліклініки – також є бізнес-проблемами з тієї точки зору, як ми їх розуміємо. Поліклініки – це бізнес, хоча і не в плані того, як заробити гроші. У них теж є певна мета, цілі, проблеми.

Завдання будь-якої організації – як комерційної, так і некомерційної, – можна вирішувати цим новим способом, якщо мати дані.

image

– Компанія V.I.Tech, у якій ти тепер працюєш, теж діє у сфері медицини?

V.I.Tech будує продукт для системи охорони здоров’я США. База даних цього продукту містить в електронному вигляді медичні картки приблизно 30 мільйонів американців. Це 10% населення цієї країни.

Ми знаємо все про ці 10 мільйонів американців: починаючи від того, де і чим вони хворіли в дитинстві, закінчуючи тим, яку таблетку і коли вони прийняли. Можливості для аналітики при такому об’ємі даних дуже великі. Ми робили там багато цікавих речей.

V.I.Tech – це одна з двох компаній, які народилися водночас приблизно вісім років тому: одна на американському, інша – на українському боці. Вони називають себе sister companies. Якийсь час на американській стороні не було інженерів, були тільки маркетологи та продуктові менеджери. Вся інженерна команда перебувала в Україні.

Тобто V.I.Tech в Україні збудував цей продукт самостійно, з нуля. І досі зв’язок цих двох компаній є нерозривним. Всі інженерні рішення досі приймають в Україні, але конкретний продукт будують і продають у США.

– Що є цим готовим продуктом V.I.Tech?

Це продукт зі сфери Population Health Management, який аналізує стан системи охорони здоров’я. Але не на рівні якоїсь однієї людини чи навіть клініки, а на рівні населення штату, наприклад. Наскільки мені відомо, керівник компанії V.I.Tech Віктор Сарапін бере участь у напрацюванні ініціатив спільно з Львівською міською радою, щоб львівську систему охорони здоров’я також якісно трансформувати. Бо насправді, просто копіювати від американців не варто.

     
  Система охорони здоров’я США не є аж такою досконалою. Американці витрачають на неї коштів найбільше в світі, але за ефективністю, вона на 50 місці серед країн світу. 60% американських лікарів досі користуються паперовими медичними картками, так само, як у нас. Ми не надто від них відстали.  
     

Те, що роблять у наших найкращих клініках, нічим не відрізняється від того, що роблять у найкращих клініках США.

– Де ти навчався аналітики даних і з чого порадиш починати особам, які цікавляться цим напрямом?

Конкретно аналізу даних я вчився на програмі Graduate Certificate у Stanford University з фокусуванням на штучний інтелект. Інструменти штучного інтелекту дуже широко використовуються для того, щоб побудувати наші рішення в Data Scienсe.

Навчання було дистанційне, але програма повністю інтегрована в навчання стаціонару. Прослуховують лекцію студенти стаціонару, – і ми отримуємо її у записі через дві години. Одночасно отримуємо домашні завдання і одночасно здаємо їх через два тижні.

Там роблять курсову, і ми теж її робимо. Між нами не робили різниці. Вкінці нас оцінювали також усіх разом. Але оцінка є відносною: виводять середній бал по групі і рахують розподіл. Для того, щоб отримати, наприклад, А, потрібно показати результат кращий, ніж середній студент Стенфорда.

– Штучний інтелект – це про те, як створити роботів?

Робототехніка – лише частина штучного інтелекту. Штучний інтелект – широке поняття. Один з його напрямів – проблема комп’ютерного бачення: зробити так, щоб машина розуміла, що вона бачить, щоб могла впізнавати і називати предмети.

Іншою проблемою, яку розглядає штучний інтелект, є розпізнавання тексту, людської мови та генерація людської мови. Щоб машина могла розпізнавати і генерувати тексти. Є також багато інших напрямів.

     
  Щодо спеціалізованих програм в Україні, на яких би цілеспрямовано навчали аналітики даних, то я не знаю про такі. Хіба що магістерська програма УКУ з напряму Computer Science, яку відкривають наступного року.  
     

Ми сподіваємося, ця програма допоможе спільноті, яка хоче більше дізнатися про напрям аналізу даних. Я буду одним із її викладачів. Мій курс називатиметься «Машинне навчання» (Machine learning). Він зорієнтований на вивчення алгоритмів, які дозволяють машині вчитися самостійно, використовуючи певні дані. Наприклад, ми показуємо машині багато прикладів того, як виглядає написана від руки цифра два. І за якийсь час вона вже сама розуміє, як впізнати у написаному символі двійку. Так машина вчиться розпізнавати рукописні цифри.

Є багато задач з реального світу, які неможливо вирішити методом того, що я називаю if-then-else-логіка. Тобто алгоритмом: «якщо-то-інакше». Наприклад, якщо ви маєте картинки-фотографії песика і котика, то ми, люди, не дуже уявляємо, як, аналізуючи тільки пікселі, можна логікою if-then-else написати систему, яка відрізнятиме котика від песика.

Ефективними способами вирішення таких завдань сьогодні є алгоритми машинного навчання. Аналізуючи велику кількість фото котиків і песиків, машина сама вчиться розрізняти, де є хто. Машинне навчання – це інструментарій, яким аналітик даних користується у 80% випадків.

image

– Де ми можемо наочно побачити те, як машина щось упізнає?

Абсолютно у всіх галузях. Цей принцип діє в аналітичних системах охорони здоров’я так само, як і в розпізнаванні текстів. Ви бачите це розпізнавання щодня: Фейсбук пропонує вам затеґати себе на фотографіях. А останні дослідження в цьому напрямі стосуються платіжної системи, яка замість потреби введення пін-коду, просто розпізнає вас по зробленій фотографії.

На сьогодні машини здатні розпізнавати людину з точністю, яка навіть перевершує людські можливості.

– То виходить освіта в напрямі Data Scienсe дещо відстає в Україні?

Я вважаю, що освіта – це чи не єдина справді стратегічна діяльність держави. Все інше є наслідком освіти.

     
  Часом кажуть, що в Радянському Союзі була дуже хороша освіта. Категорично не погоджуюся. Була непогана технічна освіта, яка не була, все ж, краща за західну. Але, наприклад, економічної чи юридичної освіти не було взагалі. Якщо у 1980-х роках економістів навчали за теорією класової боротьби, то це те саме, що казати, що Земля плоска і стоїть на трьох китах.  
     

Так само, коли в ті роки юристам викладали право з позиції позитивізму, – це ті самі три кити. На мою думку, оця відсутність правової та економічної свідомості призвела до тих негативних наслідків у країні, які ми зараз бачимо.

Тому потрібно застосовувати тільки найкращі практики і найсучасніше бачення. Як це робити? Створювати виші, які не є інтегровані, або дуже мало інтегровані у загальнодержавну систему освіти. Вони мусять мати великий рівень самостійності, щоб можна було експериментувати, робити навчальні програми такими, які вже є у найпрогресивніших вишах світу.

– Але ці одиничні кращі приклади так швидко не перенесуть як зразок на всю систему освіти загалом. Бюрократія…

Але це не конче потрібно. Навіть якщо десь створена одна така навчальна програма, вона формуватиме спільноту, вона змінюватиме свідомість людей. Інформація і репутація спільноти поширюється дуже швидко.

Наприклад, бакалаврська програма комп’ютерних наук в УКУ цього року пережила перший набір. Це перша технічна спеціальність у гуманітарному до цього часу виші. Набрали 45 студентів. Їхній середній бал ЗНО з математики – 193 з 200, медіана – 196 з 200, і те значення ЗНО, яке зустрічається найбільш часто, – 200 з 200. Тобто ці люди могли вибрати будь-який виш, але вибрали саме УКУ.

У цих людей, яких університет познайомив між собою, потім збережуться зв’язки на все життя. Можливо, хтось із них завтра вирішить заснувати свою компанію, і це буде наступним Google. Якщо нема можливості змінювати всю систему, треба змінювати окремі університети.

– Тим більше, що освіта переходить в онлайн і її можна здобувати дистанційно…

Так, це дуже хороший тренд. Є багато безкоштовних і якісних онлайн-курсів, які дозволяють навчатися впродовж життя. Сьогодні в кожній галузі головне, не полишати вчитися. А для технічної галузі, яка розвивається дуже швидкими темпами, таке навчання є критично важливим.

Для тих, хто хоче подивитися, як виглядає аналітика даних і що таке машинне навчання, я завжди раджу для знайомства курс Machine Learning від Andrew Ng на Coursera. Якщо сподобається, то далі людина собі знайде матеріал.

– Але наскільки сьогодні в Україні розвинений напрям Data Scienсe?

Три роки тому, коли ми починали Data Scienсe групу на SoftServe, такого напряму в Україні ще не було. Були окремі люди, які займалися аналітикою даних, але компанії ще не починали будувати на цьому свій бізнес. На щастя, з тих пір багато змінилося і напрям розвивається. Велика кількість аутсорсингових та продуктових компаній в Україні мають групи Data Scienсe. Якщо спершу все було на рівні пошуку людей для закордонних замовників, то сьогодні приємно бачити, що й продуктові українські компанії відкривають цей напрям, починають шукати людей та керівників для нього. Справді, напрям Data Scienсe дуже активно розвивається.

– Якою завеликою має бути компанія, щоб фінансово дозволити собі розвивати напрям Data Scienсe?

Все залежить від того, яка мета цієї компанії. Я знаю компанії на чотири тисячі людей, які мають напрям Data Scienсe, і знаю компанії, де є 10 працівників, і вони тільки тим і займаються, що працюють у напрямі Data Scienсe.

Маленькі компанії, здебільшого, працюють для західних замовників. До них звертаються з певними проблемами, і наші фахівці тут, в Україні, їх вирішують. Це проблеми вузького профілю, дуже спеціалізовані. Зазвичай, група Data Scienсe в компанії не є дуже чисельною. Середньостатистична група Data Scienсe – до 10 осіб.

image

– Сергію, а в тебе є такі ідеї, які поки що втілити неможливо?

Так, багато! Вечорами, коли є вільний час, ми з друзями з України та з-за кордону пробуємо робити такі різні дослідження...

Ще нема чим хвалитися, але ідеї є. Наприклад, застосування машинного навчання до біоінформатики може дати людству можливість швидко і ефективно змінювати геноми. Тобто змінювати компоненти гена не на рівні простого модифікування коду ДНК, а на рівні роботи з якимись абстракціями.

Тут ми зможемо корелювати певні особливості організму, які будуть успадковуватися. Щоб система надалі сама відтворювала той новий уже ланцюжок ДНК, який призводить до того, щоб рослина мала більше листя, наприклад.

– Ви робите це тільки на рівні аналітичних розрахунків?

Ні. В Україні ми працюємо над аналітикою, а в Німеччині є біолог-генетик, який має можливість перевірити наші спроби: побудувати це ДНК і виростити цю рослинку.

Це важко назвати проектом, це хобі, яке ми придумали собі за кавою. Просто захотіли спробувати, що з цього вийде. Імовірність того, що наш результат буде проривом, дуже мала, але нам цікаво працювати над цією темою.

Зрозумілі поради, завдяки яким бізнес зможе вийти на краудфандинг, а значить залучити ресурси, підвищити впізнаваність свого бренду та зростити спроможність команди.

Бути значить робити. Досягати значить ставати. Іти на зустріч невизначеності значить відважно жити. Перемагати значить іти по кроку за раз до мети, не відстаючи в марафоні без відміряної дистанції ні на крок, щоб зрештою випередити ворога на півкорпусу.