Сервис «Орфограммка» позиционирует себя как «грамотную помощницу для работы с текстом». На сайте проекта обещают за несколько секунд не только проверить текст на ошибки и опечатки, но и предложить варианты исправления, объяснив каждую из них. «Орфограммка» была создана в новосибирском Академгородке выпускниками НГУ - математиками и программистами в сотрудничестве с филологами и лингвистами. О том, как устроена «Орфограммка» и как её команда обучает русскому языку нейронные сети, порталу Biz360.ru рассказал коммерческий директор проекта Кирилл Губарь.
Кирилл Губарь, 43 года, коммерческий директор компании «Орфограмматика», развивающей сервис проверки правописания «Орфограммка». Окончил физико-математическую школу имени М. А. Лаврентьева при Новосибирском госуниверситете, а затем механико-математический факультет НГУ. 17 лет работал в корпоративных продажах. В «Орфограмматику» пришёл в 2013 году, когда проект уже был запущен. Женат, воспитывает дочь и сына. Увлекается хоккеем.
Идея сервиса проверки правописания родилась в 2012 году в новосибирской IT-компании «Хитсофт», которая занималась созданием программного обеспечения на заказ и работала в основном с зарубежными рынками. Один из проектов, над которым работали сотрудники, касался проверки правописания английского языка для загружаемых документов разных форматов.
«Когда ребята занимались этим, подумали – а почему бы не сделать что-то подобное и для русского языка. В тот момент на рынке был только один подобный продукт – «Орфо» компании «Информатик». Но и тогда, и сейчас это только программное обеспечение, которое устанавливается на компьютер, а не онлайн-сервис. А используемые для проверки алгоритмы давно не обновлялись, – рассказывает Кирилл Губарь. – Мы же, работая с англоязычной программой, освоили математическое моделирование некоторых процессов проверки правописания, много узнали о синтаксическом анализе, поэтому наш сервис более интеллектуальный».
В начале 2013 года «Орфограммка» появилась на свет, в том числе и как юридическое лицо – её создатели зарегистрировали компанию «Орфограмматика». Первая версия программы была пригодна только для работы с загружаемыми документами. Онлайн-редактор появился чуть позже, но создатели рассчитывали именно с его помощью привлечь большую аудиторию. «Это была основная идея – создать полноценный веб-сервис, который можно использовать в любой точке мира, а также подключать к сторонним проектам», – комментирует Кирилл Губарь.
Изначально создатели «Орфограммки» не задумывали её как коммерческий проект. Они рассчитывали, что смогут с помощью добровольных пожертвований иметь бюджет, достаточный на содержание офиса, аренду серверов, оплату работы программистов и лингвистов, а также на развитие. «Мысль была такая – сервис сделать бесплатным, а поддерживать нас будут те, кто часто им пользуется, кому он нравится, и кто понимает, что содержать и развивать его стоит денег», – вспоминает Кирилл Губарь.
Но идея не сработала. «Мы «играли» в это три года, - говорит Кирилл Губарь. - Сначала пытались воздействовать на совесть тех, кто регулярно пользуется «Орфограммкой». Потом открыто просили денег и даже обзывали «жадиной-говядиной», если люди не откликались – такой статус висел в личном кабинете особенно активных пользователей, тех, кто проверял большие объёмы текста, но упорно отказывался помогать проекту».
Со временем команда поняла, что такой подход бесперспективен, и перевела сервис на платную бизнес-модель. Бесплатной к сегодняшнему дню осталась только ознакомительная подписка, в которой можно опробовать работу сервиса на примере текста небольшого объёма. В остальном «Орфограммка» теперь коммерческий продукт. Однако, до сих пор убыточный.
«Дотационный, – уточняет Кирилл Губарь. – Нам, программистам, важно видеть чёткий план, понимать, где мы находимся и куда идём. Мы посчитали, что на доведение «Орфограммки» до ума нужно около 12 млн. рублей и примерно два года. Это около 6 млн. в год, то есть, грубо говоря, 500-600 тысяч рублей в месяц: аренда офиса, зарплата пяти-шести человек, налоги, инвестиции в развитие. Вкладывать нужно не только в «железо», но и в разработку (она крайне ресурсоёмкая), а также в лингвистические исследования. Пока 500-600 тысяч рублей в месяц мы не зарабатываем. Но у нас есть бизнес-план, и в 2018 году, к июню, рассчитываем перестать быть дотируемым сервисом и выйти на самоокупаемость. Пока же вынуждены заниматься другими проектами, чтобы тратить заработанное на «Орфограммку».
В команде «Орфограммки» - три программиста. Дмитрий Калашников – идейный вдохновитель проекта и главный специалист по компьютерной лингвистике. Именно он всех убедил, что нужно делать сервис проверки правописания для русского языка. Максим Романовский занимается низкоуровневыми алгоритмами и моделями, обучает нейронные сети. Константин Борисов занимается интерфейсами (не только пользовательскими, а больше междупрограммными компонентами) и администрированием.
Кирилл Губарь - коммерческий директор, его задачи – монетизация проектов (не только «Орфограммки», но и корпоративного сервиса проверки правописания «Литера-5»), продажи, маркетинг и продвижение.
Кроме того, проект сотрудничал и сотрудничает с профессиональными филологами и лингвистами. В штате сейчас работает Арина Лукаш, недавняя выпускница гуманитарного факультета с кафедры фундаментальной и прикладной лингвистики НГУ. И ещё одна специалистка сотрудничает с «Орфограммкой» эпизодически.
К сегодняшнему дню у «Орфограммки» конкурентов не прибавилось. «По-прежнему работает «Орфо». На примитивном уровне словарные проверки есть в World, но эта функция никак не развивается. Задача по алгоритмизации русского языка очень и очень сложная, – говорит Кирилл Губарь. – Для обучения нейронных сетей – сейчас мы параллельно обучаем две – пришлось купить дорогое «железо». Наши алгоритмы используют вероятные и статистические методы анализа, а теперь ещё и искусственные нейронные сети. Получается полноценный искусственный интеллект. Обучать его сложно: одна итерация – проверка гипотезы – занимает неделю. Сейчас работы направлены на поиск сложных опечаток – это когда ошибка в слове превращает его в другое слово, которое имеется в словаре системы».
Сильными сторонами проекта его создатели считают проверку паронимии, слитного и раздельного написания, которое в русском языке сильно зависит от контекста, грамматического согласования, омофонов. «Неплохо развита пунктуация, особенно вводные слова – система понимает, когда они таковыми являются, а когда нет, – объясняет Кирилл. - Ничего подобного на серьёзном уровне я у конкурентов не видел. Конечно, «Орфограммка» ещё далека от идеала, но мы ежедневно занимаемся её совершенствованием».
В 2017 году «Орфограммка» получила грант от Фонда содействия инновациям на развитие этой темы. Кирилл Губарь надеется, что в ближайшем будущем удастся выпустить более «умную» версию сервиса. Помимо текущей аналитической модели, будет использоваться специально обученная нейронная сеть. В планах запустить обновление уже в первом квартале 2018 года. Работа близка к завершению, но скорость запуска будет зависеть от того, насколько сотрудники будут загружены другой работой.
«Параллельно мы ведём совместные проекты с кафедрой общего и русского языкознания гуманитарного факультета НГУ, – рассказывает Кирилл Губарь. – В 2017 году выиграли грант на создание онлайн-курса по русскому языку с электронными диктантами. Не секрет, что Новосибирск – родина «Тотального диктанта». Мы дважды на своих алгоритмах организовывали его проверку. Долго мечтали написать софт, который позволит автоматически создавать диктанты, или, по крайней мере, значительно облегчит эту работу. Чтобы можно было подобрать под изучаемые правила необходимый текст, либо надиктовать, а всё остальное сделает сама система – разметит возможные ошибки, подберёт к ним объяснения. В первом приближении мы разработали такую систему, и в феврале 2018 года запустили её в пилотном режиме на базе университета. Все желающие могут проверить себя прямо сейчас на сайте НГУ».
Команда «Орфограммки» планирует совершенствовать сервис не только в вопросах правописания. Например, есть идея, чтобы она проверяла тексты на «водность», «тошноту» (частотные сочетания), богатство речи, анализ её тональности, в чём также надеются на помощь искусственных нейронных сетей.
«Наша глобальная миссия – борьба за сохранение и развитие русского языка, который испытывает колоссальное давление со стороны других, и пока проигрывает – его популярность и распространённость падают, а объём заимствований растёт», – говорит Кирилл Губарь.
В борьбе за сохранение языка «Орфограммка», проверяя текст на «красоту», подчёркивает красным все заимствования и предлагает варианты замены на слово из родного языка. «Это скорее крик души, сам словарик пока небольшой, есть с чем работать и что добавить», – комментирует Кирилл.
Также «Орфограммка» - «сторонница» последовательного использования буквы ё. «Без неё мы забываем правильное произношение имён собственных – фамилий, топонимов, возникает путаница. Но в своих рекомендациях мы не категоричны: даём совет, что возможно видим ошибку. И ваше дело – исправлять её или нет. Мы также постоянно пополняем словарь новыми словами, которые входят в употребление. Ориентируемся в этом вопросе на Институт русского языка имени В.В. Виноградова. Есть и пользовательский словарь – можно внести то, чего нет в словаре, а «Орфограммка» подберёт корректные флексии по числу, падежу и т.п. - и подчеркивать в проверках не будет».
Несмотря на то, что самые частые пользователи сервиса – копирайтеры, его создатели ориентируются на самую разную аудиторию и специально её никак не сегментируют. «Девиз такой – «Орфограммка» нужна всем. «Сейчас мы активно продвигаемся в литературную среду, у нас есть кружок для писателей, и для них мы предоставляем сервис бесплатно. Заработок в этой сфере небольшой, часто это голый энтузиазм, поэтому мы хотим поддерживать авторов художественных произведений. Также мы общались со всеми сервисами электронных журналов и дневников, которые есть у нас в стране, но пока получилось договориться только с платформой «Дневник.ру»: учителя могут работать в «Орфограммке» бесплатно, а школьники – со скидкой 50%. Хотели подобным образом сотрудничать с платформой UNiDAYS для студентов, но она, к сожалению, в России больше не работает».
В месяц на «Орфограммке» бывают до 223 тысяч уникальных посетителей. В личном кабинете в 2017 году работали 1 млн. 100 тысяч человек. К сервису обращаются жители разных стран, но больше всего пользователей из России. На втором месте Украина, на третьем – Беларусь.
Кирилл Губарь признаётся, что после того, как «Орфограммка» стала платной, количество новых регистраций резко упало – почти вдвое. Но по объёмам проверок ничего не изменилось, отсеялись только те, кто не хотел платить ни в каком виде. Сейчас аудитория сервиса стабильно растет на 10% в месяц.
Что касается корпоративного «клона» «Орфограммки» – «Литеры-5», то там ничего не поменялось, продукт изначально был платным, и линейный рост подписчиков не останавливался. Сейчас системой пользуются около 120 корпоративных клиентов. Среди них есть биржи копирайтинга, которые встроили «Литеру» в свою «среду» и проверяют правописание, прежде чем выставить тексты на продажу. А есть и средства массовой информации, в том числе крупные федеральные.
У программ общий алгоритмический «движок», но разные интерфейсы и возможности. «Литера» богаче «Орфограммки» – её отчеты полнее, многопользовательский словарь мощнее, она «умнее» в вопросах подбора словоформ.
Средний уровень грамотности посетителей «Орфограммки» – это, по словам Кирилла Губаря, «грусть и печаль»: «Он очень низкий. И я бы не сказал, что он растёт. Чаще всего люди ошибаются в раздельном и слитном написании, лепят куда попало дефисы, ставят запятые, основываясь на собственных представлениях об интонации, употребляют устойчивые сочетания «от балды», неверно согласовывают и т.д.».
Но у постоянных пользователей, которые работают с сервисом регулярно, плотность ошибок меньше и постепенно снижается. «Я учился в советской школе, по русскому языку имел слабую четвёрку и считал себя безграмотным человеком. Но на фоне современных «писателей» я могу служить образцом грамотности. Сейчас, когда у меня произошло профессиональное искажение психики, ошибок я стал допускать ещё меньше, – говорит Кирилл Губарь. – У нас пока нет никаких бонусов за грамотность для пользователей, но идея периодически возникает, и, может быть, мы её когда-нибудь осуществим».
Язык до бизнеса доведёт: как устроено агентство переводов.
Нейросети ищут заказы: как заработать на поиске лидов для малого бизнеса.
Реальная автоматизация: что это такое и зачем она нужна малому бизнесу.