- 13 мин
- 2585
О вебинаре
Как правильно проектировать информационные системы? Почему важна декомпозиция данных? Что нужно учитывать? Как не допустить ошибок?
Где посмотреть вебинар
Подписывайтесь на канал Telegram Михаила Шакина (анонсы SEO вебинаров и презентации).
Для тех, у кого нет времени смотреть вебинар, подготовили сжатую и полезную выжимку всего, о чём говорил Вячеслав Крампец.
Мир — это данные
В самой природе все систематизировано. Вот люди и пытаются построить систему, согласно тому, что видят и ощущают.
Начало обработки, систематизации, раскладывания по полочкам хорошо описывает поэт Булат Окуджава: «Каждый слышит как он дышит». Люди опираются на собственное мироощущение. У всякого дыхания есть ритм, периодичность. Периодичность — это одна из характеристик данных в какую-либо структуру.
Также в организации данных нужно понимать, с каким количеством мы работаем. Так как человек не может сразу уследить за пятьюдесятью или за сотней параметров, появляется иерархия, распределение обязанностей.
Иерархия — это организация данных по одной оси (государственное управление, родовая система от старшего к младшему). Все, кто занимается поиском, наверняка знакомы с SILO. Это одномерная иерархическая модель данных.
В таблице же Менделеева мы уже видим матрицу. Здесь периодичность элементов устроена по двум осям. Стоит отметить, что вне зависимости от оси, свойства всех элементов коррелируют между собой.
С появлением компьютеров у человека появилась возможность поглощать не только физические, но и виртуальные данные. Главная особенность в том, что их можно легко перенести. CTRL + V — и вот тебе точная копия.
Поэтому с появлением Интернета начала развиваться энтропия. Данных стало так много, в них уже невозможно полностью разобраться. Сайты почкуются миллионами, вокруг множество дезинформации.
Искусственный интеллект — последняя точка развития, который помогает систематизировать информацию.
Итог: оцифровка необратима. Все физические данные рано или поздно уйдут в цифру.
Текущее состояние данных
Что мы сейчас имеем с точки зрения данных и их готовности к тому, чтобы скармливать умному алгоритму, который улучшит человеку жизнь и продвинет его дальше в развитии? Почему реальных результатов мы пока не видим?
- «Грязные» данные
Из-за них в медицине достаточно много неудачных опытов.
Самый громкий эксперимент носит название "Watson". Это программа искусственного интеллекта, разработанная IBM, в которую вложена была огромная куча денег и которой скармливалось большое количество данных. Она использовалась в медицине. Искусственный интеллект ставил человеку диагноз по определённым симптомам. Эксперимент не удался. Причина была в недостаточно «чистых» данных. То, что для человека с его развитым интуитивным аппаратом и опытом будет легко (врач может просто посмотреть на пациента и по опыту, интуиции догадаться, какой может быть приблизительный диагноз; например, мне врач как-то поставил диагноз по цвету кончика языка), для компьютера окажется недостаточно понятно.
Или, например, пытались проводить при помощи компьютера сбор данных по флюорографии.
Выяснилось, что неверные показатели были из-за того, что алгоритм прикреплялся не к той информации, которая отображала саму флюорографию, а к меткам. Поскольку каждый аппарат продан в конкретную клинику, то он оставляет свою метку: это клиника такая-то. А поскольку клиники находились в разных районах города и их посещали самые разные люди, распределение легочных болезней было разное. Компьютер вывел связь не между фото и наличием болезни, а между надписью названия клиники и болезнью.
- Недостаток опыта
Сейчас мало хороших дата-сайентистов, к тому же, их услуги стоят дорого. Да и большая часть процесса строится на экспериментах. Пока что реальные успехи возможны лишь на очень маленьких, закрытых наборах данных (например, Google Карты распознают цветы с хорошо сделанных фотографий). Пройдут годы, пока появятся школы, которые будут взращивать таких специалистов.
- Несовершенство технологий
Опять пункт связан со скоростью прогресса. Технологии несовершенны (для людей это по-сути «черный ящик»), постоянно меняются, зачастую через два месяца выходит очередной новый алгоритм, который на голову опережает то, что стандартным казалось еще два месяца назад.
- Авторское право
Авторское право сейчас устарело. Его нужно пересматривать, потому что оно сильно препятствует разработке. К примеру, создал я определённый датасет, и всё, ограничен набор использования.
Как только начинаешь копать какую-то область, лезть куда-то поглубже, натыкаешься на то, что всё, что хорошее, важное закрыто из-за авторского права. Нужна лицензия на использование.
К этому же моменту хочу отнести ещё так называемую неозвученную проблему open source. Поскольку всё защищено авторским правом, то в коммерческом продукте невозможно использовать ту или иную наработку open source без нарушения закона.
- Лень, саботаж, алчность
Лень — часто люди делают работу как попало, и данные становятся грязными, неупотребимыми. Потом приходится работу переделывать.
Саботаж — SEO. Генерация контента в интернет просто для того, чтобы выполнить коммерческую задачу, саботирует основную цель интернета (если считать его источником знаний).
Алчность — задвигание каких-то открытий, пока ты можешь зарабатывать на старом.
- Этические ограничения
Рассмотрим две разных позиции, которые сейчас в мире существуют. Западная и китайская.
Китайцы приняли решение, что все данные принадлежат государству. Скорее всего, там будут прорывы получения конкретных, чистых данных, просто потому что ни у кого нет права в ограничении. Государство ты никак не ограничишь от того, что оно может твоими данными пользоваться.
В западной же системе множество ограничений накладывается на работу с данными из-за того, что работа с ними должна учитывать мнение того, о ком эти данные.
Вектора развития будущего
- Прокаченная разметка наборов данных: появится большая отрасль, будут отдельные профессии, вклад больших средств для разметки.
Будут совершенствоваться микроформаты. Пока наиболее хорошо они развиты там, где очень высокая конкуренция (нужно готовить данные соответствующим образом). То есть, если мы продаем велосипед, то залить на страницу текст кирпичом не получится. Придётся раскладывать все поля, каждое — в соответствующую ячейку. В базе они точно также будут храниться.
Да, это накладно и трудоёмко, но выбора нет. Все поставщики данных, которые будут участвовать в процессе производства информации, так или иначе должны будут эти данные размечать.
Сейчас каждая фотография, снятая на телефон, уже имеет гео-отметки, привязывает персональные данные, и подобного будет всё больше.
Появится очень много разных наборов данных, нужно будет их знать, а также специалисты, которые будут разбираться с тем, как данные правильно категоризировать, куда отнести и т.п.
Бюджет по разметке данных с 1,7 миллиона долларов (2019 год) вырастет почти в 2 раза (до 4,1 миллиона) к 2024.
- Абсолютная формализация — разработка общепринятых стандартов.
Со временем микроформаты выйдут за пределы SEO.
Например, сейчас у вас есть умные весы. У сяоми один стандарт, у других производителей другой. Рано или поздно, как и в электронной коммерции, все сведётся к одному.
- Новые форматы обмена и синхронизации данных.
Куча энергии тратится просто на то, чтобы информация из одного места попала в другое. Банальный пример: робот идёт по протоколу http через браузер, получает данные, парсит их, распознаёт. Хорошо, если есть там семантическая разметка. А если её нет? Если кто-то умный скопипастил всё из ворда? Какая же там глобальная чистка начинается.
- Скорее всего, выстроятся протоколы обмена данными не в рамках текущей парадигмы веба. Не будет такого, что робот начнёт ходить, как человек. Все наверняка знают yandex turbo-страницы и amp-страницы, когда поисковики предлагают вам более упрощённый язык.
- Протоколы обмена будут бинарными, не станут содержать лишнего мусора (начнут передаваться только те данные, которые нужны) и уйдёт вся эта безумная энтропия.
- Выработается протокол взаимодействия, вроде центра агрегации данных. Поставщики данных должны будут просто сообщать о том, как это происходит в любой нормальной базе, любой написанной платформе, где существуют базы данных.
Если данные изменились, они с минимальными усилиями и минимальной верификацией попадут в место, где должны храниться. Если они хранятся в разных местах, то просто передаются между собой с минимальными затратами.
- Распределённое хранение данных.
Оно уже возникает. Мы все знаем, что такое cdn и как она работает. Сейчас используется для разгона технички, но одно из основных предназначений распределенного хранения данных — гарантия безопасности. Данные не будут пропадать.
Рано или поздно понятие «файл» из нашей жизни уйдёт. Останется понятие «объект», «документ», «информационный атом», но «файл» в привычном его понимании останется в прошлом.
Каким-то образом эта система должна измениться, унифицироваться. Маловероятно, что кто-то на уровне потребителей будет понимать, где что хранится. Появится глобальная сеть хранения.
- Новая концепция авторства — владение данными, чёткий контроль доступности, доступная стоимость.
Будет другая модель. Люди уже пытаются выстраивать какие-то. Если просто платить автору напрямую, то, возможно, ему и не нужно будет столько денег, сколько контент стоит сейчас.
Обязательно
- Отделяйте данные от отображения. Важно разделять информацию, понимать, что есть данные, а что — характеристика её отображения. Оригиналы нужно тщательно беречь (те же оригиналы картинок). Мы в своей практике смотрим на маркдаун как на альтернативный формат исходного хранения текста. Если есть возможность редактировать данные, то лучше это сделать, чтобы потом не переделывать заново. Такие инвестиции точно лишними не будут.
-
Формализуйте, что можно. Накидайте в html таблицу, сохраните данные в табличном виде, а базу потом выгрузите отдельно. Смотрите. Думайте. Формализуйте. Там, где пока нет микростандартов (к примеру, в таких агрегаторах, как Озон или Я.Маркет), всё потом появится. Мир движется в сторону формализации.
Используйте базы данных. Продвинутый Excel. Старайтесь использовать их по-максимуму. Они не дают вам превращать тексты в свалку и мусорить, позволяют формализовать данные. - Внедряйте микроформаты. Большинство текущих микроформатов проходит через долгую цепочку утверждений, но ими нужно пользоваться. Для поисковика и вашего сайта это максимально удобный язык общения.
- Владейте данными. Не будет вечных аккаунтов, бесконечной халявы. Шведские столы и безлимитные диски — инвестиционные пузыри, которые причинят вам ущерб. Данные стали новой цифровой валютой. Старайтесь владеть первичными данными самостоятельно. Если пользуетесь какими-то облачными сервисами для хранения, не кладите туда данные в чистом виде, старайтесь их шифровать.
- Следите за тенденциями. Следите за протоколами обмена (GPT-3), за блокчейнами. В большинстве таких систем будет важно первенство.
Рекомендации
- Инвестируйте в проектирование информационных систем. Большинство систем были спроектированы плохо. Если делаете что-то своё, лучше заплатите аналитику, чтобы система дольше прожила. Нормально спроектированная система без сложных изменений (только с маленькими) существует на рынке порядка 3-5 лет.
- Headless системы управления контентом. Очень перспективная система развития. Сконцентрированная реализация отделения данных от изображения. Данные будут здесь, процессы обработки отдельно, а отображение можно делать, как угодно. Чаще всего, такая система применяется в больших новостных агентствах и работает в приложениях с несколькими платформами отображениями (сайт/CRM и мобильное приложение).
Инструментарий
- Концептуальное проектирование: текст, Excel, Mindmap, базы знаний.
- Модель данных: текст, excel, веб-сервисы. В специальных программах (MySQL, Microsoft Access, Notion) можно начать потихоньку пользоваться базами данных, раскидывать поля.
- Навигация: Excel, Mindmap.
- Проектирование интерфейсов: Figma, Framer.
- Прототипирование: Figma, HTML + BootStrap/TileWind, HTML + WindyCSS. Хорошо прорабатывать сложные моменты взаимодействия пользователя (корзины, лайтбоксы, всплывашки). Только не нужно весь сайт загонять под один инструмент. Просто отслеживайте мелкие процессы и поправляйте.
Сервисы с максимальной конфиденциальностью
- Obsidian. Хранит данные на локальном диске в MarkDown, бесплатен для Personal. Расширения легко парсятся, куча библиотек. Данные не станут обузой, когда потребуется их перегонять. Единственный минус: всё хранится в просто в файлах.
- Joplin. Бесплатно, десктоп + мобильное. Хранит в локальной БД, экспорт. Здесь пошли чуть дальше: более глубокий формат внутреннего хранения документов. Атомы информации уже распределены. И уже из них ты потом получаешь HTML, MarkDown и всё, что угодно. Плюс, к нему есть множество плагинов, синхронизация, автоматические бэкапы и т.д.
Облачные сервисы
- Notion.so. Классика жанра. Всем, кто пользуется Google Документами, переходить сюда. Сервис не хуже, а по обращению с данными даже лучше. Работают с ними, как с блоками. Если у тебя данные представлены как текст, то они его так и определяют (нет вперемешку картинок, текста и т.д.).
- Coda. Всё в одном документе. Интересный инструмент с точки зрения групповой работы и возможности масштабирования. Позволяет делать большой документ для одного проекта. Можешь приблизить его в конкретную точку или смотреть в полностью.
- Fibery. Мощный продукт, но сложно начать пользоваться. Самое слабое звено любой базы знаний — перекрёстные ссылки. Нигде эта проблема не была отлично проработана, как здесь.
Headless Content Management (Система управления контентом)
- Sanity. В облаке и локально, OpenSource.
- Contentful. Первая, облачная. Очень дорого. Появилась бесплатная версия с ограничениями.
- Front Matter. Работает в VS Code. Сайты генерируются в Gatsby/Hugo/Jekyll etc.
- Apostrophe CMS. OpenSource. Рекомендуют поднимать на своём сервере.
- JamStack. Авторы Apostrophe. Список и рейтинг Headless CMS.
Ответы на вопросы
Нужно смотреть на любую информационную систему с точки зрения её развития. Есть такая поговорка: «Самое статичное в нашей жизни — изменение». Смотрим, как система будет меняться во времени. Стараемся получить быстрый прототип, опробовать, представить, кто будет им пользоваться.
Если прототип сделать сложно, то анализируем набор user store (когда конкретный исполнитель описывает процесс, как будет происходить работа с данными). Он определяет требования к тому, как информационная система должна взаимодействовать с информацией.
Проводим аналитику и вычисляем, есть ли в системе какие-то проблемы. Если нет, то и улучшать нет смысла. Если же есть, то всё зависит от цели этой информационной системы.
- Если мы рассматриваем какую-то коммерческую, которая взаимодействует с пользователями, то нужно улучшать те факторы, которые приносят им пользу.
- Если система нацелена, в первую очередь, на взаимодействие с поисковиками, то, конечно, нужно обращать внимание на факторы, связанные с ранжированием.
Сначала проанализировать цели. Зачем вы потратите время, деньги, ресурсы на создание. Далее существуют разные стратегии. Никак нельзя сравнить стратегию проектирования новостного сайта Ленты.ру и персонального блога.
Следует использовать принцип Парето. У программистов есть схожая методология, которая называется «Аджайл». Её суть: получить результат меньшими усилиями.
Подводя итоги
- Взвешивайте;
- Категоризируйте;
- Анализируйте конкурентов, понимайте тренды;
- Реализуйте то, что принесёт результат.
Важные и проверенные ссылки к статье
Документ PDF, 83.52 Кб
Читайте другие интересные материалы: