PostgresML: Машинное обучение на базе данных для PostgreSQL платформа с открытым исходным кодом, которая приносит сквозные возможности ML и AI непосредственно в рабочий процесс на основе PostgreSQL. Он объединяет векторные базы данных, встраивания, LLM, поиск RAG и контролируемые задачи обучения, позволяя индексировать, фильтровать и ранжировать векторы, генерировать встраивания, обучать и настраивать модели и развертывать их в хранилище данных. Решение подчеркивает производительность, конфиденциальность данных и простоту работы путем объединения обработки данных, встраивания и модели, обслуживающей в единой среде. Он предоставляет несколько вариантов развертывания (включая облачный, VPC и on-prem) и поддерживает широкий спектр моделей и библиотек, все из которых доступны через SQL или SDK в Python / JS.
Как это работает
- Индекс, фильтр и ранг векторов. Создание и встраивание векторов запросов с быстрым поиском KNN/ANN с использованием индексов HNSW или IVFFlat.
- Генерировать встраивания. Используйте современные модели для преобразования текста и других данных в векторные представления.
- Сопоставьте данные и вычислите. Запустите встраивание, обслуживание и хранение в одном процессе для терабайтов данных на одной машине.
- Поезд и развертывание моделей. Поезд, тонкая настройка и развертывание регрессии, классификации, кластеризации и LLM на ваших данных.
- Конфиденциальность и безопасность. Встроенный контроль конфиденциальности данных; ваши данные могут оставаться в доверенной среде.
Основные случаи использования
- Поиск векторов и RAG для интеллектуального поиска
- Встраивание в базу данных генерации и управления
- Обучение, оценка и развертывание моделей в базе данных
- Решения Chatbot и QA с выводами в реальном времени
- Сквозные рабочие процессы ML, не покидая PostgreSQL
Начало работы
- Выберите вариант развертывания (облако, VPC или On-Prem) и подключитесь к базе данных, совместимой с PostgreSQL.
- Установите расширение PostgresML и дополнительный Korvus SDK для более простых рабочих процессов RAG.
- Выберите модели для встраивания и LLM, настройте препроцессоры данных и начните строить трубопроводы внутри SQL/Python/JS.
Безопасность и соблюдение
- Обработка в базе данных помогает минимизировать движение и воздействие данных. Всегда настраивайте элементы управления доступом и аудита в среде развертывания.
Основные характеристики
- База данных ML/AI: обучение, тонкая настройка и развертывание моделей непосредственно внутри PostgreSQL
- Интеграция с векторной базой данных: индекс, фильтр и повторный ранг встраивания с быстрым KNN/ANN (HNSW/IVFFlat)
- Генерация встраивания: преобразование текста/данных в векторные представления с использованием современных моделей
- Сквозные рабочие процессы RAG: поддержка генерации с расширением поиска
- Конфиденциальность в базе данных: данные остаются в среде базы данных
- Несколько вариантов развертывания: облачные, VPC и локальные настройки
- Совместимость SQL/SDK: используйте SQL, Python и JavaScript для создания ML-проводников
- Широкая поддержка моделей и библиотек: LLM, встраивания и ML фреймворки
- Обучение и оценка в базе данных: регрессия, классификация, кластеризация и многое другое
- Развертывание в режиме реального времени: обслуживайте модели с низкой задержкой внутри PostgreSQL