Implement user-specific question numbering and update database schema. Added triggers for automatic question numbering and adjustments upon deletion. Enhanced CRUD operations to manage user_question_number effectively.

2025-09-06 18:35:12 +03:00
parent 50be010026
commit 596a2fa813
111 changed files with 16847 additions and 65 deletions
--- a/services/validation/input_validator.py
+++ b/services/validation/input_validator.py
@@ -0,0 +1,359 @@
+"""
+Централизованный валидатор входных данных для AnonBot
+"""
+import re
+import html
+from typing import Optional, Tuple, List
+from dataclasses import dataclass
+
+from services.infrastructure.logger import get_logger
+from config.constants import MIN_QUESTION_LENGTH, MIN_ANSWER_LENGTH
+
+logger = get_logger(__name__)
+
+
+@dataclass
+class ValidationResult:
+    """Результат валидации"""
+    is_valid: bool
+    error_message: str = ""
+    sanitized_value: Optional[str] = None
+    
+    def __bool__(self) -> bool:
+        return self.is_valid
+
+
+class InputValidator:
+    """Централизованный валидатор входных данных"""
+    
+    # Константы для валидации
+    MIN_TELEGRAM_ID = 1
+    MAX_TELEGRAM_ID = 2**63 - 1
+    MIN_USERNAME_LENGTH = 1
+    MAX_USERNAME_LENGTH = 32
+    MAX_CALLBACK_DATA_LENGTH = 64
+    MAX_TEXT_LENGTH = 4000  # Telegram limit
+    MAX_HTML_ENTITIES = 100  # Защита от HTML-спама
+    
+    # Регулярные выражения
+    USERNAME_PATTERN = re.compile(r'^[a-zA-Z0-9_]{1,32}$')
+    DEEP_LINK_PATTERN = re.compile(r'^[a-zA-Z0-9_-]{1,64}$')
+    CALLBACK_DATA_PATTERN = re.compile(r'^[a-zA-Z0-9_:-]{1,64}$')
+    
+    # Опасные HTML теги и атрибуты
+    DANGEROUS_TAGS = {'script', 'iframe', 'object', 'embed', 'form', 'input', 'button'}
+    DANGEROUS_ATTRIBUTES = {'onclick', 'onload', 'onerror', 'onmouseover', 'href', 'src'}
+    
+    def __init__(self):
+        logger.info("🔍 InputValidator инициализирован")
+    
+    def validate_telegram_id(self, user_id: int) -> ValidationResult:
+        """
+        Валидация Telegram ID пользователя
+        
+        Args:
+            user_id: ID пользователя Telegram
+            
+        Returns:
+            ValidationResult с результатом валидации
+        """
+        try:
+            if not isinstance(user_id, int):
+                return ValidationResult(
+                    False, 
+                    f"Telegram ID должен быть числом, получен: {type(user_id).__name__}"
+                )
+            
+            if user_id < self.MIN_TELEGRAM_ID:
+                return ValidationResult(
+                    False, 
+                    f"Telegram ID должен быть больше {self.MIN_TELEGRAM_ID}"
+                )
+            
+            if user_id > self.MAX_TELEGRAM_ID:
+                return ValidationResult(
+                    False, 
+                    f"Telegram ID должен быть меньше {self.MAX_TELEGRAM_ID}"
+                )
+            
+            logger.debug(f"✅ Telegram ID {user_id} прошел валидацию")
+            return ValidationResult(True, sanitized_value=str(user_id))
+            
+        except Exception as e:
+            logger.error(f"❌ Ошибка валидации Telegram ID {user_id}: {e}")
+            return ValidationResult(False, f"Ошибка валидации Telegram ID: {str(e)}")
+    
+    def validate_username(self, username: str) -> ValidationResult:
+        """
+        Валидация username пользователя
+        
+        Args:
+            username: Username пользователя (без @)
+            
+        Returns:
+            ValidationResult с результатом валидации
+        """
+        try:
+            if not username:
+                return ValidationResult(True, sanitized_value="")  # Username может быть пустым
+            
+            # Убираем @ если есть
+            username = username.lstrip('@')
+            
+            if len(username) < self.MIN_USERNAME_LENGTH:
+                return ValidationResult(
+                    False, 
+                    f"Username должен содержать минимум {self.MIN_USERNAME_LENGTH} символ"
+                )
+            
+            if len(username) > self.MAX_USERNAME_LENGTH:
+                return ValidationResult(
+                    False, 
+                    f"Username не должен превышать {self.MAX_USERNAME_LENGTH} символов"
+                )
+            
+            if not self.USERNAME_PATTERN.match(username):
+                return ValidationResult(
+                    False, 
+                    "Username может содержать только латинские буквы, цифры и подчеркивания"
+                )
+            
+            logger.debug(f"✅ Username '{username}' прошел валидацию")
+            return ValidationResult(True, sanitized_value=username)
+            
+        except Exception as e:
+            logger.error(f"❌ Ошибка валидации username '{username}': {e}")
+            return ValidationResult(False, f"Ошибка валидации username: {str(e)}")
+    
+    def validate_text_content(
+        self, 
+        text: str, 
+        min_length: int = 1, 
+        max_length: int = MAX_TEXT_LENGTH,
+        content_type: str = "текст"
+    ) -> ValidationResult:
+        """
+        Валидация текстового контента
+        
+        Args:
+            text: Текст для валидации
+            min_length: Минимальная длина
+            max_length: Максимальная длина
+            content_type: Тип контента для сообщений об ошибках
+            
+        Returns:
+            ValidationResult с результатом валидации
+        """
+        try:
+            if not text:
+                return ValidationResult(
+                    False, 
+                    f"{content_type.capitalize()} не может быть пустым"
+                )
+            
+            # Проверяем длину до санитизации
+            if len(text) > max_length:
+                return ValidationResult(
+                    False, 
+                    f"{content_type.capitalize()} слишком длинный (максимум {max_length} символов)"
+                )
+            
+            # Санитизируем HTML
+            sanitized_text = self.sanitize_html(text)
+            
+            # Проверяем длину после санитизации
+            if len(sanitized_text.strip()) < min_length:
+                return ValidationResult(
+                    False, 
+                    f"{content_type.capitalize()} должен содержать минимум {min_length} символов"
+                )
+            
+            # Проверяем на спам (повторяющиеся символы)
+            if self._is_spam_text(sanitized_text):
+                return ValidationResult(
+                    False, 
+                    f"{content_type.capitalize()} содержит слишком много повторяющихся символов"
+                )
+            
+            logger.debug(f"✅ {content_type} прошел валидацию (длина: {len(sanitized_text)})")
+            return ValidationResult(True, sanitized_value=sanitized_text)
+            
+        except Exception as e:
+            logger.error(f"❌ Ошибка валидации {content_type}: {e}")
+            return ValidationResult(False, f"Ошибка валидации {content_type}: {str(e)}")
+    
+    def validate_question_text(self, text: str, max_length: int = 1000) -> ValidationResult:
+        """
+        Валидация текста вопроса
+        
+        Args:
+            text: Текст вопроса
+            max_length: Максимальная длина вопроса
+            
+        Returns:
+            ValidationResult с результатом валидации
+        """
+        return self.validate_text_content(
+            text, 
+            min_length=MIN_QUESTION_LENGTH, 
+            max_length=max_length,
+            content_type="вопрос"
+        )
+    
+    def validate_answer_text(self, text: str, max_length: int = 2000) -> ValidationResult:
+        """
+        Валидация текста ответа
+        
+        Args:
+            text: Текст ответа
+            max_length: Максимальная длина ответа
+            
+        Returns:
+            ValidationResult с результатом валидации
+        """
+        return self.validate_text_content(
+            text, 
+            min_length=MIN_ANSWER_LENGTH, 
+            max_length=max_length,
+            content_type="ответ"
+        )
+    
+    def validate_callback_data(self, data: str) -> ValidationResult:
+        """
+        Валидация callback data
+        
+        Args:
+            data: Callback data для валидации
+            
+        Returns:
+            ValidationResult с результатом валидации
+        """
+        try:
+            if not data:
+                return ValidationResult(False, "Callback data не может быть пустым")
+            
+            if len(data) > self.MAX_CALLBACK_DATA_LENGTH:
+                return ValidationResult(
+                    False, 
+                    f"Callback data не должен превышать {self.MAX_CALLBACK_DATA_LENGTH} символов"
+                )
+            
+            if not self.CALLBACK_DATA_PATTERN.match(data):
+                return ValidationResult(
+                    False, 
+                    "Callback data содержит недопустимые символы"
+                )
+            
+            logger.debug(f"✅ Callback data '{data}' прошел валидацию")
+            return ValidationResult(True, sanitized_value=data)
+            
+        except Exception as e:
+            logger.error(f"❌ Ошибка валидации callback data '{data}': {e}")
+            return ValidationResult(False, f"Ошибка валидации callback data: {str(e)}")
+    
+    def validate_deep_link(self, link: str) -> ValidationResult:
+        """
+        Валидация deep link
+        
+        Args:
+            link: Deep link для валидации
+            
+        Returns:
+            ValidationResult с результатом валидации
+        """
+        try:
+            if not link:
+                return ValidationResult(False, "Deep link не может быть пустым")
+            
+            if len(link) > 64:  # Telegram deep link limit
+                return ValidationResult(
+                    False, 
+                    "Deep link не должен превышать 64 символа"
+                )
+            
+            if not self.DEEP_LINK_PATTERN.match(link):
+                return ValidationResult(
+                    False, 
+                    "Deep link содержит недопустимые символы"
+                )
+            
+            logger.debug(f"✅ Deep link '{link}' прошел валидацию")
+            return ValidationResult(True, sanitized_value=link)
+            
+        except Exception as e:
+            logger.error(f"❌ Ошибка валидации deep link '{link}': {e}")
+            return ValidationResult(False, f"Ошибка валидации deep link: {str(e)}")
+    
+    
+    def sanitize_html(self, text: str) -> str:
+        """
+        Санитизация HTML в тексте
+        
+        Args:
+            text: Текст для санитизации
+            
+        Returns:
+            Санитизированный текст
+        """
+        try:
+            if not text:
+                return ""
+            
+            # Экранируем HTML сущности
+            sanitized = html.escape(text, quote=True)
+            
+            # Проверяем количество HTML сущностей (защита от спама)
+            html_entities_count = len(re.findall(r'&[a-zA-Z0-9#]+;', sanitized))
+            if html_entities_count > self.MAX_HTML_ENTITIES:
+                logger.warning(f"⚠️ Обнаружено много HTML сущностей в тексте: {html_entities_count}")
+                # Убираем лишние HTML сущности
+                sanitized = re.sub(r'&[a-zA-Z0-9#]+;', '', sanitized)
+            
+            return sanitized.strip()
+            
+        except Exception as e:
+            logger.error(f"❌ Ошибка санитизации HTML: {e}")
+            return text.strip()  # Возвращаем исходный текст в случае ошибки
+    
+    def _is_spam_text(self, text: str) -> bool:
+        """
+        Проверка текста на спам (повторяющиеся символы)
+        
+        Args:
+            text: Текст для проверки
+            
+        Returns:
+            True если текст похож на спам
+        """
+        try:
+            if len(text) < 10:
+                return False
+            
+            # Проверяем повторяющиеся символы
+            char_counts = {}
+            for char in text:
+                char_counts[char] = char_counts.get(char, 0) + 1
+            
+            # Если какой-то символ повторяется более 50% от длины текста
+            max_count = max(char_counts.values())
+            if max_count > len(text) * 0.5:
+                return True
+            
+            # Проверяем повторяющиеся слова
+            words = text.split()
+            if len(words) > 3:
+                word_counts = {}
+                for word in words:
+                    word_counts[word] = word_counts.get(word, 0) + 1
+                
+                max_word_count = max(word_counts.values())
+                if max_word_count > len(words) * 0.6:
+                    return True
+            
+            return False
+            
+        except Exception as e:
+            logger.error(f"❌ Ошибка проверки на спам: {e}")
+            return False
+
+