image_management_api/simple_search_test.py

#!/usr/bin/env python3
"""
Simple test script to embed text and search Qdrant without filters
"""

import os
import sys
import asyncio
import logging
from dotenv import load_dotenv

# Load environment variables
load_dotenv()

# Set up logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

async def simple_search_test():
    """Simple test: embed text and search without filters"""

    try:
        # Import services
        from src.services.vector_db import VectorDatabaseService
        from src.services.embedding_service import EmbeddingService

        # Initialize services
        logger.info("Initializing services...")
        vector_db = VectorDatabaseService()
        embedding_service = EmbeddingService()

        # Test 1: Generate text embedding
        logger.info("=== Generating Text Embedding ===")
        search_query = "blank"
        text_embedding = await embedding_service.generate_text_embedding(search_query)

        if text_embedding:
            logger.info(f"✓ Generated embedding for '{search_query}' - length: {len(text_embedding)}")
        else:
            logger.error("✗ Failed to generate text embedding")
            return False

        # Test 2: Search without any filters
        logger.info("=== Searching Qdrant (No Filters) ===")

        # Try different thresholds to see what we get
        thresholds = [0.1, 0.3, 0.5, 0.65, 0.8]

        for threshold in thresholds:
            logger.info(f"\n--- Threshold: {threshold} ---")

            search_results = vector_db.search_similar_images(
                query_vector=text_embedding,
                limit=10,
                score_threshold=threshold
                # No filter_conditions = search everything
            )

            logger.info(f"Found {len(search_results)} results")

            # Show top 3 results
            for i, result in enumerate(search_results[:3]):
                logger.info(f"  {i+1}. Score: {result['score']:.4f} | ID: {result['image_id']} | File: {result['metadata'].get('filename', 'N/A')}")

        # Test 3: Very low threshold to see all data
        logger.info("\n=== All Data (Threshold 0.0) ===")
        all_results = vector_db.search_similar_images(
            query_vector=text_embedding,
            limit=50,
            score_threshold=0.0  # Get everything
        )

        logger.info(f"Total vectors in collection: {len(all_results)}")

        # Show some stats
        if all_results:
            scores = [r['score'] for r in all_results]
            logger.info(f"Score range: {min(scores):.4f} to {max(scores):.4f}")
            logger.info(f"Average score: {sum(scores)/len(scores):.4f}")

            # Show top 5 and bottom 5
            logger.info("\nTop 5 results:")
            for i, result in enumerate(all_results[:5]):
                logger.info(f"  {i+1}. Score: {result['score']:.4f} | ID: {result['image_id']}")

            if len(all_results) > 5:
                logger.info("\nBottom 5 results:")
                for i, result in enumerate(all_results[-5:]):
                    logger.info(f"  {len(all_results)-4+i}. Score: {result['score']:.4f} | ID: {result['image_id']}")

        logger.info("\n✓ Simple search test completed!")
        return True

    except Exception as e:
        logger.error(f"✗ Test failed: {e}")
        import traceback
        traceback.print_exc()
        return False

if __name__ == "__main__":
    success = asyncio.run(simple_search_test())
    sys.exit(0 if success else 1)