Spaces:

AYI-NEDJIMI
/

Dataset-Explorer

Paused

AYI-NEDJIMI

Initial commit: Dataset Explorer v1.0

14b051b 3 months ago

35.2 kB

	import gradio as gr
	import pandas as pd
	import plotly.express as px
	import plotly.graph_objects as go
	from datasets import load_dataset
	import json
	from datetime import datetime
	import re

	# Dataset metadata from HuggingFace search
	DATASETS_METADATA = [
	{"name": "ethanolivertroy/nist-cybersecurity-training", "downloads": 8000, "likes": 48, "size": "100K-1M", "language": "en", "tags": ["cybersecurity", "nist", "compliance", "security-controls", "zero-trust", "privacy"], "category": "compliance", "description": "NIST Cybersecurity Training Dataset v1.1 - The largest open-source NIST cybersecurity training dataset for fine-tuning LLMs"},
	{"name": "clydeiii/cybersecurity", "downloads": 4000, "likes": 6, "size": "100K-1M", "language": "unknown", "tags": ["APT", "threat-intelligence"], "category": "offensive", "description": "APT notes dataset from GitHub"},
	{"name": "vinitvek/cybersecurityattacks", "downloads": 2300, "likes": 5, "size": "10K-100K", "language": "en", "tags": ["attacks", "security"], "category": "offensive", "description": "Cybersecurity attacks dataset"},
	{"name": "Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset", "downloads": 786, "likes": 78, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "defensive-security", "instruction-tuning", "threat-intelligence", "incident-response", "security-operations"], "category": "defensive", "description": "53,202 meticulously curated system/user/assistant instruction-tuning examples covering defensive security"},
	{"name": "AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.0", "downloads": 353, "likes": 10, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "defensive-security", "instruction-tuning"], "category": "defensive", "description": "83,920 high-quality system/user/assistant triples for defensive cybersecurity"},
	{"name": "AlicanKiraz0/Cybersecurity-Dataset-Heimdall-v1.1", "downloads": 192, "likes": 13, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "defensive-security", "instruction-tuning"], "category": "defensive", "description": "21,258 high-quality system/user/assistant triples for training alignment-safe, defensive-cybersecurity LLMs"},
	{"name": "Chemically-motivated/CyberSecurityDataset", "downloads": 180, "likes": 3, "size": "<1K", "language": "en", "tags": ["cybersecurity", "machine learning", "pentesting", "exploits"], "category": "offensive", "description": "Curated data points related to penetration testing, known exploits, and vulnerabilities"},
	{"name": "ChaoticNeutrals/Cybersecurity-ShareGPT", "downloads": 175, "likes": 15, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "ShareGPT"], "category": "ai", "description": "Converted, deslopped, min-hash deduplicated cybersecurity ShareGPT dataset"},
	{"name": "Mohabahmed03/Alpaca_Dataset_CyberSecurity_Smaller_2.0", "downloads": 145, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["Cyber", "Security", "Cybersecurity", "LLM", "Pentest", "RedTeam", "BlueTeam"], "category": "ai", "description": "Alpaca format cybersecurity dataset"},
	{"name": "Bouquets/DeepSeek-V3-Distill-Cybersecurity-en", "downloads": 140, "likes": 0, "size": "1K-10K", "language": "en", "tags": ["cybersecurity", "penetration-testing", "distilled"], "category": "offensive", "description": "High-quality distilled dataset specialized in cybersecurity penetration testing domain"},
	{"name": "Druva-S-Kumar/cybersecurity-qa-dataset", "downloads": 123, "likes": 0, "size": "<1K", "language": "en", "tags": ["qa", "cybersecurity"], "category": "ai", "description": "Cybersecurity Q&A dataset"},
	{"name": "Rowden/CybersecurityQAA", "downloads": 119, "likes": 4, "size": "1K-10K", "language": "en", "tags": ["cybersecurity", "QAA"], "category": "ai", "description": "Cybersecurity Question-Answer-Assertion (QAA) Dataset designed to evaluate LLM capabilities"},
	{"name": "luckwa/cybersecurity-dataset", "downloads": 119, "likes": 1, "size": "1K-10K", "language": "en", "tags": ["cybersecurity"], "category": "defensive", "description": "General cybersecurity dataset"},
	{"name": "Vanessasml/cybersecurity_32k_instruction_input_output", "downloads": 114, "likes": 17, "size": "10K-100K", "language": "en", "tags": ["NIST", "ITC EBA", "threat-identification"], "category": "compliance", "description": "Q&As focused on identification of cyber threats, and text classification under NIST taxonomy"},
	{"name": "AlicanKiraz0/Cybersecurity-Dataset-v1", "downloads": 98, "likes": 12, "size": "1K-10K", "language": "en", "tags": ["cybersecurity"], "category": "defensive", "description": "2,500 high-quality instruction-response pairs focused on defensive cybersecurity education"},
	{"name": "mariiazhiv/cybersecurity_qa", "downloads": 97, "likes": 1, "size": "<1K", "language": "en", "tags": ["question-answering", "cybersecurity"], "category": "ai", "description": "Instruction-response pairs focused on cybersecurity concepts"},
	{"name": "CyberNative/CyberSecurityEval", "downloads": 84, "likes": 19, "size": "<1K", "language": "en", "tags": ["cybersecurity", "infosec", "IT", "evaluation"], "category": "ai", "description": "CyberNative AI for CyberSecurity Q/A Evaluation - NOT FOR TRAINING"},
	{"name": "whybe-choi/kovidore-v2-cybersecurity-beir", "downloads": 80, "likes": 1, "size": "1K-10K", "language": "ko", "tags": ["Visual Retrieving", "Industrial RAG"], "category": "defensive", "description": "Corpus of technical reports on cyber threat trends and security incident responses in Korea"},
	{"name": "Canstralian/Purple-Team-Cybersecurity-Dataset", "downloads": 73, "likes": 9, "size": "10K-100K", "language": "en", "tags": ["purple-team", "code"], "category": "defensive", "description": "Synthetic collection designed to simulate collaborative cybersecurity exercises"},
	{"name": "Bouquets/Cybersecurity-LLM-CVE", "downloads": 46, "likes": 15, "size": "100K-1M", "language": "en", "tags": ["CVE", "vulnerabilities"], "category": "defensive", "description": "CVE vulnerability database for cybersecurity"},
	{"name": "theResearchNinja/benchmarkResults_violentUTF_cybersecurityBehavior", "downloads": 37, "likes": 1, "size": "100K-1M", "language": "en", "tags": ["benchmark", "results"], "category": "ai", "description": "Interdependent cybersecurity benchmark results"},
	{"name": "schooly/Cyber-Security-Breaches", "downloads": 36, "likes": 11, "size": "1K-10K", "language": "en", "tags": ["breaches", "incidents"], "category": "offensive", "description": "Cyber security breaches dataset"},
	{"name": "jcordon5/cybersecurity-rules", "downloads": 36, "likes": 9, "size": "<1K", "language": "en", "tags": ["SIGMA", "YARA", "Suricata", "detection-rules"], "category": "defensive", "description": "950 detection rules from official SIGMA, YARA, and Suricata repositories"},
	{"name": "Tiamz/cybersecurity-instruction-dataset", "downloads": 33, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["instruction", "cybersecurity"], "category": "ai", "description": "Cybersecurity instruction dataset"},
	{"name": "zeroshot/cybersecurity-corpus", "downloads": 29, "likes": 9, "size": "1K-10K", "language": "en", "tags": ["corpus"], "category": "ai", "description": "Cybersecurity corpus for training"},
	{"name": "mteb/kovidore-v2-cybersecurity-mteb", "downloads": 29, "likes": 0, "size": "1K-10K", "language": "ko", "tags": ["MTEB", "retrieval"], "category": "ai", "description": "MTEB cybersecurity retrieval dataset in Korean"},
	{"name": "electricsheepafrica/nigerian-telecom-cybersecurity-incident-logs", "downloads": 27, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["telecom", "cybersecurity", "incident", "logs"], "category": "defensive", "description": "Security events including intrusions, DDoS attacks, and malware on telecom infrastructure"},
	{"name": "CyberNative/github_cybersecurity_READMEs", "downloads": 26, "likes": 14, "size": "1K-10K", "language": "en", "tags": ["github", "README"], "category": "ai", "description": "GitHub cybersecurity README files"},
	{"name": "Mohabahmed03/Alpaca_Dataset_CyberSecurity_2.0", "downloads": 26, "likes": 0, "size": "100K-1M", "language": "en", "tags": ["Cyber", "Security", "Pentest", "Cybersecurity", "LLM", "BlueTeam"], "category": "ai", "description": "Alpaca format cybersecurity dataset v2.0"},
	{"name": "hcnote/Cybersecurity-Dataset", "downloads": 26, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["code", "question-answering"], "category": "ai", "description": "High-quality cybersecurity dataset"},
	{"name": "Zeo6/CyberSecurity-FineTune", "downloads": 25, "likes": 0, "size": "unknown", "language": "en", "tags": ["finetune"], "category": "ai", "description": "Cybersecurity fine-tuning dataset"},
	{"name": "ystemsrx/Cybersecurity-ShareGPT-Chinese", "downloads": 24, "likes": 21, "size": "10K-100K", "language": "zh", "tags": ["code", "Chinese"], "category": "ai", "description": "Chinese cybersecurity dataset in ShareGPT format"},
	{"name": "whybe-choi/kovidore-v2-cybersecurity-mteb", "downloads": 24, "likes": 0, "size": "1K-10K", "language": "ko", "tags": ["MTEB", "retrieval"], "category": "ai", "description": "MTEB cybersecurity retrieval dataset"},
	{"name": "princemaxp/cybersecurity-keywords", "downloads": 22, "likes": 1, "size": "<1K", "language": "en", "tags": ["cybersecurity", "keywords"], "category": "ai", "description": "Common cybersecurity keywords list"},
	{"name": "madox81/cybersecurity_attack_conversational_dataset", "downloads": 20, "likes": 0, "size": "unknown", "language": "en", "tags": ["conversational", "attacks"], "category": "offensive", "description": "Conversational cybersecurity attack dataset"},
	{"name": "safouene99999/Cybersecurity_QA", "downloads": 19, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["QA"], "category": "ai", "description": "Cybersecurity Q&A dataset"},
	{"name": "hcnote/High-quality-cybersecurity-datasets", "downloads": 19, "likes": 0, "size": "100K-1M", "language": "en", "tags": ["high-quality"], "category": "ai", "description": "277,707 high-quality cybersecurity records with AI annotation"},
	{"name": "theResearchNinja/violentutf_cybersecurityBehavior", "downloads": 18, "likes": 3, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "cognitive behavioral psychology", "benchmark"], "category": "ai", "description": "LLM cybersecurity behavior benchmark dataset"},
	{"name": "GotThatData/nist-cybersecurity-framework", "downloads": 18, "likes": 7, "size": "1K-10K", "language": "en", "tags": ["NIST", "Cybersecurity", "Framework"], "category": "compliance", "description": "NIST Cybersecurity Publications Dataset"},
	{"name": "Mohabahmed03/Alpaca_Dataset_General_CyberSecurity", "downloads": 18, "likes": 0, "size": "100K-1M", "language": "en", "tags": ["General", "Alpaca", "CyberSecurity"], "category": "ai", "description": "General Alpaca format cybersecurity dataset"},
	{"name": "vnovaai19/CYBERSECURITY_JSONL_V1", "downloads": 18, "likes": 0, "size": "<1K", "language": "en", "tags": ["cybersecurity", "synthetic-data", "safety", "phishing", "fraud-detection"], "category": "defensive", "description": "100 synthetic cybersecurity threat scenarios with educational AI responses"},
	{"name": "Mattimax/Cybersecurity-ShareGPT-Italian", "downloads": 18, "likes": 0, "size": "1K-10K", "language": "it", "tags": ["Italian", "ShareGPT"], "category": "ai", "description": "Italian cybersecurity ShareGPT dataset"},
	{"name": "olgazigbeehub/cybersecurity-news-dataset-english-3000", "downloads": 18, "likes": 0, "size": "1K-10K", "language": "en", "tags": ["news", "cybersecurity", "media-analysis"], "category": "defensive", "description": "3,000 English-language cybersecurity news metadata rows"},
	{"name": "hcnote/Cybersecurity-High-Quality-Dataset", "downloads": 17, "likes": 0, "size": "100K-1M", "language": "en", "tags": ["high-quality"], "category": "ai", "description": "270,271 high-quality Chinese-English Q&A cybersecurity dataset"},
	{"name": "ScoutieAutoML/cybersecurity_news_telegram_dataset", "downloads": 16, "likes": 2, "size": "10K-100K", "language": "ru", "tags": ["russia", "cybersecurity", "media", "news"], "category": "defensive", "description": "Russian-language Telegram news channels on cybersecurity"},
	{"name": "savaniDhruv/Cybersecurity_Attack_Dataset", "downloads": 16, "likes": 2, "size": "10K-100K", "language": "en", "tags": ["attacks"], "category": "offensive", "description": "Cybersecurity attack dataset"},
	{"name": "pyToshka/cyber-security-events", "downloads": 16, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "honeypot", "threat-intelligence"], "category": "defensive", "description": "Cybersecurity events collected from honeypot infrastructure"},
	{"name": "ahmadkaab/Trendyol-Cybersecurity-Instruction-Tuning-Dataset", "downloads": 16, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "defensive-security", "instruction-tuning"], "category": "defensive", "description": "53,202 defensive security instruction-tuning examples"},
	{"name": "MCP-1st-Birthday/smoltrace-cybersecurity-tasks", "downloads": 15, "likes": 0, "size": "<1K", "language": "en", "tags": ["smoltrace", "synthetic-data", "agent-evaluation"], "category": "ai", "description": "SMOLTRACE synthetic dataset for agent evaluation"},
	{"name": "ErebusTN/The-Ultimate-CyberSecurity-Dataset-Collection", "downloads": 14, "likes": 1, "size": "unknown", "language": "en", "tags": ["collection"], "category": "ai", "description": "Ultimate cybersecurity dataset collection"},
	{"name": "NewsDataHub/cybersecurity-news-dataset-english-3000", "downloads": 14, "likes": 1, "size": "1K-10K", "language": "en", "tags": ["news", "cybersecurity"], "category": "defensive", "description": "3,000 English cybersecurity news metadata rows"},
	{"name": "AYI-NEDJIMI/ai-cybersecurity-en", "downloads": 14, "likes": 0, "size": "<1K", "language": "en", "tags": ["artificial-intelligence", "cybersecurity", "offensive-ai", "defensive-ai", "deepfake"], "category": "ai", "description": "AI in Offensive and Defensive Cybersecurity - English Dataset"},
	{"name": "AR2021/cybersecurity-corpus-llama2-1k", "downloads": 13, "likes": 1, "size": "<1K", "language": "en", "tags": ["llama2"], "category": "ai", "description": "Cybersecurity corpus for Llama2"},
	{"name": "boapro/Purple-Team-Cybersecurity-Dataset", "downloads": 13, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["code", "purple-team"], "category": "defensive", "description": "Synthetic purple team cybersecurity exercises"},
	{"name": "tuandunghcmut/Trendyol-Cybersecurity-Instruction-Tuning-Dataset", "downloads": 13, "likes": 1, "size": "10K-100K", "language": "en", "tags": ["cybersecurity", "security", "cyber-defense", "conversational"], "category": "defensive", "description": "GPT format conversational cybersecurity dataset"},
	{"name": "AYI-NEDJIMI/ai-cybersecurity-fr", "downloads": 13, "likes": 0, "size": "<1K", "language": "fr", "tags": ["artificial-intelligence", "cybersecurity", "offensive-ai", "defensive-ai"], "category": "ai", "description": "AI in Offensive and Defensive Cybersecurity - French Dataset"},
	{"name": "pki/autonlp-data-cybersecurity", "downloads": 12, "likes": 0, "size": "unknown", "language": "en", "tags": ["autonlp"], "category": "ai", "description": "AutoNLP cybersecurity data"},
	{"name": "Hadihilman/cybersecurity-dataset", "downloads": 12, "likes": 0, "size": "<1K", "language": "en", "tags": ["images"], "category": "defensive", "description": "Cybersecurity image dataset"},
	{"name": "AnodeAI/Elite_quality_cybersecurity", "downloads": 12, "likes": 1, "size": "10K-100K", "language": "en", "tags": ["legal", "finance"], "category": "ai", "description": "Elite quality cybersecurity dataset"},
	{"name": "hcnote/Cybersecurity-bigDataset", "downloads": 12, "likes": 0, "size": "100K-1M", "language": "en", "tags": ["large-scale"], "category": "ai", "description": "Global first open-source mega-scale cybersecurity dataset"},
	{"name": "bnsapa/cybersecurity-ner", "downloads": 11, "likes": 2, "size": "1K-10K", "language": "en", "tags": ["token-classification", "NER"], "category": "ai", "description": "Cybersecurity named entity recognition dataset"},
	{"name": "baig31/Cybersecurity_penetration_testing_books", "downloads": 11, "likes": 12, "size": "unknown", "language": "en", "tags": ["books", "penetration-testing"], "category": "offensive", "description": "Cybersecurity penetration testing books"},
	{"name": "beldua/english-cybersecurity-basics-30", "downloads": 11, "likes": 0, "size": "<1K", "language": "en", "tags": ["basics"], "category": "ai", "description": "English cybersecurity basics"},
	{"name": "ahmedds10/finetuning_cybersecurity", "downloads": 10, "likes": 0, "size": "<1K", "language": "en", "tags": ["finetuning"], "category": "ai", "description": "Cybersecurity fine-tuning dataset"},
	{"name": "Mohabahmed03/Alpaca_Dataset_CyberSecurity_Smaller", "downloads": 10, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["CyberSecurity", "Finetune"], "category": "ai", "description": "Smaller Alpaca cybersecurity dataset"},
	{"name": "ChavyvAkvar/Trendyol-Cybersecurity-Instruction-Tuning-Dataset-Converted", "downloads": 10, "likes": 1, "size": "10K-100K", "language": "en", "tags": ["converted"], "category": "defensive", "description": "Converted Trendyol cybersecurity dataset"},
	{"name": "tandevllc/cybersecurity-atom-rss-feeds-2025", "downloads": 10, "likes": 1, "size": "unknown", "language": "en", "tags": ["news", "rss", "feeds"], "category": "defensive", "description": "Cybersecurity Atom/RSS feeds 2025"},
	{"name": "tandevllc/cybersecurity-wiki-slices", "downloads": 10, "likes": 1, "size": "10K-100K", "language": "en", "tags": ["wikipedia", "cybersecurity"], "category": "ai", "description": "Curated collection of English Wikipedia pages covering cybersecurity"},
	{"name": "antitheft159/CybersecurityAttacks", "downloads": 9, "likes": 1, "size": "unknown", "language": "en", "tags": ["attacks"], "category": "offensive", "description": "Cybersecurity attacks dataset"},
	{"name": "Tiamz/cybersecurity-raw-json-datasets", "downloads": 9, "likes": 0, "size": "unknown", "language": "en", "tags": ["raw", "json"], "category": "ai", "description": "Raw JSON cybersecurity datasets"},
	{"name": "burpsuite/Cybersecurity-Dataset-v1", "downloads": 9, "likes": 0, "size": "1K-10K", "language": "en", "tags": ["cybersecurity"], "category": "defensive", "description": "2,500 defensive cybersecurity instruction-response pairs"},
	{"name": "Deshaune/Global-Cybersecurity-Threats-2015_2024", "downloads": 8, "likes": 1, "size": "1K-10K", "language": "en", "tags": ["global-threats"], "category": "defensive", "description": "Global cybersecurity threats from 2015-2024"},
	{"name": "oceancharcoal/Cybersecurity_attack_dataset", "downloads": 8, "likes": 0, "size": "10K-100K", "language": "en", "tags": ["attacks"], "category": "offensive", "description": "Cybersecurity attack dataset"},
	{"name": "pyToshka/cyber-security-events-full", "downloads": 8, "likes": 0, "size": "100K-1M", "language": "en", "tags": ["cybersecurity", "honeypot", "threat-intelligence"], "category": "defensive", "description": "Full cybersecurity events from honeypot infrastructure"},
	{"name": "dattaraj/rag_eval_cybersecurity", "downloads": 7, "likes": 0, "size": "<1K", "language": "en", "tags": ["RAG", "evaluation"], "category": "ai", "description": "RAG evaluation for cybersecurity"},
	{"name": "lianghsun/tw-cybersecurity", "downloads": 7, "likes": 0, "size": "1K-10K", "language": "zh", "tags": ["Taiwan", "cybersecurity", "ISO-27001"], "category": "compliance", "description": "Taiwan cybersecurity dataset with ISO/IEC 27001"},
	{"name": "mariiazhiv/Cybersecurity_messages", "downloads": 7, "likes": 0, "size": "1K-10K", "language": "en", "tags": ["messages"], "category": "ai", "description": "Cybersecurity messages dataset"},
	{"name": "MichaelPrimez/cybersecurity-questionaire", "downloads": 6, "likes": 0, "size": "<1K", "language": "en", "tags": ["questionnaire", "synthetic", "distilabel"], "category": "ai", "description": "Cybersecurity questionnaire dataset"},
	{"name": "lianghsun/tw-cybersecurity-chat", "downloads": 5, "likes": 0, "size": "1K-10K", "language": "zh", "tags": ["Taiwan", "cybersecurity", "chat"], "category": "ai", "description": "Taiwan cybersecurity chat dataset"},
	{"name": "WhoIsShe/CyberSecurity-big", "downloads": 5, "likes": 1, "size": "1M-10M", "language": "en", "tags": ["large-scale"], "category": "ai", "description": "Large-scale cybersecurity dataset"},
	]

	def create_dataframe():
	"""Create pandas DataFrame from metadata"""
	df = pd.DataFrame(DATASETS_METADATA)
	df['url'] = df['name'].apply(lambda x: f"https://huggingface.co/datasets/{x}")
	return df

	def get_dataset_stats():
	"""Generate overall statistics"""
	df = create_dataframe()

	stats = {
	"Total Datasets": len(df),
	"Total Downloads": f"{df['downloads'].sum():,}",
	"Total Likes": f"{df['likes'].sum():,}",
	"Languages": len(df['language'].unique()),
	"Categories": len(df['category'].unique()),
	}
	return stats

	def filter_datasets(keyword, language, category, min_downloads, min_likes):
	"""Filter datasets based on criteria"""
	df = create_dataframe()

	# Filter by keyword
	if keyword:
	mask = (
	df['name'].str.contains(keyword, case=False, na=False) \|
	df['description'].str.contains(keyword, case=False, na=False) \|
	df['tags'].apply(lambda x: any(keyword.lower() in tag.lower() for tag in x))
	)
	df = df[mask]

	# Filter by language
	if language and language != "All":
	df = df[df['language'] == language]

	# Filter by category
	if category and category != "All":
	df = df[df['category'] == category]

	# Filter by downloads
	if min_downloads:
	df = df[df['downloads'] >= min_downloads]

	# Filter by likes
	if min_likes:
	df = df[df['likes'] >= min_likes]

	return df

	def search_datasets(keyword, language, category, min_downloads, min_likes):
	"""Search and display datasets"""
	df = filter_datasets(keyword, language, category, min_downloads, min_likes)

	# Format for display
	display_df = df[['name', 'downloads', 'likes', 'size', 'language', 'category', 'description']].copy()
	display_df.columns = ['Dataset Name', 'Downloads', 'Likes', 'Size', 'Language', 'Category', 'Description']

	result_text = f"Found {len(df)} datasets matching your criteria"

	return display_df, result_text

	def get_dataset_details(dataset_name):
	"""Get detailed information about a specific dataset"""
	df = create_dataframe()

	if not dataset_name:
	return "Please select a dataset from the list above", None, None

	dataset = df[df['name'] == dataset_name]

	if dataset.empty:
	return "Dataset not found", None, None

	dataset = dataset.iloc[0]

	details = f"""
	## {dataset['name']}

	Description: {dataset['description']}

	Statistics:
	- Downloads: {dataset['downloads']:,}
	- Likes: {dataset['likes']}
	- Size: {dataset['size']}
	- Language: {dataset['language']}
	- Category: {dataset['category']}

	Tags: {', '.join(dataset['tags'])}

	HuggingFace URL: [{dataset['url']}]({dataset['url']})

	---

	*Note: To preview dataset samples, you would need to load the actual dataset using the HuggingFace datasets library.
	This demo shows metadata only. For full dataset access, click the URL above.*
	"""

	# Create a simple preview table (mock data since we're not loading actual datasets)
	preview_data = {
	"Column": ["Feature 1", "Feature 2", "Feature 3"],
	"Type": ["text", "text", "category"],
	"Sample": ["Sample data...", "Sample data...", "Sample category..."]
	}
	preview_df = pd.DataFrame(preview_data)

	return details, preview_df, dataset['url']

	def create_category_chart():
	"""Create pie chart of datasets by category"""
	df = create_dataframe()
	category_counts = df['category'].value_counts()

	fig = px.pie(
	values=category_counts.values,
	names=category_counts.index,
	title='Datasets by Category',
	color_discrete_sequence=px.colors.sequential.RdBu,
	hole=0.3
	)
	fig.update_layout(
	paper_bgcolor='rgba(0,0,0,0)',
	plot_bgcolor='rgba(0,0,0,0)',
	font=dict(color='white')
	)
	return fig

	def create_language_chart():
	"""Create bar chart of datasets by language"""
	df = create_dataframe()
	language_counts = df['language'].value_counts().head(10)

	fig = px.bar(
	x=language_counts.index,
	y=language_counts.values,
	title='Top 10 Languages',
	labels={'x': 'Language', 'y': 'Number of Datasets'},
	color=language_counts.values,
	color_continuous_scale='Viridis'
	)
	fig.update_layout(
	paper_bgcolor='rgba(0,0,0,0)',
	plot_bgcolor='rgba(0,0,0,0)',
	font=dict(color='white'),
	showlegend=False
	)
	return fig

	def create_downloads_chart():
	"""Create bar chart of top datasets by downloads"""
	df = create_dataframe()
	top_downloads = df.nlargest(15, 'downloads')[['name', 'downloads']]
	top_downloads['short_name'] = top_downloads['name'].apply(lambda x: x.split('/')[-1][:30])

	fig = px.bar(
	top_downloads,
	x='downloads',
	y='short_name',
	orientation='h',
	title='Top 15 Datasets by Downloads',
	labels={'downloads': 'Downloads', 'short_name': 'Dataset'},
	color='downloads',
	color_continuous_scale='Plasma'
	)
	fig.update_layout(
	paper_bgcolor='rgba(0,0,0,0)',
	plot_bgcolor='rgba(0,0,0,0)',
	font=dict(color='white'),
	height=600,
	showlegend=False
	)
	return fig

	def create_size_distribution_chart():
	"""Create distribution chart of dataset sizes"""
	df = create_dataframe()
	size_counts = df['size'].value_counts()

	fig = px.bar(
	x=size_counts.index,
	y=size_counts.values,
	title='Dataset Size Distribution',
	labels={'x': 'Size Category', 'y': 'Number of Datasets'},
	color=size_counts.values,
	color_continuous_scale='Cividis'
	)
	fig.update_layout(
	paper_bgcolor='rgba(0,0,0,0)',
	plot_bgcolor='rgba(0,0,0,0)',
	font=dict(color='white'),
	showlegend=False
	)
	return fig

	def export_to_csv(keyword, language, category, min_downloads, min_likes):
	"""Export filtered datasets to CSV"""
	df = filter_datasets(keyword, language, category, min_downloads, min_likes)
	output_path = "/tmp/cybersecurity_datasets.csv"
	df.to_csv(output_path, index=False)
	return output_path

	def export_to_json(keyword, language, category, min_downloads, min_likes):
	"""Export filtered datasets to JSON"""
	df = filter_datasets(keyword, language, category, min_downloads, min_likes)
	output_path = "/tmp/cybersecurity_datasets.json"
	df.to_json(output_path, orient='records', indent=2)
	return output_path

	# Create Gradio interface
	with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="purple").set(
	body_background_fill='*primary_900',
	body_background_fill_dark='*primary_950',
	block_background_fill='*primary_800',
	block_background_fill_dark='*primary_900',
	block_border_color='*primary_600',
	input_background_fill='*primary_700',
	button_primary_background_fill='*primary_600',
	button_primary_background_fill_hover='*primary_500',
	)) as demo:

	gr.Markdown("""
	# 🔐 Cybersecurity Dataset Explorer

	Explore and analyze 80+ cybersecurity datasets from HuggingFace

	Features:
	- Search by keyword, language, category
	- View detailed statistics and visualizations
	- Export datasets metadata to CSV/JSON
	- Preview dataset information
	- Direct links to HuggingFace repositories
	""")

	# Statistics overview
	with gr.Row():
	stats = get_dataset_stats()
	for key, value in stats.items():
	gr.Markdown(f"### {key}\n## {value}")

	# Main tabs
	with gr.Tabs():

	# Search & Filter Tab
	with gr.Tab("🔍 Search & Filter"):
	with gr.Row():
	with gr.Column(scale=1):
	keyword_input = gr.Textbox(
	label="Search Keyword",
	placeholder="Enter keyword (name, description, or tags)...",
	lines=1
	)
	language_dropdown = gr.Dropdown(
	label="Language",
	choices=["All"] + sorted(list(set([d['language'] for d in DATASETS_METADATA]))),
	value="All"
	)
	category_dropdown = gr.Dropdown(
	label="Category",
	choices=["All", "ai", "defensive", "offensive", "compliance"],
	value="All"
	)
	min_downloads_slider = gr.Slider(
	label="Minimum Downloads",
	minimum=0,
	maximum=10000,
	value=0,
	step=100
	)
	min_likes_slider = gr.Slider(
	label="Minimum Likes",
	minimum=0,
	maximum=100,
	value=0,
	step=1
	)
	search_btn = gr.Button("🔍 Search Datasets", variant="primary")

	with gr.Column(scale=3):
	result_text = gr.Textbox(label="Search Results", lines=1)
	results_table = gr.Dataframe(
	label="Datasets",
	wrap=True,
	interactive=False
	)

	with gr.Row():
	export_csv_btn = gr.Button("📥 Export to CSV")
	export_json_btn = gr.Button("📥 Export to JSON")

	with gr.Row():
	csv_file = gr.File(label="CSV Download")
	json_file = gr.File(label="JSON Download")

	search_btn.click(
	fn=search_datasets,
	inputs=[keyword_input, language_dropdown, category_dropdown, min_downloads_slider, min_likes_slider],
	outputs=[results_table, result_text]
	)

	export_csv_btn.click(
	fn=export_to_csv,
	inputs=[keyword_input, language_dropdown, category_dropdown, min_downloads_slider, min_likes_slider],
	outputs=csv_file
	)

	export_json_btn.click(
	fn=export_to_json,
	inputs=[keyword_input, language_dropdown, category_dropdown, min_downloads_slider, min_likes_slider],
	outputs=json_file
	)

	# Dataset Details Tab
	with gr.Tab("📊 Dataset Details"):
	dataset_selector = gr.Dropdown(
	label="Select Dataset",
	choices=[d['name'] for d in DATASETS_METADATA],
	value=DATASETS_METADATA[0]['name'] if DATASETS_METADATA else None
	)
	view_details_btn = gr.Button("View Details", variant="primary")

	dataset_details = gr.Markdown(label="Dataset Information")
	preview_table = gr.Dataframe(label="Preview (Mock Data)")
	dataset_link = gr.Textbox(label="HuggingFace URL")

	view_details_btn.click(
	fn=get_dataset_details,
	inputs=dataset_selector,
	outputs=[dataset_details, preview_table, dataset_link]
	)

	# Statistics & Visualizations Tab
	with gr.Tab("📈 Statistics & Charts"):
	gr.Markdown("## Dataset Analytics Dashboard")

	with gr.Row():
	category_chart = gr.Plot(label="Category Distribution")
	language_chart = gr.Plot(label="Language Distribution")

	with gr.Row():
	downloads_chart = gr.Plot(label="Top Downloads")

	with gr.Row():
	size_chart = gr.Plot(label="Size Distribution")

	refresh_charts_btn = gr.Button("🔄 Refresh Charts", variant="primary")

	def refresh_all_charts():
	return (
	create_category_chart(),
	create_language_chart(),
	create_downloads_chart(),
	create_size_distribution_chart()
	)

	refresh_charts_btn.click(
	fn=refresh_all_charts,
	outputs=[category_chart, language_chart, downloads_chart, size_chart]
	)

	# Load charts on startup
	demo.load(
	fn=refresh_all_charts,
	outputs=[category_chart, language_chart, downloads_chart, size_chart]
	)

	# About Tab
	with gr.Tab("ℹ️ About"):
	gr.Markdown("""
	## About Dataset Explorer

	This application provides a comprehensive interface to explore 80 cybersecurity datasets from HuggingFace.

	### Features:

	1. Search & Filter: Find datasets by keyword, language, category, popularity
	2. Dataset Details: View comprehensive information about each dataset
	3. Statistics: Visual analytics with interactive charts
	4. Export: Download filtered results as CSV or JSON
	5. Direct Links: Access to HuggingFace repositories

	### Categories:

	- AI: Datasets for training AI/ML models
	- Defensive: Blue team, threat detection, incident response
	- Offensive: Red team, penetration testing, exploits
	- Compliance: NIST, ISO 27001, regulatory frameworks

	### Data Sources:

	All datasets are publicly available on HuggingFace Hub. This explorer provides
	metadata and filtering capabilities. To access the actual dataset content,
	click the HuggingFace URL for any dataset.

	### Technologies:

	- Gradio: Interactive web interface
	- Pandas: Data manipulation
	- Plotly: Interactive visualizations
	- HuggingFace Datasets: Dataset metadata

	---

	Created by: AYI-NEDJIMI
	Version: 1.0
	Last Updated: February 2026
	""")

	# Footer
	gr.Markdown("""
	---
	💡 Tip: Use the search feature to find datasets by specific topics like "NIST", "penetration testing", "threat intelligence", etc.
	""")

	if __name__ == "__main__":
	demo.launch()