🪴 Quartz 4.0

Search

❯

❯

Tag: diffusion_model

Tag: diffusion_model

198 items with this tag.

Jun 18, 2024
UniFL Improve Stable Diffusion via Unified Feedback Learning
Jun 18, 2024
A Training-Free Plug-and-Play Watermark Framework for Stable Diffusion
Jun 18, 2024
MoMA Multimodal LLM Adapter for Fast Personalized Image Generation
Jun 18, 2024
SwapAnything Enabling Arbitrary Object Swapping in Personalized Visual Editing
Jun 18, 2024
Finding Visual Task Vectors
Jun 18, 2024
LLM2Vec Large Language Models Are Secretly Powerful Text Encoders
Jun 18, 2024
DiffHarmony Latent Diffusion Model Meets Image Harmonization
Jun 18, 2024
Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs
Jun 18, 2024
CAT Contrastive Adapter Training for Personalized Image Generation
Jun 18, 2024
Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models
Jun 18, 2024
View Selection for 3D Captioning via Diffusion Ranking
Jun 18, 2024
Connecting NeRFs, Images, and Text
Jun 18, 2024
Probing the 3D Awareness of Visual Foundation Models
Jun 18, 2024
Dynamic Typography Bringing Text to Life via Video Diffusion Prior
Jun 18, 2024
Lazy Diffusion Transformer for Interactive Image Editing
Jun 18, 2024
Analysis of Classifier-Free Guidance Weight Schedulers
Jun 18, 2024
GLoD Composing Global Contexts and Local Details in Image Generation
Jun 18, 2024
CatLIP CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data
Jun 18, 2024
A Survey on Vision Mamba Models, Applications and Challenges
Jun 18, 2024
Stylus Automatic Adapter Selection for Diffusion Models
Jun 18, 2024
Espresso Robust Concept Filtering in Text-to-Image Models
Jun 18, 2024
Visual Fact Checker Enabling High-Fidelity Detailed Caption Generation
Jun 18, 2024
KAN Kolmogorov-Arnold Networks
Jun 18, 2024
Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models
Jun 18, 2024
On Mechanistic Knowledge Localization in Text-to-Image Generative Models
Jun 18, 2024
Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance
Jun 18, 2024
LocInv Localization-aware Inversion for Text-Guided Image Editing
Jun 18, 2024
Customizing Text-to-Image Models with a Single Image Pair
Jun 18, 2024
U-DiTs Downsample Tokens in U-Shaped Diffusion Transformers
Jun 18, 2024
Video Diffusion Models A Survey
Jun 18, 2024
Inf-DiT Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer
Jun 18, 2024
Variational Schrödinger Diffusion Models
Jun 18, 2024
A Survey on Personalized Content Synthesis with Diffusion Models
Jun 18, 2024
MasterWeaver Taming Editability and Identity for Personalized Text-to-Image Generation
Jun 18, 2024
Could It Be Generated Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models
Jun 18, 2024
Distilling Diffusion Models into Conditional GANs
Jun 18, 2024
Controllable Image Generation With Composed Parallel Token Prediction
Jun 18, 2024
Compositional Text-to-Image Generation with Dense Blob Representations
Jun 18, 2024
FIFO-Diffusion Generating Infinite Videos from Text without Training
Jun 18, 2024
Recovering the Pre-Fine-Tuning Weights of Generative Models
Jun 18, 2024
Make a Cheap Scaling A Self-Cascade Diffusion Model for Higher-Resolution Adaptation
Jun 18, 2024
Speculative Streaming Fast LLM Inference without Auxiliary Models
Jun 18, 2024
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning
Jun 18, 2024
Direct Consistency Optimization for Compositional Text-to-Image Personalization
Jun 18, 2024
LoRA+ Efficient Low Rank Adaptation of Large Models
Jun 18, 2024
SDXL-Lightning Progressive Adversarial Diffusion Distillation
Jun 18, 2024
Consolidating Attention Features for Multi-view Image Editing
Jun 18, 2024
Training Neural Networks from Scratch with Parallel Low-Rank Adapters
Jun 18, 2024
Transparent Image Layer Diffusion using Latent Transparency
Jun 18, 2024
Sora A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
Jun 18, 2024
PixArt-Σ Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Jun 18, 2024
ELLA Equip Diffusion Models with LLM for Enhanced Semantic Alignment
Jun 18, 2024
ORPO Monolithic Preference Optimization without Reference Model
Jun 18, 2024
Bridging Different Language Models and Generative Vision Models for Text-to-Image Generation
Jun 18, 2024
Reward Guided Latent Consistency Distillation
Jun 18, 2024
Graph Neural Networks for Learning Equivariant Representations of Neural Networks
Jun 18, 2024
You Only Sample Once Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs
Jun 18, 2024
FouriScale A Frequency Perspective on Training-Free High-Resolution Image Synthesis
Jun 18, 2024
When Do We Not Need Larger Vision Models
Jun 18, 2024
Evolutionary Optimization of Model Merging Recipes
Jun 18, 2024
Editing Massive Concepts in Text-to-Image Diffusion Models
Jun 18, 2024
Implicit Style-Content Separation using B-LoRA
Jun 18, 2024
MyVLM Personalizing VLMs for User-Specific Queries
Jun 18, 2024
ReNoise Real Image Inversion Through Iterative Noising
Jun 18, 2024
Long-CLIP Unlocking the Long-Text Capability of CLIP
Jun 18, 2024
SDXS Real-Time One-Step Latent Diffusion Models with Image Conditions
Jun 18, 2024
Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance
Jun 18, 2024
Improving Text-to-Image Consistency via Automatic Prompt Optimization
Jun 18, 2024
Tutorial on Diffusion Models for Imaging and Vision
Jun 18, 2024
Attention Calibration for Disentangled Text-to-Image Personalization
Jun 18, 2024
TextCraftor Your Text Encoder Can be Image Quality Controller
Jun 18, 2024
Capability-aware Prompt Reformulation Learning for Text-to-Image Generation
Jun 18, 2024
TTD Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias
Jun 18, 2024
Iterated Learning Improves Compositionality in Large Vision-Language Models
Jun 18, 2024
Mixture-of-Depths Dynamically allocating compute in transformer-based language models
Jun 18, 2024
LP++ A Surprisingly Strong Linear Probe for Few-Shot CLIP
Jun 18, 2024
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
Jun 18, 2024
On the Scalability of Diffusion-based Text-to-Image Generation
Jun 18, 2024
ReFT Representation Finetuning for Language Models
Jun 18, 2024
LCM-Lookahead for Encoder-based Text-to-Image Personalization
Jun 18, 2024
Robust Concept Erasure Using Task Vectors
Jun 18, 2024
RL for Consistency Models Faster Reward Guided Text-to-Image Generation
Jun 18, 2024
Concept Weaver Enabling Multi-Concept Fusion in Text-to-Image Models
Jun 18, 2024
Dynamic Prompt Optimizing for Text-to-Image Generation
Jun 18, 2024
MagicTime Time-lapse Video Generation Models as Metamorphic Simulators
Jun 18, 2024
Mask-ControlNet Higher-Quality Image Generation with An Additional Mask Prompt
Jun 18, 2024
Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance
Jun 18, 2024
Exponentially Faster Language Modelling
Jun 18, 2024
An Image is Worth Multiple Words Multi-attribute Inversion for Constrained Text-to-Image Synthesis
Jun 18, 2024
Concept Sliders LoRA Adaptors for Precise Control in Diffusion Models
Jun 18, 2024
NeuroPrompts An Adaptive Framework to Optimize Prompts for Text-to-Image Generation
Jun 18, 2024
Toward effective protection against diffusion based mimicry through score distillation
Jun 18, 2024
Diffusion Model Alignment Using Direct Preference Optimization
Jun 18, 2024
MetaCloak Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning
Jun 18, 2024
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
Jun 18, 2024
ZipLoRA Any Subject in Any Style by Effectively Merging LoRAs
Jun 18, 2024
Lego Learning to Disentangle and Invert Concepts Beyond Object Appearance in Text-to-Image Diffusion Models
Jun 18, 2024
ACT-Diffusion Efficient Adversarial Consistency Training for One-step Diffusion Models
Jun 18, 2024
Stable Video Diffusion Scaling Latent Video Diffusion Models to Large Datasets
Jun 18, 2024
Enhancing Diffusion Models with Text-Encoder Reinforcement Learning
Jun 18, 2024
Self-correcting LLM-controlled Diffusion Models
Jun 18, 2024
DemoFusion Democratising High-Resolution Image Generation With No $$$
Jun 18, 2024
Ranni Taming Text-to-Image Diffusion for Accurate Instruction Following
Jun 18, 2024
Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer
Jun 18, 2024
Adversarial Diffusion Distillation
Jun 18, 2024
DreamPropeller Supercharge Text-to-3D Generation with Parallel Sampling
Jun 18, 2024
PEA-Diffusion Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image Generation
Jun 18, 2024
HiPA Enabling One-Step Text-to-Image Diffusion Models via High-Frequency-Promoting Adaptation
Jun 18, 2024
Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing
Jun 18, 2024
One-step Diffusion with Distribution Matching Distillation
Jun 18, 2024
VideoBooth Diffusion-based Video Generation with Image Prompts
Jun 18, 2024
Sequential Modeling Enables Scalable Learning for Large Vision Models
Jun 18, 2024
GIVT Generative Infinite-Vocabulary Transformers
Jun 18, 2024
Style Aligned Image Generation via Shared Attention
Jun 18, 2024
DiffiT Diffusion Vision Transformers for Image Generation
Jun 18, 2024
FaceStudio Put Your Face Everywhere in Seconds
Jun 18, 2024
Return of Unconditional Generation A Self-supervised Representation Generation Method
Jun 18, 2024
Smooth Diffusion Crafting Smooth Latent Spaces in Diffusion Models
Jun 18, 2024
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
Jun 18, 2024
SwiftBrush One-Step Text-to-Image Diffusion Model with Variational Score Distillation
Jun 18, 2024
Sherpa3D Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior
Jun 18, 2024
CAD Photorealistic 3D Generation via Adversarial Distillation
Jun 18, 2024
DiffMorpher Unleashing the Capability of Diffusion Models for Image Morphing
Jun 18, 2024
A Picture is Worth More Than 77 Text Tokens Evaluating CLIP-Style Models on Dense Captions
Jun 18, 2024
DiffusionLight Light Probes for Free by Painting a Chrome Ball
Jun 18, 2024
Vision-Language Models as a Source of Rewards
Jun 18, 2024
Your Student is Better Than Expected Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models
Jun 18, 2024
Generative Multimodal Models are In-Context Learners
Jun 18, 2024
V* Guided Visual Search as a Core Mechanism in Multimodal LLMs
Jun 18, 2024
Diffusion Model with Perceptual Loss
Jun 18, 2024
Score Distillation Sampling with Learned Manifold Corrective
Jun 18, 2024
Eyes Wide Shut Exploring the Visual Shortcomings of Multimodal LLMs
Jun 18, 2024
InstantID Zero-shot Identity-Preserving Generation in Seconds
Jun 18, 2024
Benchmarking the Robustness of Image Watermarks
Jun 18, 2024
SiT Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers
Jun 18, 2024
Edit One for All Interactive Batch Image Editing
Jun 18, 2024
West-of-N Synthetic Preference Generation for Improved Reward Modeling
Jun 18, 2024
Lumiere A Space-Time Diffusion Model for Video Generation
Jun 18, 2024
Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding
Jun 18, 2024
AEROBLADE Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error
Jun 18, 2024
Compositional Generative Modeling A Single Model is Not All You Need
Jun 18, 2024
Can MLLMs Perform Text-to-Image In-Context Learning
Jun 18, 2024
Inversion-by-Inversion Exemplar-based Sketch-to-Photo Synthesis via Stochastic Differential Equations without Training
Jun 18, 2024
Boosting Multi-modal Model Performance with Adaptive Gradient Modulation
Jun 18, 2024
StyleDiffusion Controllable Disentangled Style Transfer via Diffusion Models
Jun 18, 2024
CoDeF Content Deformation Fields for Temporally Consistent Video Processing
Jun 18, 2024
DragNUWA Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
Jun 18, 2024
ALIP Adaptive Language-Image Pre-training with Synthetic Caption
Jun 18, 2024
Watch Your Steps Local Image and Scene Editing by Text Instructions
Jun 18, 2024
RLIPv2 Fast Scaling of Relational Language-Image Pre-training
Jun 18, 2024
DUAW Data-free Universal Adversarial Watermark against Stable Diffusion Customization
Jun 18, 2024
AltDiffusion A Multilingual Text-to-Image Diffusion Model
Jun 18, 2024
Spiking-Diffusion Vector Quantized Discrete Diffusion Model with Spiking Neural Networks
Jun 18, 2024
Backdooring Textual Inversion for Concept Censorship
Jun 18, 2024
Diffusion Model as Representation Learner
Jun 18, 2024
APLA Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency
Jun 18, 2024
Reinforcement Learning for Generative AI A Survey
Jun 18, 2024
Unified Concept Editing in Diffusion Models
Jun 18, 2024
Elucidating the Exposure Bias in Diffusion Models
Jun 18, 2024
MVDream Multi-view Diffusion for 3D Generation
Jun 18, 2024
Any-Size-Diffusion Toward Efficient Text-Driven Synthesis for Any-Size HD Images
Jun 18, 2024
FIND A Function Description Benchmark for Evaluating Interpretability Methods
Jun 18, 2024
Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis
Jun 18, 2024
MoEController Instruction-based Arbitrary Image Manipulation with Mixture-of-Expert Controllers
Jun 18, 2024
PhotoVerse Tuning-Free Image Customization with Text-to-Image Diffusion Models
Jun 18, 2024
Mitigate Replication and Copying in Diffusion Models with Generalized Caption and Dual Fusion Enhancement
Jun 18, 2024
Generative Image Dynamics
Jun 18, 2024
Viewpoint Textual Inversion Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
Jun 18, 2024
On Model Explanations with Transferable Neural Pathways
Jun 18, 2024
FreeU Free Lunch in Diffusion U-Net
Jun 18, 2024
TinyCLIP CLIP Distillation via Affinity Mimicking and Weight Inheritance
Jun 18, 2024
Generative Escher Meshes
Jun 18, 2024
Demystifying CLIP Data
Jun 18, 2024
Directly Fine-Tuning Diffusion Models on Differentiable Rewards
Jun 18, 2024
PixArt-$α$ Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
Jun 18, 2024
Direct Inversion Boosting Diffusion-based Editing with 3 Lines of Code
Jun 18, 2024
Kandinsky an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
Jun 18, 2024
Aligning Text-to-Image Diffusion Models with Reward Backpropagation
Jun 18, 2024
Improving Adversarial Attacks on Latent Diffusion Model
Jun 18, 2024
No Token Left Behind Efficient Vision Transformer via Dynamic Token Idling
Jun 18, 2024
NEFTune Noisy Embeddings Improve Instruction Finetuning
Jun 18, 2024
Interpreting CLIP's Image Representation via Text-Based Decomposition
Jun 18, 2024
State of the Art on Diffusion Models for Visual Computing
Jun 18, 2024
ScaleCrafter Tuning-free Higher-Resolution Visual Generation with Diffusion Models
Jun 18, 2024
Context-Aware Meta-Learning
Jun 18, 2024
To Generate or Not Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now
Jun 18, 2024
Quality Diversity through Human Feedback
Jun 18, 2024
An Image is Worth Multiple Words Learning Object Level Concepts using Multi-Concept Prompt Learning
Jun 18, 2024
On the Language Encoder of Contrastive Cross-modal Models
Jun 18, 2024
Localizing and Editing Knowledge in Text-to-Image Generative Models
Jun 18, 2024
MAS Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
Jun 18, 2024
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
Jun 18, 2024
Idempotent Generative Network
Jun 18, 2024
Cross-Image Attention for Zero-Shot Appearance Transfer
Jun 18, 2024
Instruct Me More Random Prompting for Visual In-Context Learning
Jun 18, 2024
UFOGen You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
Jun 18, 2024
The Chosen One Consistent Characters in Text-to-Image Diffusion Models
Jun 18, 2024
High-fidelity Person-centric Subject-to-Image Synthesis

Created with Quartz v4.2.3 © 2024

GitHub
Discord Community