Upload 8 files

7714a5c verified over 1 year ago

5.55 kB


	# network architecture
	model: Emotion2vec
	model_conf:
	_name: data2vec_multi
	activation_dropout: 0.0
	adversarial_hidden_dim: 128
	adversarial_training: false
	adversarial_weight: 0.1
	attention_dropout: 0.1
	average_top_k_layers: 16
	batch_norm_target_layer: false
	clone_batch: 12
	cls_loss: 1.0
	cls_type: chunk
	d2v_loss: 1.0
	decoder_group: false
	depth: 8
	dropout_input: 0.0
	ema_anneal_end_step: 20000
	ema_decay: 0.9997
	ema_encoder_only: false
	ema_end_decay: 1.0
	ema_same_dtype: true
	embed_dim: 1024
	encoder_dropout: 0.1
	end_drop_path_rate: 0.0
	end_of_block_targets: false
	instance_norm_target_layer: true
	instance_norm_targets: false
	layer_norm_first: false
	layer_norm_target_layer: false
	layer_norm_targets: false
	layerdrop: 0.0
	log_norms: true
	loss_beta: 0.0
	loss_scale: null
	mae_init: false
	max_update: 100000
	min_pred_var: 0.01
	min_target_var: 0.1
	mlp_ratio: 4.0
	normalize: true
	modalities:
	_name: null
	audio:
	add_masks: false
	alibi_max_pos: null
	alibi_scale: 1.0
	conv_pos_depth: 5
	conv_pos_groups: 16
	conv_pos_pre_ln: false
	conv_pos_width: 95
	decoder:
	add_positions_all: false
	add_positions_masked: false
	decoder_dim: 768
	decoder_groups: 16
	decoder_kernel: 7
	decoder_layers: 4
	decoder_residual: true
	input_dropout: 0.1
	projection_layers: 1
	projection_ratio: 2.0
	ema_local_encoder: false
	encoder_zero_mask: true
	end_drop_path_rate: 0.0
	extractor_mode: layer_norm
	feature_encoder_spec: '[(512, 10, 5)] + [(512, 3, 2)] * 4 + [(512,2,2)] + [(512,2,2)]'
	init_extra_token_zero: true
	inverse_mask: false
	keep_masked_pct: 0.0
	learned_alibi: false
	learned_alibi_scale: true
	learned_alibi_scale_per_head: true
	learned_alibi_scale_per_layer: false
	local_grad_mult: 1.0
	mask_channel_length: 64
	mask_channel_prob: 0.0
	mask_dropout: 0.0
	mask_length: 5
	mask_noise_std: 0.01
	mask_prob: 0.55
	mask_prob_adjust: 0.1
	mask_prob_min: null
	model_depth: 8
	num_alibi_heads: 16
	num_extra_tokens: 10
	prenet_depth: 4
	prenet_dropout: 0.1
	prenet_layerdrop: 0.0
	remove_masks: false
	start_drop_path_rate: 0.0
	type: AUDIO
	use_alibi_encoder: true
	image:
	add_masks: false
	alibi_dims: 2
	alibi_distance: manhattan
	alibi_max_pos: null
	alibi_scale: 1.0
	decoder:
	add_positions_all: false
	add_positions_masked: false
	decoder_dim: 384
	decoder_groups: 16
	decoder_kernel: 5
	decoder_layers: 5
	decoder_residual: true
	input_dropout: 0.1
	projection_layers: 1
	projection_ratio: 2.0
	ema_local_encoder: false
	embed_dim: 768
	enc_dec_transformer: false
	encoder_zero_mask: true
	end_drop_path_rate: 0.0
	fixed_positions: true
	in_chans: 3
	init_extra_token_zero: true
	input_size: 224
	inverse_mask: false
	keep_masked_pct: 0.0
	learned_alibi: false
	learned_alibi_scale: false
	learned_alibi_scale_per_head: false
	learned_alibi_scale_per_layer: false
	local_grad_mult: 1.0
	mask_channel_length: 64
	mask_channel_prob: 0.0
	mask_dropout: 0.0
	mask_length: 5
	mask_noise_std: 0.01
	mask_prob: 0.7
	mask_prob_adjust: 0.0
	mask_prob_min: null
	model_depth: 8
	num_alibi_heads: 16
	num_extra_tokens: 0
	patch_size: 16
	prenet_depth: 4
	prenet_dropout: 0.0
	prenet_layerdrop: 0.0
	remove_masks: false
	start_drop_path_rate: 0.0
	transformer_decoder: false
	type: IMAGE
	use_alibi_encoder: false
	text:
	add_masks: false
	alibi_max_pos: null
	alibi_scale: 1.0
	decoder:
	add_positions_all: false
	add_positions_masked: false
	decoder_dim: 384
	decoder_groups: 16
	decoder_kernel: 5
	decoder_layers: 5
	decoder_residual: true
	input_dropout: 0.1
	projection_layers: 1
	projection_ratio: 2.0
	dropout: 0.1
	ema_local_encoder: false
	encoder_zero_mask: true
	end_drop_path_rate: 0.0
	init_extra_token_zero: true
	inverse_mask: false
	keep_masked_pct: 0.0
	layernorm_embedding: true
	learned_alibi: false
	learned_alibi_scale: false
	learned_alibi_scale_per_head: false
	learned_alibi_scale_per_layer: false
	learned_pos: true
	local_grad_mult: 1.0
	mask_channel_length: 64
	mask_channel_prob: 0.0
	mask_dropout: 0.0
	mask_length: 5
	mask_noise_std: 0.01
	mask_prob: 0.7
	mask_prob_adjust: 0.0
	mask_prob_min: null
	max_source_positions: 512
	model_depth: 8
	no_scale_embedding: true
	no_token_positional_embeddings: false
	num_alibi_heads: 16
	num_extra_tokens: 0
	prenet_depth: 4
	prenet_dropout: 0.0
	prenet_layerdrop: 0.0
	remove_masks: false
	start_drop_path_rate: 0.0
	type: TEXT
	use_alibi_encoder: false
	norm_affine: true
	norm_eps: 1.0e-05
	num_heads: 16
	post_mlp_drop: 0.1
	recon_loss: 0.0
	seed: 1
	shared_decoder: null
	skip_ema: false
	start_drop_path_rate: 0.0
	supported_modality: AUDIO

	tokenizer: CharTokenizer
	tokenizer_conf:
	unk_symbol: <unk>
	split_with_space: true

	scope_map:
	- 'd2v_model.'
	- none