#include <iostream> #include <bits/stdc++.h> using namespace std; int main() { // your code goes here vector <vector<int>> v; v.resize(5); for(int i = 0; i < 5; i++){ for(int j = 0; j < 9; j++){ if (j < i + 1) v[i].emplace_back(4); else v[i].emplace_back(8); } do{ printf("CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj %d --k_proj %d --v_proj %d --o_proj %d --gate_proj %d --up_proj %d --down_proj %d --embed_tokens %d --lm_head %d\n", v[i][0], v[i][1], v[i][2], v[i][3], v[i][4], v[i][5], v[i][6], v[i][7], v[i][8]); }while(next_permutation(v[i].begin(), v[i].end())); } return 0; }
Standard input is empty
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4 CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4