fork download
  1. #include <iostream>
  2. #include <bits/stdc++.h>
  3. using namespace std;
  4.  
  5. int main() {
  6. // your code goes here
  7. vector <vector<int>> v;
  8. v.resize(5);
  9. for(int i = 0; i < 5; i++){
  10. for(int j = 0; j < 9; j++){
  11. if (j < i + 1) v[i].emplace_back(4);
  12. else v[i].emplace_back(8);
  13. }
  14. do{
  15. printf("CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj %d --k_proj %d --v_proj %d --o_proj %d --gate_proj %d --up_proj %d --down_proj %d --embed_tokens %d --lm_head %d\n", v[i][0], v[i][1], v[i][2], v[i][3], v[i][4], v[i][5], v[i][6], v[i][7], v[i][8]);
  16. }while(next_permutation(v[i].begin(), v[i].end()));
  17. }
  18.  
  19. return 0;
  20. }
Success #stdin #stdout 0.01s 5284KB
stdin
Standard input is empty
stdout
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 4 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 4 --v_proj 8 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 4 --gate_proj 8 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 4 --o_proj 8 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 8
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 8 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 4 --down_proj 8 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 4 --up_proj 8 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 4 --gate_proj 8 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4
CUDA_VISIBLE_DEVICES=3 python run_custom_layer.py --q_proj 8 --k_proj 8 --v_proj 8 --o_proj 8 --gate_proj 4 --up_proj 4 --down_proj 4 --embed_tokens 4 --lm_head 4