Update

olegranmo · olegranmo · commit 78b7dbf8036f · 2025-03-14T12:18:23.000+01:00
diff --git a/examples/classification/IMDbSetsTextCategorizationDemo.py b/examples/classification/IMDbSetsTextCategorizationDemo.py
@@ -6,6 +6,7 @@
 from sklearn.feature_selection import chi2
 from sklearn.feature_extraction.text import CountVectorizer
 from tmu.models.classification.vanilla_classifier import TMClassifier
+from scipy.sparse import csr_matrix
 
 from tmu.tools import BenchmarkTimer
 
@@ -63,26 +64,33 @@ def main(args):
         tokenizer=lambda s: s,
         token_pattern=None,
         ngram_range=(1, args.max_ngram),
+        max_features=100000,
         lowercase=False,
         binary=True
     )
 
-    X_train = vectorizer_X.fit_transform(training_documents)
+    X_train = vectorizer_X.fit_transform(training_documents).astype(np.uint32)
     Y_train = train_y.astype(np.uint32)
 
-    X_test = vectorizer_X.transform(testing_documents)
+    X_test = vectorizer_X.transform(testing_documents).astype(np.uint32)
     Y_test = test_y.astype(np.uint32)
     _LOGGER.info("Producing bit representation... Done!")
 
     _LOGGER.info("Selecting Features....")
 
-    SKB = SelectKBest(chi2, k=args.features)
-    SKB.fit(X_train, Y_train)
+    #SKB = SelectKBest(chi2, k=args.features)
+    #SKB.fit(X_train, Y_train)
 
-    selected_features = SKB.get_support(indices=True)
-    X_train = SKB.transform(X_train).astype(np.uint32)
-    X_test = SKB.transform(X_test).astype(np.uint32)
+    selected_features = np.arange(args.features)
+    #selected_features = SKB.get_support(indices=True)
+    #X_train = SKB.transform(X_train).astype(np.uint32)
+    #X_test = SKB.transform(X_test).astype(np.uint32)
 
+    documents = [["movie", "all"], ["very", "good"], ["love", "the", "book"]]
+    print(documents)
+    concepts = vectorizer_X.transform(documents)
+    print(concepts)
+    
     _LOGGER.info("Selecting Features.... Done!")
 
     tm = TMClassifier(
@@ -91,7 +99,8 @@ def main(args):
         args.s,
         platform=args.platform,
         weighted_clauses=args.weighted_clauses,
-        clause_drop_p=args.clause_drop_p
+        clause_drop_p=args.clause_drop_p,
+        sets=concepts#csr_matrix([[1,8],[0,1],[15,128]])
     )
 
     for e in range(args.epochs):
diff --git a/tmu/clause_bank/clause_bank_sets.py b/tmu/clause_bank/clause_bank_sets.py
@@ -32,6 +32,7 @@
 class ClauseBankSets(BaseClauseBank):
     def __init__(
             self,
+            sets,
             seed: int,
             number_of_states,
             d: float,
@@ -50,6 +51,10 @@ def __init__(
         self.batching = batching
         self.incremental = incremental
 
+        self.sets = sets
+        self.number_of_sets = self.sets.shape[0]
+        print(self.sets, self.number_of_sets)
+
         self.d = d
 
         LOGGER.warning("reuse_random_feedback is not implemented yet")
@@ -136,6 +141,7 @@ def calculate_clause_outputs_predict(self, encoded_X, e):
             return self.clause_output
 
         if e % 32 == 0:
+
             lib.cbse_pack_X(
                 ffi.cast("int *", encoded_X[0].indptr.ctypes.data),
                 ffi.cast("int *", encoded_X[0].indices.ctypes.data),
@@ -144,16 +150,16 @@ def calculate_clause_outputs_predict(self, encoded_X, e):
                 self.ptr_packed_X,
                 self.number_of_literals
             )
+
             lib.cbse_calculate_clause_outputs_predict_packed_X(
                 self.ptr_packed_X,
                 self.number_of_clauses,
                 self.number_of_literals,
                 self.ptr_clause_output_batch,
                 self.ptr_clause_bank_included,
-                self.ptr_clause_bank_included_length,
-                # self.cbia_p,
-                # self.cbial_p
+                self.ptr_clause_bank_included_length
             )
+
         lib.cbse_unpack_clause_output(
             e,
             self.ptr_clause_output,
@@ -241,7 +247,7 @@ def type_ii_feedback(
             self.ptr_Xi,
             self.number_of_features
         )
-        
+
         lib.cbse_type_ii_feedback(
             update_p,
             ffi.cast("int *", clause_active.ctypes.data),
diff --git a/tmu/lib/src/ClauseBankSets.c b/tmu/lib/src/ClauseBankSets.c
@@ -212,8 +212,8 @@ void cbse_type_i_feedback(
 			continue;
 		}
 
+        // Calculate intersection of input and included sets...
 		int clause_pos_base = j*number_of_literals*2;
-
         int clause_output = 1;
         for (int k = 0; k < clause_bank_included_length[j]; ++k) {
         	unsigned int clause_pos = clause_pos_base + k*2;
@@ -225,6 +225,10 @@ void cbse_type_i_feedback(
             }
         }
 
+        // Clause output is 1 if pop count is > 0
+
+        // Calculate intersection with each set, which becomes the truth values for updating...
+
         if (clause_output && (clause_bank_included_length[j] <= max_included_literals)) {
             // Update state of included literals
 			for (int k = 0; k < clause_bank_included_length[j]; ++k) {
@@ -344,8 +348,7 @@ void cbse_type_i_feedback(
                     int clause_included_end_pos = clause_pos_base + clause_bank_included_length[j]*2;
                     clause_bank_included[clause_included_pos] = clause_bank_included[clause_included_end_pos];       
                     clause_bank_included[clause_included_pos + 1] = clause_bank_included[clause_included_end_pos + 1];
-                }
-                
+                }  
             }
     	}
     }
diff --git a/tmu/models/base.py b/tmu/models/base.py
@@ -98,6 +98,7 @@ def __init__(
             absorbing_include=None,
             absorbing_exclude=None,
             squared_weight_update_p=False,
+            sets=None,
             seed=None
     ):
         self.seed = seed
@@ -107,7 +108,8 @@ def __init__(
         self.number_of_state_bits_ind = number_of_state_bits_ind
         self.T = int(T)
         self.s = s
-
+        self.sets = sets
+        
         self.confidence_driven_updating = confidence_driven_updating
         self.type_i_ii_ratio = type_i_ii_ratio
         if type_i_ii_ratio >= 1.0:
@@ -288,6 +290,7 @@ def _build_cpu_sets_bank(self, X: np.ndarray):
         from tmu.clause_bank.clause_bank_sets import ClauseBankSets
         clause_bank_type = ClauseBankSets
         clause_bank_args = dict(
+            sets=self.sets,
             X_shape=X.shape,
             d=self.d,
             s=self.s,
diff --git a/tmu/models/classification/vanilla_classifier.py b/tmu/models/classification/vanilla_classifier.py
@@ -60,6 +60,7 @@ def __init__(
             literal_sampling=1.0,
             feedback_rate_excluded_literals=1,
             literal_insertion_state=-1,
+            sets=None,
             seed=None
     ):
         super().__init__(
@@ -92,6 +93,7 @@ def __init__(
             literal_sampling=literal_sampling,
             feedback_rate_excluded_literals=feedback_rate_excluded_literals,
             literal_insertion_state=literal_insertion_state,
+            sets=sets,
             seed=seed
         )
         MultiClauseBankMixin.__init__(self, seed=seed)

Original file line number	Diff line number	Diff line change
`@@ -212,8 +212,8 @@ void cbse_type_i_feedback(`
`212`	`212`	`continue;`
`213`	`213`	`}`
`214`	`214`
	`215`	`+ // Calculate intersection of input and included sets...`
`215`	`216`	`int clause_pos_base = jnumber_of_literals2;`
`216`		`-`
`217`	`217`	`int clause_output = 1;`
`218`	`218`	`for (int k = 0; k < clause_bank_included_length[j]; ++k) {`
`219`	`219`	`unsigned int clause_pos = clause_pos_base + k*2;`
`@@ -225,6 +225,10 @@ void cbse_type_i_feedback(`
`225`	`225`	`}`
`226`	`226`	`}`
`227`	`227`
	`228`	`+ // Clause output is 1 if pop count is > 0`
	`229`	`+`
	`230`	`+ // Calculate intersection with each set, which becomes the truth values for updating...`
	`231`	`+`
`228`	`232`	`if (clause_output && (clause_bank_included_length[j] <= max_included_literals)) {`
`229`	`233`	`// Update state of included literals`
`230`	`234`	`for (int k = 0; k < clause_bank_included_length[j]; ++k) {`
`@@ -344,8 +348,7 @@ void cbse_type_i_feedback(`
`344`	`348`	`int clause_included_end_pos = clause_pos_base + clause_bank_included_length[j]*2;`
`345`	`349`	`clause_bank_included[clause_included_pos] = clause_bank_included[clause_included_end_pos];`
`346`	`350`	`clause_bank_included[clause_included_pos + 1] = clause_bank_included[clause_included_end_pos + 1];`
`347`		`- }`
`348`		`-`
	`351`	`+ }`
`349`	`352`	`}`
`350`	`353`	`}`
`351`	`354`	`}`