software/TRF-html/wb-word-cluster_8h_source.html

 // You may obtain a copy of the License at
 //
 //     http://www.apache.org/licenses/LICENSE-2.0
 //
 // Unless required by applicable law or agreed to in writing, software
 // distributed under the License is distributed on an "AS IS" BASIS,
 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 // See the License for the specific language governing permissions and
 // limitations under the License.
 //
 // Copyright 2014-2015 Tsinghua University
 // Author: wb.th08@gmail.com (Bin Wang), ozj@tsinghua.edu.cn (Zhijian Ou)
 //
 // All h, cpp, cc, and script files (e.g. bat, sh, pl, py) should include the above
 // license declaration. Different coding language may use different comment styles.

 #ifndef _WB_WORD_CLUSTER_H_
 #define _WB_WORD_CLUSTER_H_

 #include "wb-system.h"

 namespace wb
 {
     class WordCluster
     {
     public:
         LHash<int, int> m_wordCount;
         LHash<int, int> m_classCount;
         Trie<int, int> m_wordGramCount;
         Trie<int, int> m_invWordGram;
         //wbTrie<int, int> m_classGramCount; ///< N(g_w,g_v);
         int **m_pClassGramCount;
         Trie<int, int> m_wordClassCount;
         Trie<int, int> m_classWordCount;

         double m_dWordLogSum;

         Array<int> m_aClass;
         int m_nClassNum;
         int m_nVocabSize;
         int m_nSentNum;

         int m_nUnigramNum;
         int m_nBigramNum;

         char *m_pathWordClass;
         char *m_pathClassWord;
         char *m_pathTagVocab;


     public:
         WordCluster(int nClass) : m_nClassNum(nClass){
             SAFE_NEW_DARRAY(m_pClassGramCount, int, nClass + 1, nClass + 1);

             m_pathWordClass = NULL;
             m_pathClassWord = NULL;
             m_pathTagVocab = NULL;
         };
         ~WordCluster(void) {
             SAFE_DELETE_DARRAY(m_pClassGramCount, m_nClassNum + 1);
         };

         void Reverse(int *pGram) { int n = pGram[0]; pGram[0] = pGram[1]; pGram[1] = n; }
         void InitCount(const char *path, const char *pTagVocab = NULL);
         void UpdataCount();
         void CountAdd(LHash<int, int> &count, int nWord, int nAdd) {
             bool bFound;
             int *pCount = count.Insert(nWord, bFound);
             if (!bFound) *pCount = nAdd;
             else *pCount += nAdd;
         }
         void CountAdd(Trie<int, int> &count, int *pWord, int nLen, int nAdd) {
             bool bFound;
             int *pCount = count.Insert(pWord, nLen, bFound);
             if (!bFound) *pCount = nAdd;
             else *pCount += nAdd;
         }
         void CountAdd(int **pCount, int *pWord, int nLen, int nAdd) {
             pCount[pWord[0]][pWord[1]] += nAdd;
         }
         void WriteCount(LHash<int, int> &count, File &file);
         void WriteCount(Trie<int, int> &count, File &file, bool bReverse = false);
         void WriteRes_WordClass(const char *path);
         void WriteRes_ClassWord(const char *path);
         void WriteRes_TagVocab(const char *path);
         void Read_TagVocab(const char *path);

         double LogLikelihood();
         void MoveWord(int nWord, bool bOut = true);
         void ExchangeWord(int nWord, int nToClass);

         void Cluster(int nMaxTime = -1);

         void SimpleCluster();
     };

     class WordCluster_t
     {
     public:
         LHash<int, int> m_word_count;
         Trie<int, int> m_wgram_count;
         Trie<int, int> m_inv_wgram_count;

         LHash<int, int> m_class;
         Trie<int, int> m_class_gram;
         Trie<int, int> m_word_class_gram;
         Trie<int, int> m_class_word_gram;

         Mat<int> m_tCountBuf;
         Mat<int> m_tMap;

         Array<int> m_mCountBuf;
         Array<int> m_mMap;


         int m_nClassNum;
         int m_nVocabSize;
         int m_nSentNum;

         int m_nUnigramNum;
         int m_nBigramNum;
         double m_dWordLogSum;

         String m_pathRes;

 //      char *m_pathWordClass;
 //      char *m_pathClassWord;
 //      char *m_pathTagVocab;

         //WordCluster cluster;

     public:
         WordCluster_t(int nClass, char *pathRes = NULL):
             //cluster(nClass),
             m_nClassNum(nClass){
 //          m_pathWordClass = NULL;
 //          m_pathClassWord = NULL;
 //          m_pathTagVocab = NULL;
             if (pathRes == NULL) {
                 m_pathRes = "word_cluster.default.res";
             }
             else {
                 m_pathRes = pathRes;
             }
         };
         ~WordCluster_t(void) {
         };
         void WriteRes(const char *path);
         void ReadRes(const char *path);
         void Reverse(int *pGram) { int n = pGram[0]; pGram[0] = pGram[1]; pGram[1] = n; }
         void InitCount(const char *path, const char *path_init_res = NULL);
         void UpdateCount(Array<int> &aCountBuf);
         void CountAdd(Array<int> &aCountBuf, LHash<int, int> &hash, int key, int count);
         void CountAdd(Array<int> &aCountBuf, Trie<int, int> &hash, int *pKey, int nLen, int count);
         void CountAdd(VecShell<int> &aCountBuf, LHash<int, int> &hash, int key, int count);
         void CountAdd(VecShell<int> &aCountBuf, Trie<int, int> &hash, int *pKey, int nLen, int count);

         void CopyCountToThreads(Array<int> &aCountBuf);
         void MoveWord(VecShell<int> vCountBuf, VecShell<int> vMap, int nWord, bool bOut = true);
         void ExchangeWord(VecShell<int> vCountBuf, VecShell<int> vMap, int nWord, int nToClass);
         void Cluster(int nMaxTime = -1);
         double LogLikelihood(VecShell<int> vCountBuf);

         void SimpleCluster();
     };s
 }

 #endif
wb::Mat< int >

wb::WordCluster::Cluster
void Cluster(int nMaxTime=-1)
Definition: wb-word-cluster.cpp:410

wb::WordCluster::m_pathWordClass
char * m_pathWordClass
Definition: wb-word-cluster.h:54

wb::String
a dynamic string class
Definition: wb-string.h:53

wb::WordCluster_t::m_nBigramNum
int m_nBigramNum
Definition: wb-word-cluster.h:135

wb::WordCluster::Reverse
void Reverse(int *pGram)
Definition: wb-word-cluster.h:71

wb::WordCluster::CountAdd
void CountAdd(Trie< int, int > &count, int *pWord, int nLen, int nAdd)
Definition: wb-word-cluster.h:80

wb::VecShell
Definition: wb-mat.h:27

wb::WordCluster::Read_TagVocab
void Read_TagVocab(const char *path)
Definition: wb-word-cluster.cpp:217

wb::WordCluster::WriteRes_WordClass
void WriteRes_WordClass(const char *path)
Definition: wb-word-cluster.cpp:172

wb::WordCluster::InitCount
void InitCount(const char *path, const char *pTagVocab=NULL)
Definition: wb-word-cluster.cpp:6

wb::WordCluster_t::m_dWordLogSum
double m_dWordLogSum
Definition: wb-word-cluster.h:136

wb::WordCluster_t::WordCluster_t
WordCluster_t(int nClass, char *pathRes=NULL)
Definition: wb-word-cluster.h:147

wb::WordCluster::WriteRes_TagVocab
void WriteRes_TagVocab(const char *path)
Definition: wb-word-cluster.cpp:210

wb::WordCluster::LogLikelihood
double LogLikelihood()
Definition: wb-word-cluster.cpp:230

SAFE_NEW_DARRAY
#define SAFE_NEW_DARRAY(p, Type, n, m)
Definition: wb-vector.h:44

wb::WordCluster_t::m_class_gram
Trie< int, int > m_class_gram
(g(w), g(v)) the index of the class ngram
Definition: wb-word-cluster.h:119

wb::WordCluster::m_nUnigramNum
int m_nUnigramNum
Definition: wb-word-cluster.h:51

wb::WordCluster::UpdataCount
void UpdataCount()
Definition: wb-word-cluster.cpp:88

wb::WordCluster_t::m_class
LHash< int, int > m_class
index the class
Definition: wb-word-cluster.h:118

wb::WordCluster::~WordCluster
~WordCluster(void)
Definition: wb-word-cluster.h:67

wb::WordCluster::MoveWord
void MoveWord(int nWord, bool bOut=true)
Definition: wb-word-cluster.cpp:284

wb::WordCluster::WriteCount
void WriteCount(LHash< int, int > &count, File &file)
Definition: wb-word-cluster.cpp:149

wb::WordCluster_t
Definition: wb-word-cluster.h:111

wb::WordCluster_t::m_inv_wgram_count
Trie< int, int > m_inv_wgram_count
N(v,w) inverse word bigram count.
Definition: wb-word-cluster.h:116

wb::WordCluster::m_nSentNum
int m_nSentNum
�ı��еĴ�����
Definition: wb-word-cluster.h:49

wb::Trie::Insert
DataT * Insert(const KeyT *p_pIndex, int nIndexLen, bool &bFound)
Insert a value.
Definition: wb-trie.h:142

wb::WordCluster_t::m_wgram_count
Trie< int, int > m_wgram_count
N(w,v) word bigram count.
Definition: wb-word-cluster.h:115

wb::WordCluster_t::~WordCluster_t
~WordCluster_t(void)
Definition: wb-word-cluster.h:160

wb::File
file class.
Definition: wb-file.h:94

wb::WordCluster::m_aClass
Array< int > m_aClass
��¼ÿ����w���ڵ���g
Definition: wb-word-cluster.h:46

wb::WordCluster::m_nClassNum
int m_nClassNum
Definition: wb-word-cluster.h:47

SAFE_DELETE_DARRAY
#define SAFE_DELETE_DARRAY(p, n)
Definition: wb-vector.h:51

wb::LHash::Insert
DataT * Insert(KeyT key, bool &bFound)
Insert a value.
Definition: wb-lhash.h:408

wb::WordCluster_t::m_pathRes
String m_pathRes
the result file, [ w g(w) ]
Definition: wb-word-cluster.h:138

wb::WordCluster::m_wordCount
LHash< int, int > m_wordCount
N(w)
Definition: wb-word-cluster.h:35

wb::WordCluster_t::m_tCountBuf
Mat< int > m_tCountBuf
the count buffer for each threads
Definition: wb-word-cluster.h:123

wb::WordCluster::m_wordGramCount
Trie< int, int > m_wordGramCount
N(w,v)
Definition: wb-word-cluster.h:37

wb::WordCluster::CountAdd
void CountAdd(int **pCount, int *pWord, int nLen, int nAdd)
Definition: wb-word-cluster.h:86

wb::WordCluster_t::m_nSentNum
int m_nSentNum
total sentence number
Definition: wb-word-cluster.h:132

wb::WordCluster_t::m_mCountBuf
Array< int > m_mCountBuf
the count buffer in main threads
Definition: wb-word-cluster.h:126

wb::WordCluster::m_nBigramNum
int m_nBigramNum
Definition: wb-word-cluster.h:52

wb::WordCluster::m_pathClassWord
char * m_pathClassWord
Definition: wb-word-cluster.h:55

wb::WordCluster::m_wordClassCount
Trie< int, int > m_wordClassCount
N(w,g), ����ʱ��w��ǰ��g�ں�
Definition: wb-word-cluster.h:41

wb::WordCluster::m_invWordGram
Trie< int, int > m_invWordGram
����ÿ��w��ǰ�̣�������������������ÿ��w��ǰ��v
Definition: wb-word-cluster.h:38

wb::WordCluster_t::m_nClassNum
int m_nClassNum
the maximum class number
Definition: wb-word-cluster.h:130

wb::WordCluster_t::m_mMap
Array< int > m_mMap
the final g(w)
Definition: wb-word-cluster.h:127

wb::WordCluster::WriteRes_ClassWord
void WriteRes_ClassWord(const char *path)
Definition: wb-word-cluster.cpp:179

wb::WordCluster_t::m_word_class_gram
Trie< int, int > m_word_class_gram
(w,g) the word-class ngram
Definition: wb-word-cluster.h:120

wb::WordCluster::m_pathTagVocab
char * m_pathTagVocab
Definition: wb-word-cluster.h:56

wb::WordCluster::m_classCount
LHash< int, int > m_classCount
N(g)
Definition: wb-word-cluster.h:36

wb::WordCluster::m_nVocabSize
int m_nVocabSize
word-id�ĸ���
Definition: wb-word-cluster.h:48

wb::WordCluster_t::Reverse
void Reverse(int *pGram)
Definition: wb-word-cluster.h:164

wb::WordCluster::SimpleCluster
void SimpleCluster()
ʹ�ó���Ƶ�ʽ��м򵥵ķ��࣬����Ҫ����
Definition: wb-word-cluster.cpp:505

wb::WordCluster::ExchangeWord
void ExchangeWord(int nWord, int nToClass)
exchange the nWord form m_aClass[nWord] to nToClass
Definition: wb-word-cluster.cpp:398

wb::WordCluster::m_classWordCount
Trie< int, int > m_classWordCount
N(g,w), ����ʱ��w��ǰ��g�ں�
Definition: wb-word-cluster.h:42

wb::WordCluster_t::m_class_word_gram
Trie< int, int > m_class_word_gram
(g,w) the class-word ngram
Definition: wb-word-cluster.h:121

wb::WordCluster_t::m_nUnigramNum
int m_nUnigramNum
Definition: wb-word-cluster.h:134

wb::WordCluster_t::m_nVocabSize
int m_nVocabSize
word number, i.e. the maximum word-id + 1
Definition: wb-word-cluster.h:131

wb::WordCluster
Definition: wb-word-cluster.h:32

wb::WordCluster_t::m_tMap
Mat< int > m_tMap
map the word to correspond class at each thread
Definition: wb-word-cluster.h:124

nWord
int nWord
Definition: main-TRF.cpp:173

wb::WordCluster::WordCluster
WordCluster(int nClass)
Definition: wb-word-cluster.h:60

wb-system.h
include all the wb-written modules

wb::WordCluster::CountAdd
void CountAdd(LHash< int, int > &count, int nWord, int nAdd)
Definition: wb-word-cluster.h:74

wb::WordCluster::m_dWordLogSum
double m_dWordLogSum
��¼sum{N(w)logN(w)} ,��Ϊ������Ҫ����һ��
Definition: wb-word-cluster.h:44

wb
define all the code written by Bin Wang.
Definition: wb-file.cpp:21

wb::LHash< int, int >

wb::Array< int >

wb::WordCluster_t::m_word_count
LHash< int, int > m_word_count
N(w) index the word unigram count.
Definition: wb-word-cluster.h:114

wb::WordCluster::m_pClassGramCount
int ** m_pClassGramCount
N(g_w,g_v);.
Definition: wb-word-cluster.h:40

wb::Trie< int, int >