»ùÓÚÑ»·Éñ¾ÍøÂç(RNN)ÊµÏÖÓ°ÆÀÇé¸Ð·ÖÀà Ê¹ÓÃÑ»·Éñ¾ÍøÂç(RNN)ÊµÏÖÓ°ÆÀÇé¸Ð·ÖÀà ×÷Îª¶ÔÑ»·Éñ¾ÍøÂçµÄÊµ¼ù£¬ÎÒÓÃÑ»·Éñ¾ÍøÂç×öÁË¸öÓ°ÆÀÇé¸ÐµÄ·ÖÀà£¬¼´ÅÐ¶ÏÓ°ÆÀµÄ¸ÐÇéÉ«²ÊÊÇÕýÃæµÄ£¬»¹ÊÇ¸ºÃæµÄ¡£ Ñ¡ÔñÊ¹ÓÃRNNÀ´×öÇé¸Ð·ÖÀà£¬Ö÷ÒªÊÇÒòÎªÓ°ÆÀÊÇÒ»¶ÎÎÄ×Ö£¬ÊÇÐòÁÐµÄ£¬¶øRNN¶ÔÐòÁÐµÄÖ§³Ö±È½ÏºÃ£¬ÄÜ¹»¡°¼ÇÒä¡±Ç°ÎÄ¡£ËäÈ»¿ÉÒÔÌáÈ¡ÌØÕ÷´ÊÏòÁ¿£¬È»ºó½»¸ø´«Í³»úÆ÷Ñ§Ï°Ä£ÐÍ»òÈ«Á¬½ÓÉñ¾ÍøÂçÈ¥×ö£¬Ò²ÄÜÈ¡µÃºÜºÃµÄÐ§¹û£¬µ«Ö»´Ó¶Ë¶Ô¶ËµÄ½Ç¶ÈÀ´¿´µÄ»°£¬RNNÎÞÒÉÊÇ×îºÏÊÊµÄ¡£ ÒÔÏÂ½éÉÜÊµÏÖ¹ý³Ì¡£ Ò»¡¢Êý¾ÝÔ¤´¦Àí ±¾ÎÄÖÐÊ¹ÓÃµÄÑµÁ·Êý¾Ý¼¯Îªhttp://www.cs.cornell.edu/people/pabo/movie-review-data/ÉÏµÄsentence polarity dataset v1.0£¬°üº¬Õý¸ºÃæÆÀÂÛ¸÷5331Ìõ¡£¿ÉÒÔµã»÷½øÐÐÏÂÔØ¡£ Êý¾ÝÏÂÔØÏÂÀ´Ö®ºóÐèÒª½øÐÐ½âÑ¹£¬µÃµ½rt-polarity.negºÍrt-polarity.posÎÄ¼þ£¬ÕâÁ½¸öÎÄ¼þÊÇWindows-1252±àÂëµÄ£¬ÏÈ½«Ëü×ª³Éunicode´¦ÀíÆðÀ´»á¸ü·½±ã¡£ ²¹³äÒ»ÏÂÐ¡ÖªÊ¶£¬µ±ÎÒÃÇ´ò¿ªÒ»¸öÎÄ¼þ£¬·¢ÏÖÂÒÂë£¬È´ÓÖ²»ÖªµÀ¸ÃÎÄ¼þµÄ±àÂëÊÇÊ²Ã´µÄÊ±ºò£¬¿ÉÒÔÊ¹ÓÃpythonµÄchardetÀà¿â½øÐÐÅÐ¶Ï£¬ÕâÀïµÄWindows-1252¾ÍÊÇÊ¹ÓÃ¸ÃÀà¿â¼ì²â³öÀ´µÄ¡£ ÔÚÊý¾ÝÔ¤´¦Àí²¿·Ö£¬ÎÒÃÇÒªÍê³ÉÈçÏÂ´¦Àí¹ý³Ì£º 1.×ªÂë ¼´½«ÎÄ¼þ×ªÎªunicode±àÂë£¬·½±ãÎÒÃÇºóÐø²Ù×÷¡£¶ÁÈ¡ÎÄ¼þ£¬×ª»»±àÂë£¬ÖØÐÂÐ´Èëµ½ÐÂÎÄ¼þ¼´¿É¡£²»´æÔÚ¼¼ÊõÄÑµã¡£ 2.Éú³É´Ê»ã±í ¶ÁÈ¡ÑµÁ·ÎÄ¼þ£¬ÌáÈ¡³öËùÓÐµÄµ¥´Ê£¬²¢Í³¼Æ¸÷¸öµ¥´Ê³öÏÖµÄ´ÎÊý¡£ÎªÁË±ÜÃâµÍÆµ´ÊµÄ¸ÉÈÅ£¬Í¬Ê±¼õÉÙÄ£ÐÍ²ÎÊý£¬ÎÒÃÇÖ»±£Áô²¿·Ö¸ßÆµ´Ê£¬±ÈÈçÕâÀïÎÒÖ»±£´æ³öÏÖ´ÎÊýÇ°9999¸ö£¬Í¬Ê±½«µÍÆµ´Ê±êÊ¶·û¼ÓÈëµ½´Ê»ã±íÖÐ¡£ 3.½èÖú´Ê»ã±í½«Ó°ÆÀ×ª»¯Îª´ÊÏòÁ¿ µ¥´ÊÊÇÃ»·¨Ö±½ÓÊäÈë¸øÄ£ÐÍµÄ£¬ËùÒÔÎÒÃÇÐèÒª½«´Ê»ã±íÖÐµÄÃ¿¸öµ¥´Ê¶ÔÓ¦ÓÚÒ»¸ö±àºÅ£¬½«Ó°ÆÀÊý¾Ý×ª»¯³É´ÊÏòÁ¿¡£·½±ãºóÃæÉú³É´ÊÇ¶Èë¾ØÕó¡£ 4.Ìî³ä´ÊÏòÁ¿²¢×ª»¯ÎªnpÊý×é ÒòÎª²»Í¬ÆÀÂÛµÄ³¤¶ÈÊÇ²»Í¬µÄ£¬ÎÒÃÇÒª×é³Ébatch½øÐÐÑµÁ·£¬¾ÍÐèÒªÏÈ½«Æä³¤¶ÈÍ³Ò»¡£ÕâÀïÎÒÑ¡ÔñÒÔ×î³¤µÄÓ°ÆÀÎª±ê×¼£¬¶ÔÆäËû½Ï¶ÌµÄÓ°ÆÀµÄ¿Õ°×²¿·Ö½øÐÐÌî³ä¡£È»ºó½«Æä×ª»¯³ÉnumpyµÄÊý×é¡£ 5.°´±ÈÀý»®·ÖÊý¾Ý¼¯ °´ÕÕ»úÆ÷Ñ§Ï°µÄ¹ßÀý£¬Êý¾Ý¼¯Ó¦±»»®·ÖÎªÈý·Ý£¬¼´ÑµÁ·¼¯¡¢¿ª·¢¼¯ºÍ²âÊÔ¼¯¡£µ±È»£¬ÓÐÊ±Ò²»áÖ»»®·ÖÁ½·Ý£¬¼´Ö»°üÀ¨ÑµÁ·¼¯ºÍ¿ª·¢¼¯¡£ ÕâÀïÎÒ»®·Ö³ÉÈý·Ý£¬ÑµÁ·¼¯¡¢¿ª·¢¼¯ºÍ²âÊÔ¼¯µÄÕ¼±ÈÎª[0.8,0.1,0.1]¡£»®·ÖµÄ·½Ê½ÎªÂÖÅÌ¶Ä·¨£¬ÔÚnumpyÖÐ¿ÉÒÔÊ¹ÓÃcumsumºÍsearchsortedÀ´¼ò½àµØÊµÏÖÂÖÅÌ¶Ä·¨¡£ 6.´òÂÒÊý¾Ý¼¯£¬Ð´ÈëÎÄ¼þ ÎªÁËÈ¡µÃ¸üºÃµÄÑµÁ·Ð§¹û£¬½«Êý¾Ý¼¯Ëæ»ú´òÂÒ¡£ÎªÁË±£Ö¤ÔÚÑµÁ·ºÍÄ£ÐÍµ÷ÕûµÄ¹ý³ÌÖÐÑµÁ·¼¯¡¢¿ª·¢¼¯¡¢²âÊÔ¼¯²»·¢Éú¸Ä±ä£¬½«Èý¸öÊý¾Ý¼¯Ð´Èëµ½ÎÄ¼þÖÐ£¬Ê¹ÓÃµÄÊ±ºò´ÓÎÄ¼þÖÐ¶ÁÈ¡¡£ ÏÂÃæÌùÉÏÊý¾ÝÔ¤´¦ÀíµÄ´úÂë£¬×¢ÊÍÐ´µÄºÜÏ¸£¬¾Í²»¶àËµÁË¡£ # -*- coding: utf-8 -*- # @Time : 18-3-14 ÏÂÎç2:28 # @Author : AaronJny # @Email : Aaron__7@163.com import sys reload(sys) sys.setdefaultencoding('utf8') import collections import settings import utils import numpy as np def create_vocab(): """ ´´½¨´Ê»ã±í£¬Ð´ÈëÎÄ¼þÖÐ :return: """ # ´æ·Å³öÏÖµÄËùÓÐµ¥´Ê word_list = [] # ´ÓÎÄ¼þÖÐ¶ÁÈ¡Êý¾Ý£¬²ð·Öµ¥´Ê with open(settings.NEG_TXT, 'r') as f: f_lines = f.readlines() for line in f_lines: words = line.strip().split() word_list.extend(words) with open(settings.POS_TXT, 'r') as f: f_lines = f.readlines() for line in f_lines: words = line.strip().split() word_list.extend(words) # Í³¼Æµ¥´Ê³öÏÖµÄ´ÎÊý counter = collections.Counter(word_list) sorted_words = sorted(counter.items(), key=lambda x: x[1], reverse=True) # Ñ¡È¡¸ßÆµ´Ê word_list = [word[0] for word in sorted_words] word_list = [''] + word_list[:settings.VOCAB_SIZE - 1] # ½«´Ê»ã±íÐ´ÈëÎÄ¼þÖÐ with open(settings.VOCAB_PATH, 'w') as f: for word in word_list: f.write(word + '\n') def create_vec(txt_path, vec_path): """ ¸ù¾Ý´Ê»ã±íÉú³É´ÊÏòÁ¿ :param txt_path: Ó°ÆÀÎÄ¼þÂ·¾¶ :param vec_path: Êä³ö´ÊÏòÁ¿Â·¾¶ :return: """ # »ñÈ¡µ¥´Êµ½±àºÅµÄÓ³Éä word2id = utils.read_word_to_id_dict() # ½«Óï¾ä×ª»¯³ÉÏòÁ¿ vec = [] with open(txt_path, 'r') as f: f_lines = f.readlines() for line in f_lines: tmp_vec = [str(utils.get_id_by_word(word, word2id)) for word in line.strip().split()] vec.append(tmp_vec) # Ð´ÈëÎÄ¼þÖÐ with open(vec_path, 'w') as f: for tmp_vec in vec: f.write(' '.join(tmp_vec) + '\n') def cut_train_dev_test(): """ Ê¹ÓÃÂÖÅÌ¶Ä·¨£¬»®·ÖÑµÁ·¼¯¡¢¿ª·¢¼¯ºÍ²âÊÔ¼¯ ´òÂÒ£¬²¢Ð´Èë²»Í¬ÎÄ¼þÖÐ :return: """ # Èý¸öÎ»ÖÃ·Ö±ð´æ·ÅÑµÁ·¡¢¿ª·¢¡¢²âÊÔ data = [[], [], []] labels = [[], [], []] # ÀÛ¼Ó¸ÅÂÊ rate [0.8,0.1,0.1] cumsum_rate [0.8,0.9,1.0] rate = np.array([settings.TRAIN_RATE, settings.DEV_RATE, settings.TEST_RATE]) cumsum_rate = np.cumsum(rate) # Ê¹ÓÃÂÖÅÌ¶Ä·¨»®·ÖÊý¾Ý¼¯ with open(settings.POS_VEC, 'r') as f: f_lines = f.readlines() for line in f_lines: tmp_data = [int(word) for word in line.strip().split()] tmp_label = [1, ] index = int(np.searchsorted(cumsum_rate, np.random.rand(1) * 1.0)) data[index].append(tmp_data) labels[index].append(tmp_label) with open(settings.NEG_VEC, 'r') as f: f_lines = f.readlines() for line in f_lines: tmp_data = [int(word) for word in line.strip().split()] tmp_label = [0, ] index = int(np.searchsorted(cumsum_rate, np.random.rand(1) * 1.0)) data[index].append(tmp_data) labels[index].append(tmp_label) # ¼ÆËãÒ»ÏÂÊµ¼ÊÉÏ·Ö¸î³öÀ´µÄ±ÈÀý print '×îÖÕ·Ö¸î±ÈÀý', np.array([map(len, data)], dtype=np.float32) / sum(map(len, data)) # ´òÂÒÊý¾Ý£¬Ð´Èëµ½ÎÄ¼þÖÐ shuffle_data(data[0], labels[0], settings.TRAIN_DATA) shuffle_data(data[1], labels[1], settings.DEV_DATA) shuffle_data(data[2], labels[2], settings.TEST_DATA) def shuffle_data(x, y, path): """ Ìî³äÊý¾Ý£¬Éú³ÉnpÊý×é ´òÂÒÊý¾Ý£¬Ð´ÈëÎÄ¼þÖÐ :param x: Êý¾Ý :param y: ±êÇ© :param path: ±£´æÂ·¾¶ :return: """ # ¼ÆËãÓ°ÆÀµÄ×î´ó³¤¶È maxlen = max(map(len, x)) # Ìî³äÊý¾Ý data = np.zeros([len(x), maxlen], dtype=np.int32) for row in range(len(x)): data[row, :len(x[row])] = x[row] label = np.array(y) # ´òÂÒÊý¾Ý state = np.random.get_state() np.random.shuffle(data) np.random.set_state(state) np.random.shuffle(label) # ±£´æÊý¾Ý np.save(path + '_data', data) np.save(path + '_labels', label) def decode_file(infile, outfile): """ ½«ÎÄ¼þµÄ±àÂë´Ó'Windows-1252'×ªÎªUnicode :param infile: ÊäÈëÎÄ¼þÂ·¾¶ :param outfile: Êä³öÎÄ¼þÂ·¾¶ :return: """ with open(infile, 'r') as f: txt = f.read().decode('Windows-1252') with open(outfile, 'w') as f: f.write(txt) if __name__ == '__main__': # ½âÂëÎÄ¼þ decode_file(settings.ORIGIN_POS, settings.POS_TXT) decode_file(settings.ORIGIN_NEG, settings.NEG_TXT) # ´´½¨´Ê»ã±í create_vocab() # Éú³É´ÊÏòÁ¿ create_vec(settings.NEG_TXT, settings.NEG_VEC) create_vec(settings.POS_TXT, settings.POS_VEC) # »®·ÖÊý¾Ý¼¯ cut_train_dev_test() ¶þ¡¢Ä£ÐÍ±àÐ´ Êý¾Ý´¦ÀíºÃÖ®ºó£¬¿ªÊ¼Ä£ÐÍµÄ±àÐ´¡£ÕâÀïÑ¡ÓÃÑ»·Éñ¾ÍøÂç£¬½¨Ä£¹ý³Ì´óÖÂÈçÏÂ£º 1.Ê¹ÓÃembedding¹¹½¨´ÊÇ¶Èë¾ØÕó ÔÚÊý¾ÝÔ¤´¦ÀíÖÐ£¬ÎÒÃÇ½«Ó°ÆÀ´¦Àí³ÉÁËÒ»¸ö¸öµ¥´Ê±àºÅ¹¹³ÉµÄÏòÁ¿£¬Ò²¾ÍÊÇËµ£¬Ò»ÌõÓ°ÆÀ£¬¶ÔÓ¦ÓÚÒ»¸öÓÉµ¥´Ê±àºÅ¹¹³ÉµÄÏòÁ¿¡£ ½«ÕâÑùµÄÏòÁ¿½øÐÐembedding£¬¼´¿É¹¹½¨³ö´ÊÇ¶Èë¾ØÕó¡£ÔÚ´ÊÇ¶Èë¾ØÕóÖÐ£¬Ã¿¸ö´ÊÓÉÒ»¸öÏòÁ¿±íÊ¾£¬¾ØÕóÖÐ²»Í¬ÏòÁ¿Ö®¼äµÄ²îÒì¶ÔÓ¦ÓÚËüÃÇ±íÊ¾µÄ´ÊÖ®¼äµÄ²îÒì¡£ 2.Ê¹ÓÃLSTM×÷ÎªÑ»·Éñ¾ÍøÂçµÄ»ù±¾µ¥Ôª ³¤¶ÌÊ±¼ÇÒäÍøÂç(LSTM)ÄÜ¹»×Ô¶¯Íê³ÉÇ°ÎÄÐÅÏ¢µÄ¡°¼ÇÒä¡±ºÍ¡°ÒÅÍü¡±£¬ÔÚÑ»·Éñ¾ÍøÂçÖÐ±íÏÖÁ¼ºÃ£¬ÒÑ¾³ÉÎªÔÚÑ»·Éñ¾ÍøÂçÖÐ´ó²¿·ÖÈËµÄÊ×Ñ¡¡£ÕâÀïÎÒÑ¡ÔñÊ¹ÓÃLSTM×÷ÎªÑ»·Éñ¾ÍøÂçµÄ»ù±¾µ¥Ôª¡£ 3.¶ÔembeddingºÍLSTM½øÐÐËæ»úÊ§»î(dropout) ÎªÁËÌá¸ßÄ£ÐÍµÄ·º»¯ÄÜÁ¦£¬²¢¼õÉÙ²ÎÊý£¬ÎÒ¶Ôembedding²ãºÍLSTMµ¥Ôª½øÐÐdropout¡£ 4.½¨Á¢Éî¶ÈÎª2µÄÉî¶ÈÑ»·Éñ¾ÍøÂç ÎªÁËÌá¸ßÄ£ÐÍµÄÄâºÏÄÜÁ¦£¬Ê¹ÓÃÉî¶ÈÑ»·Éñ¾ÍøÂç£¬ÎÒÑ¡ÔñµÄÉî¶ÈÎª2¡£ 5.¸ø³ö¶þ·ÖÀà¸ÅÂÊ ¶ÔÉî¶ÈÑ»·Éñ¾ÍøÂçµÄ×îºó½ÚµãµÄÊä³ö×öÂß¼»Ø¹é£¬Í¨¹ýsigmoidÊ¹½á¹ûÂäµ½0-1Ö®¼ä£¬´ú±í½á¹ûÊÇÕýÀàµÄ¸ÅÂÊ¡£ ËðÊ§º¯ÊýÊ¹ÓÃ½»²æìØ£¬ÓÅ»¯Æ÷Ñ¡ÔñAdam¡£ ´Ë²¿·Ö´úÂëÈçÏÂ(×¢£º´úÂëÖÐ×°ÊÎÆ÷µÄ×÷ÓÃÎª»®·ÖÃüÃû¿Õ¼äÒÔ¼°±£Ö¤ÕÅÁ¿ÔËËãÖ»±»¶¨ÒåÒ»´Î)£º # -*- coding: utf-8 -*- # @Time : 18-3-14 ÏÂÎç2:57 # @Author : AaronJny # @Email : Aaron__7@163.com import tensorflow as tf import functools import settings HIDDEN_SIZE = 128 NUM_LAYERS = 2 def doublewrap(function): @functools.wraps(function) def decorator(*args, **kwargs): if len(args) == 1 and len(kwargs) == 0 and callable(args[0]): return function(args[0]) else: return lambda wrapee: function(wrapee, *args, **kwargs) return decorator @doublewrap def define_scope(function, scope=None, *args, **kwargs): attribute = '_cache_' + function.__name__ name = scope or function.__name__ @property @functools.wraps(function) def decorator(self): if not hasattr(self, attribute): with tf.variable_scope(name, *args, **kwargs): setattr(self, attribute, function(self)) return getattr(self, attribute) return decorator class Model(object): def __init__(self, data, lables, emb_keep, rnn_keep): """ Éñ¾ÍøÂçÄ£ÐÍ :param data:Êý¾Ý :param lables: ±êÇ© :param emb_keep: emb²ã±£ÁôÂÊ :param rnn_keep: rnn²ã±£ÁôÂÊ """ self.data = data self.label = lables self.emb_keep = emb_keep self.rnn_keep = rnn_keep self.predict self.loss self.global_step self.ema self.optimize self.acc @define_scope def predict(self): """ ¶¨ÒåÇ°Ïò´«²¥¹ý³Ì :return: """ # ´ÊÇ¶Èë¾ØÕóÈ¨ÖØ embedding = tf.get_variable('embedding', [settings.VOCAB_SIZE, HIDDEN_SIZE]) # Ê¹ÓÃdropoutµÄLSTM lstm_cell = [tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_SIZE), self.rnn_keep) for _ in range(NUM_LAYERS)] # ¹¹½¨Ñ»·Éñ¾ÍøÂç cell = tf.nn.rnn_cell.MultiRNNCell(lstm_cell) # Éú³É´ÊÇ¶Èë¾ØÕó£¬²¢½øÐÐdropout input = tf.nn.embedding_lookup(embedding, self.data) dropout_input = tf.nn.dropout(input, self.emb_keep) # ¼ÆËãrnnµÄÊä³ö outputs, last_state = tf.nn.dynamic_rnn(cell, dropout_input, dtype=tf.float32) # ×ö¶þ·ÖÀàÎÊÌâ£¬ÕâÀïÖ»ÐèÒª×îºóÒ»¸ö½ÚµãµÄÊä³ö last_output = outputs[:, -1, :] # Çó×îºó½ÚµãÊä³öµÄÏßÐÔ¼ÓÈ¨ºÍ weights = tf.Variable(tf.truncated_normal([HIDDEN_SIZE, 1]), dtype=tf.float32, name='weights') bias = tf.Variable(0, dtype=tf.float32, name='bias') logits = tf.matmul(last_output, weights) + bias return logits @define_scope def ema(self): """ ¶¨ÒåÒÆ¶¯Æ½¾ù :return: """ ema = tf.train.ExponentialMovingAverage(settings.EMA_RATE, self.global_step) return ema @define_scope def loss(self): """ ¶¨ÒåËðÊ§º¯Êý£¬ÕâÀïÊ¹ÓÃ½»²æìØ :return: """ loss = tf.nn.sigmoid_cross_entropy_with_logits(labels=self.label, logits=self.predict) loss = tf.reduce_mean(loss) return loss @define_scope def global_step(self): """ step,Ã»Ê²Ã´ºÃËµµÄ£¬×¢ÒâÖ¸¶¨trainable=False :return: """ global_step = tf.Variable(0, trainable=False) return global_step @define_scope def optimize(self): """ ¶¨Òå·´Ïò´«²¥¹ý³Ì :return: """ # Ñ§Ï°ÂÊË¥¼õ learn_rate = tf.train.exponential_decay(settings.LEARN_RATE, self.global_step, settings.LR_DECAY_STEP, settings.LR_DECAY) # ·´Ïò´«²¥ÓÅ»¯Æ÷ optimizer = tf.train.AdamOptimizer(learn_rate).minimize(self.loss, global_step=self.global_step) # ÒÆ¶¯Æ½¾ù²Ù×÷ ave_op = self.ema.apply(tf.trainable_variables()) # ×éºÏ¹¹³ÉÑµÁ·op with tf.control_dependencies([optimizer, ave_op]): train_op = tf.no_op('train') return train_op @define_scope def acc(self): """ ¶¨ÒåÄ£ÐÍacc¼ÆËã¹ý³Ì :return: """ # ¶ÔÇ°Ïò´«²¥µÄ½á¹ûÇósigmoid output = tf.nn.sigmoid(self.predict) # Õæ¸ºÀà ok0 = tf.logical_and(tf.less_equal(output, 0.5), tf.equal(self.label, 0)) # ÕæÕýÀà ok1 = tf.logical_and(tf.greater(output, 0.5), tf.equal(self.label, 1)) # Ò»¸öÊý×é£¬ËùÓÐÔ¤²âÕýÈ·µÄ¶¼ÎªTrue,·ñÔòFalse ok = tf.logical_or(ok0, ok1) # ÏÈ×ª»¯³É¸¡µãÐÍ£¬ÔÙÍ¨¹ýÇóÆ½¾ùÀ´¼ÆËãacc acc = tf.reduce_mean(tf.cast(ok, dtype=tf.float32)) return acc Èý¡¢×éÖ¯Êý¾Ý¼¯ ÎÒ±àÐ´ÁËÒ»¸öÀàÓÃÓÚ×éÖ¯Êý¾Ý£¬·½±ãÑµÁ·ºÍÑéÖ¤Ê¹ÓÃ¡£´úÂëºÜ¼òµ¥£¬¾Í²»¶àËµÁË£¬Ö±½ÓÌù´úÂë£º # -*- coding: utf-8 -*- # @Time : 18-3-14 ÏÂÎç3:33 # @Author : AaronJny # @Email : Aaron__7@163.com import numpy as np import settings class Dataset(object): def __init__(self, data_kind=0): """ Éú³ÉÒ»¸öÊý¾Ý¼¯¶ÔÏó :param data_kind: ¾ö¶¨ÁËÊ¹ÓÃÄÄÖÖÊý¾Ý¼¯ 0-ÑµÁ·¼¯ 1-¿ª·¢¼¯ 2-²âÊÔ¼¯ """ self.data, self.labels = self.read_data(data_kind) self.start = 0 # ¼ÇÂ¼µ±Ç°batchÎ»ÖÃ self.data_size = len(self.data) # ÑùÀýÊý def read_data(self, data_kind): """ ´ÓÎÄ¼þÖÐ¼ÓÔØÊý¾Ý :param data_kind:Êý¾Ý¼¯ÖÖÀà 0-ÑµÁ·¼¯ 1-¿ª·¢¼¯ 2-²âÊÔ¼¯ :return: """ # »ñÈ¡Êý¾Ý¼¯Â·¾¶ data_path = [settings.TRAIN_DATA, settings.DEV_DATA, settings.TEST_DATA][data_kind] # ¼ÓÔØ data = np.load(data_path + '_data.npy') labels = np.load(data_path + '_labels.npy') return data, labels def next_batch(self, batch_size): """ »ñÈ¡Ò»¸ö´óÐ¡Îªbatch_sizeµÄbatch :param batch_size: batch´óÐ¡ :return: """ start = self.start end = min(start + batch_size, self.data_size) self.start = end # µ±±éÀúÍê³Éºó»Øµ½Æðµã if self.start >= self.data_size: self.start = 0 # ·µ»ØÒ»¸öbatchµÄÊý¾ÝºÍ±êÇ© return self.data[start:end], self.labels[start:end] ËÄ¡¢Ä£ÐÍÑµÁ· ÑµÁ·¹ý³ÌÖÐ£¬¶îÍâ²Ù×÷Ö÷ÒªÓÐÁ½¸ö£º 1.Ê¹ÓÃÒÆ¶¯Æ½¾ù ÎÒÊ¹ÓÃÒÆ¶¯Æ½¾ùµÄÖ÷ÒªÄ¿µÄÊÇÊ¹lossÇúÏß¾¡Á¿Æ½»¬£¬ÒÔ¼°ÌáÉýÄ£ÐÍµÄ·º»¯ÄÜÁ¦¡£ 2.Ê¹ÓÃÑ§Ï°ÂÊÖ¸ÊýË¥¼õ Ä¿µÄÊÇ±£Ö¤Ç°ÆÚÑ§Ï°ÂÊ×ã¹»´ó£¬ÄÜ¹»¿ìËÙ½µµÍloss£¬ºóÆÚÑ§Ï°ÂÊ±äÐ¡£¬ÄÜ¸üºÃµØ±Æ½ü×îÓÅ½â¡£ µ±È»£¬¾ÍÊÇËµËµ¶øÒÑ£¬Õâ´ÎµÄÑµÁ·Êý¾Ý±È½Ï¼òµ¥£¬Ñ§Ï°ÂÊË¥¼õ·¢»ÓµÄ×÷ÓÃ²»´ó¡£ ÑµÁ·¹ý³ÌÖÐ£¬¶¨ÆÚ±£´æÄ£ÐÍ£¬ÒÔ¼°checkpoint¡£ÕâÑù¿ÉÒÔÔÚÑµÁ·µÄÍ¬Ê±£¬ÔÚÑéÖ¤½Å±¾ÖÐ¶ÁÈ¡×îÐÂÄ£ÐÍ½øÐÐÑéÖ¤¡£ ´Ë²¿·Ö¾ßÌå´úÂëÈçÏÂ£º # -*- coding: utf-8 -*- # @Time : 18-3-14 ÏÂÎç4:41 # @Author : AaronJny # @Email : Aaron__7@163.com import settings import tensorflow as tf import models import dataset import os BATCH_SIZE = settings.BATCH_SIZE # Êý¾Ý x = tf.placeholder(tf.int32, [None, None]) # ±êÇ© y = tf.placeholder(tf.float32, [None, 1]) # emb²ãµÄdropout±£ÁôÂÊ emb_keep = tf.placeholder(tf.float32) # rnn²ãµÄdropout±£ÁôÂÊ rnn_keep = tf.placeholder(tf.float32) # ´´½¨Ò»¸öÄ£ÐÍ model = models.Model(x, y, emb_keep, rnn_keep) # ´´½¨Êý¾Ý¼¯¶ÔÏó data = dataset.Dataset(0) saver = tf.train.Saver() with tf.Session() as sess: # È«¾Ö³õÊ¼»¯ sess.run(tf.global_variables_initializer()) # µü´úÑµÁ· for step in range(settings.TRAIN_TIMES): # »ñÈ¡Ò»¸öbatch½øÐÐÑµÁ· x, y = data.next_batch(BATCH_SIZE) loss, _ = sess.run([model.loss, model.optimize], {model.data: x, model.label: y, model.emb_keep: settings.EMB_KEEP_PROB, model.rnn_keep: settings.RNN_KEEP_PROB}) # Êä³öloss if step % settings.SHOW_STEP == 0: print 'step {},loss is {}'.format(step, loss) # ±£´æÄ£ÐÍ if step % settings.SAVE_STEP == 0: saver.save(sess, os.path.join(settings.CKPT_PATH, settings.MODEL_NAME), model.global_step) Îå¡¢ÑéÖ¤Ä£ÐÍ ¼ÓÔØ×îÐÂÄ£ÐÍ½øÐÐÑéÖ¤£¬Í¨¹ýÐÞ¸ÄÊý¾Ý¼¯¶ÔÏóµÄ²ÎÊý¿ÉÒÔÖÆ¶¨ÑµÁ·/¿ª·¢/²âÊÔ¼¯½øÐÐÑéÖ¤¡£ ¼ÓÔØÄ£ÐÍµÄÊ±ºò£¬Ê¹ÓÃÒÆ¶¯Æ½¾ùµÄÓ°×Ó±äÁ¿¸²¸Ç¶ÔÓ¦±äÁ¿¡£ ´úÂëÈçÏÂ£º # -*- coding: utf-8 -*- # @Time : 18-3-14 ÏÂÎç5:09 # @Author : AaronJny # @Email : Aaron__7@163.com import settings import tensorflow as tf import models import dataset import os import time # ÎªÁËÔÚÊ¹ÓÃGPUÑµÁ·µÄÍ¬Ê±£¬Ê¹ÓÃCPU½øÐÐÑéÖ¤ os.environ['CUDA_VISIBLE_DEVICES'] = '' BATCH_SIZE = settings.BATCH_SIZE # Êý¾Ý x = tf.placeholder(tf.int32, [None, None]) # ±êÇ© y = tf.placeholder(tf.float32, [None, 1]) # emb²ãµÄdropout±£ÁôÂÊ emb_keep = tf.placeholder(tf.float32) # rnn²ãµÄdropout±£ÁôÂÊ rnn_keep = tf.placeholder(tf.float32) # ´´½¨Ò»¸öÄ£ÐÍ model = models.Model(x, y, emb_keep, rnn_keep) # ´´½¨Ò»¸öÊý¾Ý¼¯¶ÔÏó data = dataset.Dataset(1) # 0-ÑµÁ·¼¯ 1-¿ª·¢¼¯ 2-²âÊÔ¼¯ # ÒÆ¶¯Æ½¾ù±äÁ¿ restore_variables = model.ema.variables_to_restore() # Ê¹ÓÃÒÆ¶¯Æ½¾ù±äÁ¿½øÐÐ¸²¸Ç saver = tf.train.Saver(restore_variables) with tf.Session() as sess: while True: # ¼ÓÔØ×îÐÂµÄÄ£ÐÍ ckpt = tf.train.get_checkpoint_state(settings.CKPT_PATH) saver.restore(sess, ckpt.model_checkpoint_path) # ¼ÆËã²¢Êä³öacc acc = sess.run([model.acc], {model.data: data.data, model.label: data.labels, model.emb_keep: 1.0, model.rnn_keep: 1.0}) print 'acc is ', acc time.sleep(1) Áù¡¢¶Ô´Ê»ã±í½øÐÐ²Ù×÷µÄ¼¸¸ö·½·¨ °Ñ¶Ô´Ê»ã±í½øÐÐ²Ù×÷µÄ¼¸¸ö·½·¨ÌáÈ¡³öÀ´ÁË£¬·Åµ½ÁËutils.pyÎÄ¼þÖÐ¡£ # -*- coding: utf-8 -*- # @Time : 18-3-14 ÏÂÎç2:44 # @Author : AaronJny # @Email : Aaron__7@163.com import settings def read_vocab_list(): """ ¶ÁÈ¡´Ê»ã±í :return:ÓÉ´Ê»ã±íÖÐËùÓÐµ¥´Ê×é³ÉµÄÁÐ±í """ with open(settings.VOCAB_PATH, 'r') as f: vocab_list = f.read().strip().split('\n') return vocab_list def read_word_to_id_dict(): """ Éú³ÉÒ»¸öµ¥´Êµ½±àºÅµÄÓ³Éä :return:µ¥´Êµ½±àºÅµÄ×Öµä """ vocab_list = read_vocab_list() word2id = dict(zip(vocab_list, range(len(vocab_list)))) return word2id def read_id_to_word_dict(): """ Éú³ÉÒ»¸ö±àºÅµ½µ¥´ÊµÄÓ³Éä :return:±àºÅµ½µ¥´ÊµÄ×Öµä """ vocab_list = read_vocab_list() id2word = dict(zip(range(len(vocab_list)), vocab_list)) return id2word def get_id_by_word(word, word2id): """ ¸ø¶¨Ò»¸öµ¥´ÊºÍ×Öµä£¬»ñµÃµ¥´ÊÔÚ×ÖµäÖÐµÄ±àºÅ :param word: ¸ø¶¨µ¥´Ê :param word2id: µ¥´Êµ½±àºÅµÄÓ³Éä :return: Èôµ¥´ÊÔÚ×ÖµäÖÐ£¬·µ»Ø¶ÔÓ¦µÄ±àºÅ ·ñÔò£¬·µ»Øword2id[''] """ if word in word2id: return word2id[word] else: return word2id[''] Æß¡¢¶ÔÄ£ÐÍ½øÐÐÅäÖÃ Ä£ÐÍµÄÅäÖÃ²ÎÊý´ó¶àÊý¶¼±»ÌáÈ¡³öÀ´£¬µ¥¶À·Åµ½ÁËsettings.pyÎÄ¼þÖÐ£¬¿ÉÒÔÔÚÕâÀï¶ÔÄ£ÐÍ½øÐÐÅäÖÃ¡£ # -*- coding: utf-8 -*- # @Time : 18-3-14 ÏÂÎç2:44 # @Author : AaronJny # @Email : Aaron__7@163.com # Ô´Êý¾ÝÂ·¾¶ ORIGIN_NEG = 'data/rt-polarity.neg' ORIGIN_POS = 'data/rt-polarity.pos' # ×ªÂëºóµÄÊý¾ÝÂ·¾¶ NEG_TXT = 'data/neg.txt' POS_TXT = 'data/pos.txt' # ´Ê»ã±íÂ·¾¶ VOCAB_PATH = 'data/vocab.txt' # ´ÊÏòÁ¿Â·¾¶ NEG_VEC = 'data/neg.vec' POS_VEC = 'data/pos.vec' # ÑµÁ·¼¯Â·¾¶ TRAIN_DATA = 'data/train' # ¿ª·¢¼¯Â·¾¶ DEV_DATA = 'data/dev' # ²âÊÔ¼¯Â·¾¶ TEST_DATA = 'data/test' # Ä£ÐÍ±£´æÂ·¾¶ CKPT_PATH = 'ckpt' # Ä£ÐÍÃû³Æ MODEL_NAME = 'model' # ´Ê»ã±í´óÐ¡ VOCAB_SIZE = 10000 # ³õÊ¼Ñ§Ï°ÂÊ LEARN_RATE = 0.0001 # Ñ§Ï°ÂÊË¥¼õ LR_DECAY = 0.99 # Ë¥¼õÆµÂÊ LR_DECAY_STEP = 1000 # ×ÜÑµÁ·´ÎÊý TRAIN_TIMES = 2000 # ÏÔÊ¾ÑµÁ·lossµÄÆµÂÊ SHOW_STEP = 10 # ±£´æÑµÁ·Ä£ÐÍµÄÆµÂÊ SAVE_STEP = 100 # ÑµÁ·¼¯Õ¼±È TRAIN_RATE = 0.8 # ¿ª·¢¼¯Õ¼±È DEV_RATE = 0.1 # ²âÊÔ¼¯Õ¼±È TEST_RATE = 0.1 # BATCH´óÐ¡ BATCH_SIZE = 64 # emb²ãdropout±£ÁôÂÊ EMB_KEEP_PROB = 0.5 # rnn²ãdropout±£ÁôÂÊ RNN_KEEP_PROB = 0.5 # ÒÆ¶¯Æ½¾ùË¥¼õÂÊ EMA_RATE = 0.99 °Ë¡¢ÔËÐÐÄ£ÐÍ ÖÁ´Ë£¬Ä£ÐÍ¹¹½¨Íê³É¡£Ä£ÐÍµÄÔËÐÐ²½Öè´óÖÂÈçÏÂ£º 1.È·±£Êý¾ÝÎÄ¼þ·ÅÔÚÁË¶ÔÓ¦Â·¾¶ÖÐ£¬ÔËÐÐpython process_data¶ÔÊý¾Ý½øÐÐÔ¤´¦Àí¡£ 2.ÔËÐÐpython train.py¶ÔÄ£ÐÍ½øÐÐÑµÁ·£¬ÑµÁ·ºÃµÄÄ£ÐÍ»á×Ô¶¯±£´æµ½¶ÔÓ¦µÄÂ·¾¶ÖÐ¡£ 3.ÔËÐÐpython eval.py¶ÁÈ¡±£´æµÄ×îÐÂÄ£ÐÍ£¬¶ÔÑµÁ·/¿ª·¢/²âÊÔ¼¯½øÐÐÑéÖ¤¡£ ÎÒ¼òµ¥ÅÜÁËÒ»ÏÂ£¬ÓÉÓÚÊý¾Ý¼¯½ÏÐ¡£¬Ä£ÐÍµÄ·º»¯ÄÜÁ¦²»ÊÇºÜºÃ¡£ µ±ÑµÁ·¼¯¡¢¿ª·¢¼¯¡¢²âÊÔ¼¯µÄ·Ö²¼Îª[0.8,0.1,0.1]£¬ÑµÁ·2000¸öbatch_size=64µÄmini_batchÊ±£¬Ä£ÐÍÔÚ¸÷Êý¾Ý¼¯ÉÏµÄacc±íÏÖ´óÖÂÈçÏÂ£º ÑµÁ·¼¯ 0.95 ¿ª·¢¼¯ 0.79 ²âÊÔ¼¯ 0.80 ¸ü¶à ×ªÐÐ×ö»úÆ÷Ñ§Ï°£¬ÒªÑ§µÄ»¹ºÜ¶à£¬ÎÄÖÐÈçÓÐ´íÎóç¢Â©Ö®´¦£¬¿ÒÇëÖîÎ»´óÀÐÅÄ×©Ö¸½Ì¡ ÏîÄ¿GitHubµØÖ·£ºhttp://github.com/AaronJny/emotional_classification_with_rnn ÒÔÉÏ¾ÍÊÇ±¾ÎÄµÄÈ«²¿ÄÚÈÝ£¬Ï£Íû¶Ô´ó¼ÒµÄÑ§Ï°ÓÐËù°ïÖú£¬Ò²Ï£Íû´ó¼Ò¶à¶àÖ§³ÖÖÐÎÄÔ´ÂëÍø¡£