Context Navigation

← Previous Changeset
Next Changeset →

Changeset 65110 in webkit

Timestamp:

Aug 10, 2010, 6:55:53 PM (16 years ago)

Author:

abarth@webkit.org

Message:

2010-08-10 Adam Barth <abarth@webkit.org>

Reviewed by Eric Seidel.

Clients of HTMLTokenizer should be able to see where characters went in the token
https://bugs.webkit.org/show_bug.cgi?id=43766

When viewing the source of a document, we want to colorize different
parts of the input depending on how they were tokenized. In this
patch, we expose the internal segmentation of a token by recording the
start and end offsets for each attribute name and each attribute value.

html/HTMLToken.h: (WebCore::HTMLToken::addNewAttribute): (WebCore::HTMLToken::beginAttributeName): (WebCore::HTMLToken::endAttributeName): (WebCore::HTMLToken::beginAttributeValue): (WebCore::HTMLToken::endAttributeValue): (WebCore::HTMLToken::appendToAttributeName): (WebCore::HTMLToken::appendToAttributeValue): (WebCore::AtomicHTMLToken::AtomicHTMLToken):
html/HTMLTokenizer.cpp: (WebCore::HTMLTokenizer::nextToken):

Location:

trunk/WebCore

Files:

: 3 edited

ChangeLog (modified) (1 diff)
html/HTMLToken.h (modified) (5 diffs)
html/HTMLTokenizer.cpp (modified) (10 diffs)

Legend:

: Unmodified
: Added
: Removed

trunk/WebCore/ChangeLog

-              r65108
+              r65110
+-08-10  Adam Barth  <abarth@webkit.org>
+        Reviewed by Eric Seidel.
+        Clients of HTMLTokenizer should be able to see where characters went in the token
+        https://bugs.webkit.org/show_bug.cgi?id=43766
+        When viewing the source of a document, we want to colorize different
+        parts of the input depending on how they were tokenized.  In this
+        patch, we expose the internal segmentation of a token by recording the
+        start and end offsets for each attribute name and each attribute value.
+        * html/HTMLToken.h:
+        (WebCore::HTMLToken::addNewAttribute):
+        (WebCore::HTMLToken::beginAttributeName):
+        (WebCore::HTMLToken::endAttributeName):
+        (WebCore::HTMLToken::beginAttributeValue):
+        (WebCore::HTMLToken::endAttributeValue):
+        (WebCore::HTMLToken::appendToAttributeName):
+        (WebCore::HTMLToken::appendToAttributeValue):
+        (WebCore::AtomicHTMLToken::AtomicHTMLToken):
+        * html/HTMLTokenizer.cpp:
+        (WebCore::HTMLTokenizer::nextToken):
 -08-10  Dumitru Daniliuc  <dumi@chromium.org>

trunk/WebCore/html/HTMLToken.h

-              r64724
+              r65110
     };
+    class Range {
+    public:
+        int m_start;
+        int m_end;
+    };
     class Attribute {
     public:
+        Range m_nameRange;
+        Range m_valueRange;
         WTF::Vector<UChar, 32> m_name;
         WTF::Vector<UChar, 32> m_value;
 …
         m_attributes.grow(m_attributes.size() + 1);
         m_currentAttribute = &m_attributes.last();
+#ifndef NDEBUG
+        m_currentAttribute->m_nameRange.m_start = 0;
+        m_currentAttribute->m_nameRange.m_end = 0;
+        m_currentAttribute->m_valueRange.m_start = 0;
+        m_currentAttribute->m_valueRange.m_end = 0;
+#endif
+    }
+    void beginAttributeName(int index)
+    {
+        m_currentAttribute->m_nameRange.m_start = index;
+    }
+    void endAttributeName(int index)
+    {
+        m_currentAttribute->m_nameRange.m_end = index;
+        m_currentAttribute->m_valueRange.m_start = index;
+        m_currentAttribute->m_valueRange.m_end = index;
+    }
+    void beginAttributeValue(int index)
+    {
+        m_currentAttribute->m_valueRange.m_start = index;
+#ifndef NDEBUG
+        m_currentAttribute->m_valueRange.m_end = 0;
+#endif
+    }
+    void endAttributeValue(int index)
+    {
+        m_currentAttribute->m_valueRange.m_end = index;
+    }
 …
         ASSERT(character);
         ASSERT(m_type == StartTag || m_type == EndTag);
+        ASSERT(m_currentAttribute->m_nameRange.m_start);
         m_currentAttribute->m_name.append(character);
+    }
 …
         ASSERT(character);
         ASSERT(m_type == StartTag || m_type == EndTag);
+        ASSERT(m_currentAttribute->m_valueRange.m_start);
         m_currentAttribute->m_value.append(character);
+    }
 …
                     String name(iter->m_name.data(), iter->m_name.size());
                     String value(iter->m_value.data(), iter->m_value.size());
+                    ASSERT(iter->m_nameRange.m_start);
+                    ASSERT(iter->m_nameRange.m_end);
+                    ASSERT(iter->m_valueRange.m_start);
+                    ASSERT(iter->m_valueRange.m_end);
                     RefPtr<Attribute> mappedAttribute = Attribute::createMapped(name, value);
                     if (!m_attributes) {

trunk/WebCore/html/HTMLTokenizer.cpp

-              r65077
+              r65110
         else if (isASCIIUpper(cc)) {
             m_token->addNewAttribute();
+            m_token->beginAttributeName(source.numberOfCharactersConsumed());
             m_token->appendToAttributeName(toLowerCase(cc));
             ADVANCE_TO(AttributeNameState);
 …
                 parseError();
             m_token->addNewAttribute();
+            m_token->beginAttributeName(source.numberOfCharactersConsumed());
             m_token->appendToAttributeName(cc);
             ADVANCE_TO(AttributeNameState);
 …
     BEGIN_STATE(AttributeNameState) {
+        if (isTokenizerWhitespace(cc))
+        if (isTokenizerWhitespace(cc)) {
+            m_token->endAttributeName(source.numberOfCharactersConsumed());
             ADVANCE_TO(AfterAttributeNameState);
+        else if (cc == '/')
+        } else if (cc == '/') {
+            m_token->endAttributeName(source.numberOfCharactersConsumed());
             ADVANCE_TO(SelfClosingStartTagState);
+        else if (cc == '=')
+        } else if (cc == '=') {
+            m_token->endAttributeName(source.numberOfCharactersConsumed());
             ADVANCE_TO(BeforeAttributeValueState);
+        else if (cc == '>')
+            return emitAndResumeIn(source, DataState);
+        else if (isASCIIUpper(cc)) {
+        } else if (cc == '>') {
+            m_token->endAttributeName(source.numberOfCharactersConsumed());
+            return emitAndResumeIn(source, DataState);
+        } else if (isASCIIUpper(cc)) {
             m_token->appendToAttributeName(toLowerCase(cc));
             ADVANCE_TO(AttributeNameState);
         } else if (cc == InputStreamPreprocessor::endOfFileMarker) {
             parseError();
+            m_token->endAttributeName(source.numberOfCharactersConsumed());
             RECONSUME_IN(DataState);
         } else {
 …
         else if (isASCIIUpper(cc)) {
             m_token->addNewAttribute();
+            m_token->beginAttributeName(source.numberOfCharactersConsumed());
             m_token->appendToAttributeName(toLowerCase(cc));
             ADVANCE_TO(AttributeNameState);
 …
                 parseError();
             m_token->addNewAttribute();
+            m_token->beginAttributeName(source.numberOfCharactersConsumed());
             m_token->appendToAttributeName(cc);
             ADVANCE_TO(AttributeNameState);
 …
         if (isTokenizerWhitespace(cc))
             ADVANCE_TO(BeforeAttributeValueState);
+        else if (cc == '"')
+        else if (cc == '"') {
+            m_token->beginAttributeValue(source.numberOfCharactersConsumed() + 1);
             ADVANCE_TO(AttributeValueDoubleQuotedState);
+        else if (cc == '&')
+        } else if (cc == '&') {
+            m_token->beginAttributeValue(source.numberOfCharactersConsumed());
             RECONSUME_IN(AttributeValueUnquotedState);
+        else if (cc == '\'')
+        } else if (cc == '\'') {
+            m_token->beginAttributeValue(source.numberOfCharactersConsumed() + 1);
             ADVANCE_TO(AttributeValueSingleQuotedState);
         else if (cc == '>') {
+        } else if (cc == '>') {
             parseError();
             return emitAndResumeIn(source, DataState);
 …
             if (cc == '<' || cc == '=' || cc == '`')
                 parseError();
+            m_token->beginAttributeValue(source.numberOfCharactersConsumed());
             m_token->appendToAttributeValue(cc);
             ADVANCE_TO(AttributeValueUnquotedState);
 …
     BEGIN_STATE(AttributeValueDoubleQuotedState) {
+        if (cc == '"')
+        if (cc == '"') {
+            m_token->endAttributeValue(source.numberOfCharactersConsumed());
             ADVANCE_TO(AfterAttributeValueQuotedState);
         else if (cc == '&') {
+        } else if (cc == '&') {
             m_additionalAllowedCharacter = '"';
             ADVANCE_TO(CharacterReferenceInAttributeValueState);
         } else if (cc == InputStreamPreprocessor::endOfFileMarker) {
             parseError();
+            m_token->endAttributeValue(source.numberOfCharactersConsumed());
             RECONSUME_IN(DataState);
         } else {
 …
     BEGIN_STATE(AttributeValueSingleQuotedState) {
+        if (cc == '\'')
+        if (cc == '\'') {
+            m_token->endAttributeValue(source.numberOfCharactersConsumed());
             ADVANCE_TO(AfterAttributeValueQuotedState);
         else if (cc == '&') {
+        } else if (cc == '&') {
             m_additionalAllowedCharacter = '\'';
             ADVANCE_TO(CharacterReferenceInAttributeValueState);
         } else if (cc == InputStreamPreprocessor::endOfFileMarker) {
             parseError();
+            m_token->endAttributeValue(source.numberOfCharactersConsumed());
             RECONSUME_IN(DataState);
         } else {
 …
     BEGIN_STATE(AttributeValueUnquotedState) {
+        if (isTokenizerWhitespace(cc))
+        if (isTokenizerWhitespace(cc)) {
+            m_token->endAttributeValue(source.numberOfCharactersConsumed());
             ADVANCE_TO(BeforeAttributeNameState);
         else if (cc == '&') {
+        } else if (cc == '&') {
             m_additionalAllowedCharacter = '>';
             ADVANCE_TO(CharacterReferenceInAttributeValueState);
+        } else if (cc == '>')
+            return emitAndResumeIn(source, DataState);
+        else if (cc == InputStreamPreprocessor::endOfFileMarker) {
+            parseError();
+        } else if (cc == '>') {
+            m_token->endAttributeValue(source.numberOfCharactersConsumed());
+            return emitAndResumeIn(source, DataState);
+        } else if (cc == InputStreamPreprocessor::endOfFileMarker) {
+            parseError();
+            m_token->endAttributeValue(source.numberOfCharactersConsumed());
             RECONSUME_IN(DataState);
         } else {

Note: See TracChangeset for help on using the changeset viewer.